Díjra jelölték Lisszabonban az [origo] archívumának címkézését

Vágólapra másolva!
 
Vágólapra másolva!

Célirányos keresést, az olvasói szokások mélyebb és pontosabb felmérését és így célzott, személyesebb fogyasztói elérést tesz lehetővé az [origo] teljes archívumának felcímkézése. A címkézés automatikusan történik, a Szegedi Tudományegyetem algoritmusa alapján. A módszertan ismertetése a legjobb publikációk között verseng Lisszabonban, a világ egyik legrangosabb, mesterséges intelligenciával foglalkozó konferenciáján.

A 370 ezer cikkből álló [origo]-archívum közel 60%-a már elérhető kulcsszavak, úgynevezett címkék segítségével; és néhány héten belül az összes, 1998. december - az [origo] portál indulása - óta készült írás címkéket kap. Így a portál látogatói könnyen és hatékonyan böngészhetnek a teljes archívumban, az eddigi, idő szerinti keresés mellett immár téma szerint is. A módszerrel ráadásul olyan statisztikai adatok is kinyerhetők, amelyek eddig nem voltak ismertek. Például jól látszik a cikkállomány összetételében az [origo] politikai semlegessége : az elmúlt 11 évben a meghatározó politikai szereplők tekintetében kiegyensúlyozott volt a hírportál kínálata. Orbán Viktorról eddig 2105 cikket, míg Gyurcsány Ferencről 2351-et írtak az [origo] újságírói. A hírekben a harmadik leggyakrabban felbukkanó személy Zinédine Zidane lett: őt közel 1400 hír említette meg az elmúlt időben.

A címkézésnek köszönhetően az [origo]-n a témák népszerűsége is összehasonlítható, továbblépve a korábbi cikk-, illetve rovatalapú megközelítésen. Ezért a keresőmotorokhoz hasonlóan mérhető a felhasználók érdeklődési köre, vagyis hogy egy tetszőlegesen meghatározott időszakban a felhasználók összességében milyen témákra, személyekre, eseményekre stb. voltak kíváncsiak. Az olvasói preferenciák pontos megismerése célzottabb hirdetések kialakítására, személyesebb fogyasztói elérésre adhat lehetőséget a későbbiekben.

Hazánkban ez az első ilyen léptékű szövegbányászati alkalmazás, amelyet a Szegedi Tudományegyetem informatikai tanszékcsoportjának mesterségesintelligencia-alapú rendszere valósított meg. A cikkarchívumot címkékkel ellátó szoftver alapja a számítógépes nyelvészet és a gépi tanulás módszertanának ötvözete. Az algoritmussal végzett felcímkézés közel 75%-os pontosságú, ami kiemelkedő eredmény, hiszen a legjobb, szabadon elérhető címkéző algoritmus hatékonysága 32% körüli.
Jól mutatja az eljárás újdonságát és erejét, hogy azt az idén augusztusban Lisszabonban megrendezendő XIX. európai mesterségesintelligencia-konferencia (ECAI2010) zsűrije is nagyra értékelte: a Farkas Richárd, Berend Gábor, Hegedűs István (Szegedi Tudományegyetem), illetve Kárpáti András, Krich Balázs (Origo Zrt.) által közösen jegyzett publikációt a konferencia egyik legjobb cikkének jelölték. A konferenciára 607 publikációt neveztek idén, ennek mindössze 22 százalékát fogadták el publikálásra, és csupán 7 cikk - tehát alig több, mint 1% - verseng a konferencia legjobbjának címéért. Hivatalos eredményt augusztusban, a konferencia helyszínén hirdetnek majd.