Öcsi bácsit is kerestük az emberiség emlékezetében

Vágólapra másolva!

A valaha megalkotott legnagyobb adatbázisból kétszáz évre visszamenően is megtudhatjuk, kiről és mikor írtak a könyvekben. Csütörtökön mutatták be az emberiség kereshető "kulturális genetikai állományát", amelyben többek között megnéztük Puskás, Neumann, a Rubik-kocka és Trianon nyomait.

Simon Tamás

Vágólapra másolva!

Google könyvek Harvard Egyetem adatbányászat culturomics Gutenberg-galaxis Science kultúra Liszt Ferenc kulturomika Puskás Ferenc Encyclopedia Britannica Neumann János

Példátlan vállalkozást indított a Harvard Egyetem, a Google és az Encyclopedia Britannica. A természettudományokban már megszokott adatbányászatot és adatelemzést olyan területen vetették be, amely az emberi kultúráról és nyelvről nyújt információkat.

Keresés több mint ötmillió könyvben

Az interneten lévő szöveges tartalom nagy részében könnyen kereshetünk szavakat, neveket, szókapcsolatokat, újabban pedig már komolyabb összefüggéseket, trendeket is. Az emberiség által létrehozott tartalom jelentős része azonban egyelőre nem digitalizált: főleg a könyvekről, a Gutenberg-galaxisról van szó. Nem kell különösebben ecsetelni, miért lenne fantasztikus lehetőség ebben is könnyen keresni.

A Harvard Egyetem kutatói - a Google és az Encyclopedia Britannica szakembereivel összefogva - megtették az első nagy lépést ezen az úton. Több mint ötmillió, az 1800-as évek eleje óta megjelent könyv tartalmát, körülbelül 500 milliárd szót tettek kereshetővé. Ez a mennyiség a valaha kiadott összes könyv körülbelül 4%-át jelenti, és a kutatók szerint már elég nagy adatbázis ahhoz, hogy olyan módszerekkel lehessen elemezni, mint ahogyan például az ember genetikai anyagát (genomját) elemzik. Ezért a "kulturális genom" és "kulturomika" (culturomics) szavakat is használják, a genomika példájára (az "omikákról" lásd keretes írásunkat).

Az emberiségnek e hatalmas "kulturális lenyomatában" szépen követhető, mikor és milyen intenzitással bukkannak fel nevek és kifejezések, azaz kiről (miről), mikor és mennyit írtak a múltban a könyvek lapjain. "A program jelentőségét az adja, hogy ez az első eset, amikor az emberiség számára fontos kérdések sokaságát tehetjük fel mennyiségi megközelítéssel" - mondta az [origo]-nak Erez Lieberman-Aiden, a Harvard Egyetem matematikus-biomérnöke. Az egyik nagyszülői ágon magyar származású szakember Jean-Baptiste Michellel együtt vezeti azt a csoportot, amely az ötletből egy hatalmas adatbázist és egy kifinomult elemzési módszert fejlesztett. Eközben azt a problémát is meg kellett oldaniuk, hogy az 500 milliárd szóból álló, időbeli felbontással bíró adatbázis ne sértse meg a szerzői jogokat, és ki kellett szűrniük a hibás metaadatokkal (például a megjelenés éve) rendelkező könyveket például a Google Books-ban.

Megnéztünk néhány magyar nevet

A munkát 2008-ban kezdték, a programot és az első elvégzett elemzéseket a Science legújabb számában mutatják be a fejlesztők. A cikk megjelenésével egyszerre vált publikussá a www.culturomics.org oldal is, ahol mindenki szabadon megkezdheti a kutakodást. A Harvard Egyetemtől előzetesen kapott adatok alapján mi már megnéztünk néhány olyan nevet és kifejezést, amelyek nekünk magyaroknak érdekesek, Puskás Ferenctől a trianoni békediktátumig. Nézzük akkor először Öcsi bácsit!

Forrás: Harvard University, Google Inc.

A "Ferenc Puskas" név előfordulási gyakoriságának alakulása az elmúlt évtizedekben. Az Aranycsapat és a Real Madrid hatása lehet az első két tüske a grafikonon, aztán talán az edzői pályafutás hatása következik (vesd össze ezekkel az adatokkal).

Mivel magyarázható a negyedik hullámhegy? Az adatbázis alapját adó könyveknek körülbelül 72%-a angol nyelvű (a maradék német, francia, spanyol, orosz, kínai, héber). A Harvardtól kapott grafikonok mindegyike az angol nyelvű könyvek szavaiban végzett keresésre vonatkozik. Nyilvánvaló, hogy az USA-ban (ahol az európai foci csak az 1980-as évektől kezdett népszerű válni) kiadott könyvek korábban "felhígították" a Puskás név gyakoriságát.

Az amerikai hatással magyarázható az is, hogy egy másik világszerte ismert magyar, Neumann János neve két nagyságrenddel nagyobb gyakorisággal és folyamatosabban fordul elő.

Forrás: Harvard University, Google Inc.

A grafikon értelmezéséről: az X tengelyen az idő látható, az Y tengelyen pedig az adott név előfordulási gyakorisága. Neumann esetében az Y tengely tetején látható érték 1e-7, azaz 10-7, azaz egy tízmilliomod. Ha Neumann grafikonja egy 1-es értéket ér el az Y tengelyen, akkor az azt jelenti, hogy abban az évben minden tízmilliomodik szó volt a "Neumann" az összes szó között. Egy kicsit felfelé visszagördítve látható, hogy Puskásnál az egyes érték csak minden egymilliárdodik szót jelenti, holott valószínűleg összemérhetők voltak ismertségben.

Még egy magyar példa, a trianoni békediktátum, amelyet a Múlt-kor szerkesztői elemeztek.

Forrás: Harvard University, Google Inc.

A trianoni trauma a 20-as évektől beleégett a közbeszédbe, és ez így is maradt 1945-ig, amikor is a "hivatalos nyelvből" kikoptatták. A II. világháború vége éles cezúra a Trianon szó találati listájában: 1945-öt követően privát beszélgetésekbe szorult vissza. Ami viszont meglepő és elgondolkodtató, hogy az 1990-es rendszerváltás sem hozott a fogalommá vált szó előfordulási arányaiban meghatározó emelkedést, fordulatot. A felmérés alapján az eddig is jól ismert nemzetközi álláspont mérhető le: a nemzetközi közvélemény apatikus Trianonnal szemben, vagyis számukra nem jelent semmilyen historikus mérföldkövet.

További magyar példák a cikk 2. oldalán láthatók.

Hírességek régen és most

Az angol nyelvű túlsúlyt az is magyarázza, hogy a program egyik első célja az angol nyelv változásainak követése volt az utóbbi kétszáz évben (kiderült például, hogy évente körülbelül 8500 szóval gyarapszik a nyelv), de létrehozói folyamatosan szeretnék bővíteni az adatbázist és a kutatási lehetőségeket. "Fejlesztenünk kell az adatbázist, több könyvvel és további nyelvek bevonásával" - mondja Erez Lieberman-Aiden. "Hasonló módszert kellene kidolgoznunk más forrásokra, például újságokra, folyóiratokra is."

Már a jelenlegi adatokból is kiderülnek azonban érdekes társadalmi-kulturális összefüggések, változások. Az adatok szerint az emberiség egyre gyorsabban felejti el saját múltját: például az 1880-es évre való hivatkozások száma 32 év alatt (1912-re) csökkent a felére, míg az 1973-as évre való hivatkozások már 1983-ra, egy évtized alatt feleződtek. Jól követhető a technikai civilizáció fejlődése is: a technológiai újítások a 20. században több mint kétszer olyan gyorsan terjedtek, mint az azt megelőző században.

A hírességek ma fiatalabbak és közismertebbek, mint 19. századi elődeik, de tündöklésük rövidebb életű (a média nélkül is, mert ne felejtsük el, hogy csak könyvek szerepelnek az adatbázisban). Az 1800-ban született emberek közül kikerülő hírességek átlagéletkora még 43 év volt, az 1950-ben születettek esetében ez már csak 29 év volt.

Forrás: Harvard University, Google Inc.

A www.culturomics.org nagyon hasznos eszköz lehet a cenzúra és a propaganda hatásainak követésére. Érdemes például megnézni, hogy Marc Chagall nevét hányszor említik a német és hányszor az angol könyvek az 1936 és 1944 közötti időszakban. Ugyanígy eltüntették az orosz szövegekből Trockijt vagy a kínaiakból a Tiananmen-teret egy időben.

Forrás: Science/AAAS

A könyvek "kulturális genomunk" fontos részét képezik, olyan információt, amelyet generációról generációra továbbadunk, génjeinkhez hasonlóan. A kulturomika az emberi kultúra fejlődésének új vizsgálati lehetőségét jelenti, amelyben a könyvek az előző generációk "kövületei". Megalkotói szerint az erre alapuló jövőbeli vizsgálatok például betegségek, háborúk, tudomány és vallás rejtett összefüggéseire mutathatnak rá a jövőben.

Az "omikák" (angolul omics) korát éljük. A különféle fajok genetikai állománya, más néven a genom összetett, adatbányászaton alapuló vizsgálatával kezdődött a dolog, amit genomikának (genomics) neveztek el. Aztán jött sorban a többi: a fehérjék (proteinek) komplex kutatása lett a proteomika, a kisebb molekuláké a metabolomika, és lehetne még sorolni a példákat. Eddig talán a bibliomika volt a legfurább közöttük, azaz a szakirodalomban megjelent cikkek információiban történő adatbányászat.

A lényeg ugyanis az adatbányászat: a kísérletekkel, mérésekkel felhalmozott, irdatlan mennyiségű adattömegben (az emberi genetikai állomány például 3 milliárd "betűből" áll) megtalálni a valóban fontos információkat és összefüggéseket. Új tudomány jött létre, a bioinformatika; és új vizsgálati módszer az élettudományokban: az in vitro ("üvegben", azaz élő szervezeten kívül történő vizsgálat) és az in vivo (élő közegben, például állatkísérletben zajló kutatás) mellett megjelent az "in silico" ("szilíciumban", azaz számítógépben) is. Vagyis a mások által felhalmozott kísérleti adatokban találni valamit, adatbányászattal, bioinformatikával - miközben el sem mozdulunk a monitor elől. Ez a fajta adatelemzés ma már számos természettudományban nélkülözhetetlen.

Az "omikák" legújabb tagja a kulturomika: www.culturomics.org.

Forrás: Science/AAAS