Új korszak kezdődött a tudományban

Big Data Science, tudományos adatelemzés, Horváth Dezső Wigner Fizikai Kutatóközpont Részecske- és Magfizikai Intézet tudományos tanácsadója
Vágólapra másolva!
Irdatlan mennyiségben gyűlnek az adatok a genetikai laborokban, részecskegyorsítókban, csillagászati távcsöveknél és számtalan más területen, már a társadalomtudományokban is. Az adatbányászat lehetővé teszi, hogy a tudósok korábban nem is sejtett összefüggésekre bukkanjanak.
Vágólapra másolva!

Jelenleg 60 nagyságrenden belül ismerjük a minket körülvevő világot, 10-30 métertől 1030 méterig terjednek fizikai modelljeink leírásai. A skála alsó végén a téridő szerkezete és az elemi részecskék, a felsőnél a legtávolabbi galaxishalmazok vannak. Ezek olyan dimenziók, ahonnan a legnagyobb részecskegyorsítókkal és a legfejlettebb űrtávcsövekkel nyerünk adatokat.

Galilei: 3 bájt naponta

Méghozzá egyre több adatot. Becslések szerint most 2000 petabájt (kb. 2000 millió gigabájt) tudományos adat létezik, körülbelül a fele szervereken, a fele pedig PC-ken. És ez az irdatlan adatmennyiség gyorsuló ütemben bővül.

Galileo Galilei portréja Forrás: Wikipedia

Nem egészen fél évezred alatt jutottunk el idáig. A modern természettudomány 3 byte/napos sebességgel kezdődött, körülbelül ilyen tempóban gyűjtött adatokat Galileo Galilei forradalmi, az akkori világképet romba döntő távcsöves megfigyeléseivel. Összehasonlításként: egy mai csúcstávcsőről több száz gigabájt adat jön le éjszakánként. Rutherford atommagszerkezetet vizsgáló kísérletei 1 kilobájtnyi adatot termeltek naponta. A CERN Nagy Hadronütköztetőjében az elmúlt két évben 25 petabájtnyi adatot elemeztek, és fel is fedezték bennük a most Nobel-díjjal is elismert Higgs-részecskéket.

A mai tudomány az adatgyűjtésről és adatelemzésről szól. Az óriási adatbázisokban való bányászat új tudományos megközelítést szült: például a genetikában már nem azokat a géneket vizsgálják évtizedeken át, amelyeket egy professzor valamiért gyanúsnak talált egy betegség hátterében, hanem azokat, amelyek egy egészséges és egy beteg sejt genetikai profiljában eltérést mutatnak.

Mostantól itthon is lehet

Az adatalapú, új tudományos korszakot Big Data Science („nagy adat" tudomány) néven is említik, amelyhez mostanra Magyarország is felzárkózott. Mint arról beszámoltunk, a CERN 2012-ben Budapestre helyezte első szintű számítógépes adatközpontját. Az MTA Wigner Fizikai Kutatóközpont csillebérci épületében, a Wigner Adatközpontban jelenleg 6 petabájtnyi adatot tárolnak, de már most 400 petabájt is elférne. Adott a lehetőség, hogy az itteni kapacitások kiaknázásával adatalapú, illetve nagy számítási kapacitást igénylő munkákat végezzenek hazai kutatócsoportok.

Fotó: Pályi Zsófia - Origo

Az MTA Wigner Fizikai Kutatóközpont a magyarországi Big Data kutatásokban érdekelt tudományos közösségeknek szervezett konferenciát szeptemberben, ahol kiderült, hogy az egyik nagy felhasználó az Országos Meteorológiai Szolgálat lehet, amelynek már jelenleg is óriási saját számítási kapacitása van. A tömérdek mennyiségű adattal dolgozó klímaszimulációkkal azt szeretnék megbecsülni, mik lesznek az éghajlatváltozás hatásai Magyarországon, különös tekintettel a városokra és a hosszú hőhullámokra. Ezeket az eredményeket aztán a várostervezésben figyelembe vehetik a döntéshozók.

Kosztolányi profilja

Bár az adatrobbanás leginkább a részecskefizika, a csillagászat a genetika és az agykutatás területén érzékelhető, nézzünk egy kevésbé ismert alkalmazási példát. Kosztolányi Dezső 1921-ben írta az alábbi sorokat, Beírtak engem mindenféle Könyvbe című versében:

„Beírtak engem mindenféle Könyvbe
és minden módon számon tartanak.
Porzó-szagú, sötét hivatalokban
énrólam is szól egy agg-szürke lap.
Ó, fogcsikorgatás. Ó, megalázás,
hogy rab vagyok és nem vagyok szabad.
Nem az enyém már a kezem, a lábam,
és a fejem, az is csak egy adat.”

„Mit írna ma, a személyes profilépítés korában a költő?” – teszi fel a kérdést Ságvári Bence, aki a Big Data társadalomtudományi vonatkozásaira mondott példákat a konferencián. Felhasználói szokásaink, mobilos és netes aktivitásunk követéséből és elemzéséből lassan tényleg adatokká válunk, amelyeket fel lehet használni társadalmi folyamatok modellezésében, trendek megjóslásában.

Az ember persze nem részecske, így a társadalomtudományi alkalmazásnak megvannak a maga speciális korlátai, de azért itt is vannak már érdekes eredmények. Az adatelemzés lehetővé teszi például olyan csoportok és összefüggések felfedezését, amelyekre egyébként nem derülne fény. A mérkőzésekhez kapcsolódó adatok elemzése buktatott le például egy meccseket megbundázó japán szumóbandát. A társadalomtudósok szerint ezeknek a rejtett, úgynevezett niche-csoportoknak a felfedezése lehet az új megközelítés egyik legnagyobb haszna.

Egy másik példa: a meteorológiai és az édességfogyasztási adatok elemzéséből kiderült, hogy az USA-ban minden hurrikán előtt egy konkrét csokimárka fogyasztása ugrik meg a legnagyobb mértékben. Ez jól mutatja, hogy a társadalomtudományoknál is működhet az újfajta megközelítés, az előzetes prekoncepció nélküli – sokszor teljesen váratlan – felfedezés, amelyek egy részét jelenleg nem is lehet megmagyarázni.

Hangulatokra vadásznak

Az adatok társadalomtudományi alkalmazásánál azonban van egy komoly probléma: az adatok jelentős része már cégektől (például Google, Facebook) vagy állami szervektől származik.

A Big Datában a cégek is egyre nagyobb lehetőségeket látnak. A konferencián a Microsoft munkatársa elmondta: ők a közösségi hálón történteket elemzik. Hangulatokra, trendekre, véleményvezérekre vadásznak, az eredményeket aztán a marketingkampányokban szeretnék felhasználni. Az előadó felhívta a figyelmet arra, hogy ugyanez a módszer a választási kampány alatt is alkalmazható.

Becslések szerint 2020-ra körülbelül 40 000 petabájtnyi tudományos adat halmozódik fel, de ezzel együtt is valószínű, hogy unokáink csak nevetnek majd azon, hogy Big Datának neveztük a mostani évtizedeket. A mindennapi élethez kapcsolódóan felgyűlt adatok - az orvosi műszerek adataitól a tőzsdei szimulációkon át a családi videókig - máris jóval túlmutatnak ezen: itt most 2,7 zetabájtnyi (azaz 2,7 millió petbájtnyi) adat van, ami évi 50%-kal nő.

A konferencia zárszavaként Lévai Péter, az MTA Wigner Fizikai Kutatóközpont főigazgatója elmondta: „A jövő kihívásait olykor félelmetesnek érezzük: napjainkban sokszor nézünk szembe attométeres hosszúságokon vagy attomásodperces időtartamok alatt végbemenő folyamatokkal, miközben petabájtnyi adatmennyiséget gyűjtünk be, hogy mindezt jobban megértsük. Ilyenkor a régi módszerek már nem működnek, újakat kell kitalálnunk. A tudományok művelői azonban ettől jönnek lázba, ez a lelkesedés vezet újabb meg újabb eredményekhez. Mire észrevesszük, már egy olyan világban élünk, ahol a tegnap félelmetes kihívásai rutinná szelídültek, s nemcsak a felkészült kutató, hanem az egyszerű hétköznapi ember számára is. Így történt a webbel, s minden bizonnyal ez történik majd a Big Data korszakkal is.”