Gigantikus archívum készül az interneten publikált tartalmakból

Vágólapra másolva!
Vágólapra másolva!

Az Egyesült Államok legnagyobb látogatható archívuma a Kongresszusi Könyvtár. A hatalmas épület az amerikai történelem írott bizonyítékain túl számtalan könyvnek, folyóiratnak és levélnek ad otthont, polcok százezreit töltik be nyomtatott kiadványok és kézzel írt lapok. A teljesnek mondható gyűjteményből azonban hiányzik az elmúlt közel két évtized több fontos dokumentuma: olyan cikkek, tanulmányok és zeneművek, amelyek csak elektronikus formában, az interneten láttak napvilágot.

A világhálón található weboldalak megőrzése a szakemberek szerint hatalmas munka és nem egyszerű feladat. Nem elsősorban a technológia hiánya vagy az adattárolásra fordított magas költségek jelentenek akadályt, sokkal inkább az a tény, hogy az internet folyamatos "mozgásban" van. Értékes információkat tartalmazó oldalak egyik napról a másikra bukkannak fel, illetve tűnnek el örökre, változnak és átalakulnak - mindezt képtelenség egyetlen központból nyomon követni és archiválni.

Öt év alatt 4 milliárd oldal

Internet Archive néven 1996-ban jött létre az a non-profit szervezet, amely nem kisebb feladatot tűzött ki maga elé, mint hatalmas háttértárolókra lementeni a világhálót. A digitális könyvtár mára 4 milliárd weboldalt, 16 millió usenet üzenetet, 360 dokumentumfilm digitális változatát, valamint 5000 oldalnyi, az internet születésének idején keletkezett iratot gyűjtött össze. Az archívum mérete 40 terrabájt, mennyiségben kétszer akkora, amennyi helyet elektronikus formában foglalna a Kongresszusi Könyvtár több évszázados anyaga.

- Az információs technológia fejlődésével lehetőség nyílt a digitális könyvtárak létrehozására, és ezzel az ismeretek terjesztésének teljesen újszerű módjára - mondta el Brewster Kahle, az Internet Archive alapítója. - Azonban, ha hibázunk, a lehetőségen túl elveszíthetjük mindazt a kulturális örökséget is, amelyet az interneten felhalmozott tartalom képvisel.

Az Internet Archive számos magánszervezet mellett szorosan együttműködik a Kongresszusi Könyvtárral, amelynek eredményeképp mostanra elmondható, hogy viszonylag teljes az internet amerikai szegmenséről készített archívum. Azonban az 1996-ot megelőző időszakból nagyon kevés dokumentum maradt fent.

Kahle sajnálatosnak tartja, hogy az információs technológia korszakának kezdetén sehol, senkinek sem jutott eszébe a korai évek internetes tartalmait megőrizni. Hozzátette azonban, hogy nem volt ez másképp a könyvvel és a fényképekkel sem. Ma már felbecsülhetetlen ritkaságnak számít egy-egy XV. században nyomtatott fóliáns, és az első 10-20 évben készített felvételeket is beolvasztották a filmlemezek ezüsttartalma miatt.

Dollármilliók letöltésre

Most a Kongresszusi Könyvtár az Internet Archive-val közösen olyan rendszer kidolgozásába kezdett, amellyel megbízhatóan, hosszú évtizedekre eltárolható az elektronikus információ. Az intézet erre a célra tavaly decemberben 100 millió dollár költségvetési támogatást kapott a szenátustól.

A könyvtár első lépésben a hosszú távú adattárolás problémáira szeretne választ kapni. Ezek között első helyen szerepel az információ elraktározására használt CD-lemezek és mágnesszalagok rövid élettartama, amelyet még mindig években és nem évtizedekben adnak meg a gyártók. Az intézmény szakemberei szerint ráadásul még ennyi év után sem végeztek átfogó kutatást arról, hogy ezek a széles körben elterjedt adathordozók pontosan mennyi ideig őrzik meg biztonsággal a rájuk bízott elektronikus információt.

Az intézmény több tucat online tartalomszolgáltatóval működik együtt, hogy közösen dolgozzák ki a weboldalak és multimédia-fájlok archiválásának technológiáját. Külön feladat a szerzői jogok tisztázása is, mivel az internetes folyóiratokat kiadó vállalatok többsége nem járult mindeddig hozzá a szervereken tárolt tartalom archiválásához.

Az Internet Archive 1996 óta minden második hónapban "lefényképezi" a nagyobb amerikai internetes tartalomszolgáltatók oldalait, és 5 évente kicseréli a kiszolgált merevlemezparkot.

A jövőben így nyomon lehet követni az egyes weboldalak fejlődését és változását. Az archive.org címen például külön kiemelve megtekinthetőek az 1996-os és a 2000-es amerikai elnökválasztásban részt vett jelöltek honlapja, jól érzékeltetve, mekkora fejlődésen ment át az internetes technológia az eltelt évek alatt.

Michaleczky Péter