Képekből készít videókat a gépagy

deep learning, mesterséges intelligencia, robot
Robot egy esseni kiállításon 2012 augusztusában
Vágólapra másolva!
A Massachusetsi Műszaki Egyetem (MTI) kutatói olyan neurális hálót készítettek, ami képes fotókból videókat készíteni olyan módon, hogy megjósolja, milyen képkocka követheti a másikat. Természetesen a gép még nem úgy érti meg a képet, mint az emberek, inkább azt jósolja meg, mely pixelek mozoghatnak a fotón.
Vágólapra másolva!

Ha az ember ránéz egy fotóra, nagy valószínűséggel kitalálja, hogy milyen eseményt ábrázolhat, és nagy pontossággal jósolja meg, mi lehet a következő képkocka. Egy motoron ülő nő valószínűleg éppen száguld a járgányon, ha egy képen frizbi tart a kutya felé, akkor a kutya nagy eséllyel ugrani készül érte.

Alapvető képességünk, hogy a képen látható információk alapján következtetünk egy jövőbeli cselekményre, kutatók pedig azon dolgoznak, hogy ezt a számítógépeknek is megtanítsák. Ez az úgynevezett "machine vision", azaz gépi látás egyik legnagyobb kihívása manapság.

Az MIT kutatói speciálisan tanított neurális hálókat használtak fel erre a feladatra, meglepően jó eredményekkel. A hálók fotókból készítenek videókat olyan módon, hogy a gép megjósolja, mi lehet a következő képkockán. A módszernek azonban számos korlátja van –

a videók csak egymásodperces hosszúságúak,

kicsik, és sokszor borzasztó minőségűek. Mégis impresszív képesség ez egy géptől, és egy lépéssel közelebb visz ahhoz, hogy a gépek is emberibben lássák a világot.

Még jóval odébb van, hogy a gépagyak teljesen megértsék a kép jelentését Forrás: AFP/Patrik Stollarz

A neurális háló betanításához több mint kétmillió videót töltöttek le a Flickr képmegosztóról, majd ezeket válogatták szét négyféle különböző kategóriába, a rajtuk látható jelenetek szerint: golfpálya, strandok, vasútállomások és kórházak. Ezen adatok alapján a háló nem csak rövid videókat tudott generálni, amik hasonlóak voltak a képekhez, de a videón látható volt az is, hogy mi következhet utána.

Természetesen a gép azt találgatta,

hogy mely pixelek változhatnak,

nem pedig magát a jelenetet értette meg. Nagy eséllyel reálisan eltalálta, mi mozoghat a következő másodpercben, de sokszor irreális végeredmény született. Az elkészült gifeket itt nézheti meg.

A strandolós, tóparti képből egy olyan videót készített, amin felcsapnak a hullámok, a vasútállomáson pedig a vonat mozdult meg. Azokon a képeken, amelyeken emberek szerepeltek, nehezebben boldogult.

Más gépi tanulásos rendszerek is értek már el áttörő eredményeket hasonló területeken, van már olyan algoritmus, ami a videók alá illő hangokat generál. A Facebook egyik vezetője, Al Yann LeCun tavaly egy interjút is adott témában, amelyben elmondta, hogy a jövőbeli mozgások megjósolása egy gép esetében olyan, mint a puzzle. Prediktív gépeket előbb fogunk fejleszteni, ez sokkal előbb jön el, minthogy egy gép teljes egészében megértse egy adott kép és videó tartalmát, és az alapján következtessen.