„Ha embernek mutatunk egy képet, egész pontosan előrejelzi, mi fog történni utána. A bicikliző nő folytatja a biciklizést. A kutya elkapja a frizbit, és így tovább. Annyira alapadottság, hogy figyelembe sem vesszük az ezekhez az előrejelzésekhez használt hatalmas információmennyiséget, amellyel számítógépeket tanítunk ugyanerre. Pedig bebizonyosodott, hogy a gépi tanulás egyik kulcsfontosságú kihívásáról van szó.
MIT-kutatók próbálkoznak a probléma kezelésével, és figyelemreméltó eredményeket értek el. Speciálisan trenírozott ideghálóik videókká alakították a képeket, és a számítógép prognosztizálta a folytatást. A modell ugyan korlátozott (csak pár másodperces, gyakran szörnyű minőségű videók), de a gépi képzelet számára fontos lépés, és a komputerek is valamivel közelebb kerültek ahhoz, hogy a világot egy kicsit még inkább úgy értelmezzék, mint az ember.
Az idegháló a Flickr-ről letöltött több mint 2 millió videón gyakorolt. Négy jelenettípusba rendezték őket: golfpályák, strandok, vasútállomások, kórházak (kisbabák képeivel). A felvételeket stabilizálták, eltűntek a remegő kamerák. Az adatokból az idegháló nemcsak az eredetihez hasonló jeleneteket, gif-eket generált, hanem állóképekből is elkészítette a folytatást, lényegében előrejelezte, mi fog történni. Korlátozott mértékben, mert a pixelek potenciális változásait jósolta, és nem a jeleneteket értette meg.
Az eredményeket könnyű látni, és azt is, hogy a technológia hol elégtelen. A strandvideókon látjuk a hullámtörést, a vasútállomáson a modell tudja, hogy a vonat valószínűleg továbbmegy a kamera előtt. Viszont, ha egy ember golfpályán történő mozgását kell előrejelezni, semmi emberi nem lesz a végeredményben. Zavaros, maszatos, valótlan. A kutatók is megjegyzik, hogy a komputer prognózisa általában nem követi a »korrekt videót«, de legalább »a mozgások hihetők.«
Nehéz lesz túllépni ezeken a hihető, de egyértelműen kamuvideókon, viszont a kapcsolódó területek más gépitanulás-rendszerei komoly fejlődésen mentek keresztül, cselekedeteket, például kézfogást és ölelést jeleznek előre, sőt, a videókhoz illő hangokat is generálnak. Yann LeCun, a Facebook MI-csoport vezetője tavaly nyilatkozta, hogy jövőbeli mozgások generálása az előrejelző számítógépekhez vezető »kirakós játék része«, a videó vagy kép és lehetséges jövőjének igazi megértéséhez viszont sokkal több munka kell.