Egyszerű angol nyelvű utasításokból tanulta meg a Montezuma bosszúja játékot egy a Stanfordon fejlesztett mesterségesintelligencia-rendszer. A játék azért jelentett kihívást más MI-knek, mert ritka jutalmakat kínál, és a gamereknek több lépést kell megnyerniük, hogy akármilyen pontot is kapjanak.
A rendszer megerősítéses tanulással, természetes nyelvű utasítások formájában ismerte meg gyorsan a Montezuma bosszúját. A módszer azért lehet komoly hatással az MI-k fejlődésére, mert természetes nyelven nemcsak programozók, hanem bárki adhat nekik utasításokat.
A tanítást az utasítások screenshotokkal való összekapcsolásával oldották meg. A képek ugyanazt a cselekedetet ábrázolták, mint az elmondottak. Mindet a játékból vették ki.
A rendszer 3500 pontjával simán verte az OpenAI Gym 2500-as csúcsteljesítményét.