„Évek óta próbálkozunk videókban lévő képek alá- és leírásaival. Láttunk bámulatra méltó bemutatókat, amelyek azonban mégsem annyira bámulatra méltók, mint amilyennek tűnnek. Az algoritmusok szakértelme arra a területre korlátozódik, amin gyakoroltak. Ha a legtöbb rendszernek korábban soha nem látott másfajta képet vagy szokatlan helyzetet mutatunk, komplett butaságokat állít róluk. Hiányzik belőlük a józanész-bölcselet (commonsense knowledge).
A mesterségesintelligencia-technológiák megosztják a szakmai közvéleményt, még a Facebookon belül sincs egységes vélemény róluk. Intelligens rendszerrel csak nyelvi úton is folytathatunk interakciókat. A probléma az, hogy a nyelv nagyon alacsony sávszélességű csatorna. Sok nyelvi információ azért érthető, mert az ember komoly háttértudással rendelkezik ezen információk értelmezéséhez.
Többek szerint egy MI-rendszernek csak akkor adhatunk elegendő információt, ha a vizuális érzékelés az alapja, mert a képnek sokkal nagyobb az információtartalma, mint a nyelvnek. Ha azt mondjuk egy gépnek, hogy »ez egy okostelefon«, »ez egy gőzhenger«, »egyes tárgyakat megmozdíthatsz, ha meglököd őket, másokat viszont nem«, talán alapismereteket tanul meg a világ működéséről. Kicsit úgy, ahogy a csecsemők.
Mindenképpen azt akarjuk, hogy a gépek videók és más vizuális csatornák szimpla megfigyelése által jussanak hozzá a való világ kényszereit megjelenítő nagymennyiségű tényhez. A folyamat végén így tehetnek szert a józanész-bölcsességre. Ezeket a dolgokat tanulják meg a csecsemők és az állatok életük első hónapjaiban. Csak a puszta megfigyeléssel elképesztő mennyiségű információt tanulunk meg a világról. A gépek pontosan azért téveszthetők meg sokféleképpen, mert nagyon szűk ismereteik vannak a világról.”