Többek szerint egy MI-rendszernek csak akkor adhatunk elegendő információt, ha a vizuális érzékelés az alapja, mert a képnek sokkal nagyobb az információtartalma, mint a nyelvnek. Ha azt mondjuk egy gépnek, hogy »ez egy okostelefon«, »ez egy gőzhenger«, »egyes tárgyakat megmozdíthatsz, ha meglököd őket, másokat viszont nem«, talán alapismereteket tanul meg a világ működéséről. Kicsit úgy, ahogy a csecsemők.
Mindenképpen azt akarjuk, hogy a gépek videók és más vizuális csatornák szimpla megfigyelése által jussanak hozzá a való világ kényszereit megjelenítő nagymennyiségű tényhez. A folyamat végén így tehetnek szert a józanész-bölcsességre. Ezeket a dolgokat tanulják meg a csecsemők és az állatok életük első hónapjaiban. Csak a puszta megfigyeléssel elképesztő mennyiségű információt tanulunk meg a világról. A gépek pontosan azért téveszthetők meg sokféleképpen, mert nagyon szűk ismereteik vannak a világról.”