A Google londoni DeepMindjának kutatói (az ő mesterséges intelligenciájuk győzte le a dél-koreai go-világsztárt, most pedig stratégiai játékban készül megmérettetni magát) és az Oxford Egyetem BBC tévéprogramok masszív adatsorára alkalmaztak mélytanulás-technikákat, hogy szájról olvasó rendszerük profiknál is jobban teljesítsen.
A rendszert 2010. január és 2015. december közötti hat tévéprogram 5 ezer órás anyagán gyakoroltatták. Mivel a klipek audió és videosztrímje többször nem volt szinkronban egymással, meg kellett tanulnia a hangok és a szájformák közti eltolódások korrigálását. Ez volt a kutatás alapfeltétele.
Magát a szájról olvasást 2016. március és szeptember közötti tévéprogramokon tesztelték, és a szavak 46,8 százalékát hibátlanul kisilabizálta. Összehasonlításként, profi szájolvasó mindössze 12,4 százalékos pontossággal dolgozott egy 200 klipből álló adatsoron. Ráadásul az MI főként kisebb hibákat vétett, például szóvégi „s” hangokat nem „vett észre.”
A kutatók szerint komoly potenciál rejlik a szájról történő automatikus olvasásban, hallókészülékektől kezdve zajos környezetben történő beszédfelismerésig számos területen alkalmazhatják.