Az adatsor 10 különböző hangkategóriából állt, és a rendszer 92 százalékos pontossággal kategorizált. Egy 50 kategóriás másik soron 74 százalékot teljesített. Ugyanezeken az adatsorokon emberek 96 és 81 százalékot értek el.
A fejlesztők kép és hang természetes szinkronizálását használták ki. Meglévő gépilátás-rendszereket videók képeinek csoportosítására, gépitanulás-megoldásukat pedig vizuális kategóriák és természetes hangok kapcsolatának észrevételére tanították be.
A kutatók szerint a hangfelismerés mobileszközök környezetérzékelésén, autonóm robotok helyzetészlelésén javíthat.