Számítógépek egyre jobbak a beszéd- és képfelismerésben, természetes hangokkal, például tömegzajokkal vagy bömbölő déltengeri hullámokkal viszont kevésbé boldogulnak.
Az MIT Számítástudomány és Mesterséges Intelligencia Labor (CSAIL) kutatói különleges módszerrel, kézileg annotált adatok helyett videón gyakoroltattak egy hangfelismerő rendszert. A teszteken kiderült, hogy a rendszer 13-15 százalékkal jobban ismer fel természetes hangokat, mint az eddig legjobban teljesítő hasonló programok.
Az adatsor 10 különböző hangkategóriából állt, és a rendszer 92 százalékos pontossággal kategorizált. Egy 50 kategóriás másik soron 74 százalékot teljesített. Ugyanezeken az adatsorokon emberek 96 és 81 százalékot értek el.
A fejlesztők kép és hang természetes szinkronizálását használták ki. Meglévő gépilátás-rendszereket videók képeinek csoportosítására, gépitanulás-megoldásukat pedig vizuális kategóriák és természetes hangok kapcsolatának észrevételére tanították be.
A kutatók szerint a hangfelismerés mobileszközök környezetérzékelésén, autonóm robotok helyzetészlelésén javíthat.