A goban diadalmaskodó AlphaGo körül hírverés után világhírűvé vált, a Google által 2014-ben felvásárolt DeepMind egy másik területen, a számítógép által generált beszédben is komoly fejlődésen ment keresztül. A módszert WaveNet rendszerük szövegein tesztelték, emberek hallgatták, és megállapították, hogy egyre kisebb a modern komputerek és az emberi beszéd közti különbség.
A WaveNet-kutatáshoz közeli forrás szerint a rendszer abban különbözik a jelenlegi szöveg-beszéd (text-to-speech) megoldásoktól, hogy emberihang-felvételek helyett tényleges hanghullámok előállítására összpontosít, így próbálja összerakni a beszélt nyelvhez kapcsolódó hangokat.
A WaveNet ideghálóval elemez nyers hanghullámokat, és próbál modellezni valószínűségi mintázatokat. A rendkívül komplex rendszer másodpercenként legalább 16 ezer mintát kezel, azaz komoly adatmennyiséget hoz létre. Hanghullámok modellezésével képes az emberi hangot utánzó beszéd, vagy klasszikus zeneminták alapján rövid zongoradarabok létrehozására.
A kutatók mindenesetre megjegyezték, hogy a számítógépes beszédgenerálás kisebb érdeklődésre tart számot, mint a természetes nyelvfelismerés. Az utóbbi évek „mesterségesintelligencia-versenyfutásában” alig foglalkoztak vele, holott nagyon fontos szakterület.
„Az ember-számítógép interakció egyik régi célja, hogy gépekkel társalogjunk” – nyilatkozta a DeepMind kutatócsapata.