A WaveNet ideghálóval elemez nyers hanghullámokat, és próbál modellezni valószínűségi mintázatokat. A rendkívül komplex rendszer másodpercenként legalább 16 ezer mintát kezel, azaz komoly adatmennyiséget hoz létre. Hanghullámok modellezésével képes az emberi hangot utánzó beszéd, vagy klasszikus zeneminták alapján rövid zongoradarabok létrehozására.
A kutatók mindenesetre megjegyezték, hogy a számítógépes beszédgenerálás kisebb érdeklődésre tart számot, mint a természetes nyelvfelismerés. Az utóbbi évek „mesterségesintelligencia-versenyfutásában” alig foglalkoztak vele, holott nagyon fontos szakterület.
„Az ember-számítógép interakció egyik régi célja, hogy gépekkel társalogjunk” – nyilatkozta a DeepMind kutatócsapata.