Olyan lázadás volt Amerikában, ami mindenki életét meg fogja változtatni
Így vagy úgy, de sikerült újra olyan helyzetbe hozni magunkat, hogy alkalmazkodnunk kell. Varga Mátyás Zsolt írása.
A hiteles géphang hatalmas kihívás. Ne legyen túl emberi, de egy kicsit mégis, a kommunikációs partnert nem kell megtévesztenie, viszont emberi kapcsolatot kellene kiépíteni vele.
A csevegő botok nem csevegnek, hanem csak chatelnek. A Pygmalion virágáruslányáról elnevezett Eliza, a paródiának indult, de aztán meglepően komolyan vett korai mesterségesintelligencia-program, Joseph Weizenbaum fejlesztése, a viszonylag sikeres pszichológusgép szintén hang nélkül érte el eredményeit: a beszélgetőtárs közléseiből kulcsszavak keresésével és behelyettesítésével állította elő értelmesnek tűnő válaszait, sokszor persze szinte csak az előző mondatot, kérdést ismételve.
Bezavarnak az érzelmek
Elizához hasonlóan szintén 60-as évek, valóság helyett azonban fikció, filmvászon, sokáig mégis a géphang archetípusa maradt: 1968-ban bemutatták Stanley Kubrick 2001 – Űrodüsszeiáját, HAL 9000-rel, a lázadó mesterséges intelligenciával.
De hol tartanak ma a számítógépes hangok, és milyennek szeretnénk őket hallani?
Ezekre a kérdésekre igyekezett választ adni a nyelvészek, mérnökök és marketingesek alkotta hatfős IBM-csapat, amikor 2009-ben a később Jeopardy győzteseket alázó MI-program Watson szöveget beszéddé alakító funkcióján dolgoztak.
Másfél év múlva mérettetett meg, és diadalmaskodott két humán bajnok felett. A szintetikus karakter hangját gondosan csiszolták össze: vigyáztak, hogy ne legyen teljesen emberi, de HAL 9000-re se hasonlítson. Az utolsóelőtti rostán négy változat ment át, végül az „objektív és természetes” mellett döntöttek, ami azt a látszatot keltette, mintha Watson „megbecsült kolléga” lenne. A többi vagy túl gépiesnek, vagy gyerekesnek, kicsit félelmetesnek, más célra alkalmasnak, de a vetélkedőre furának, vagy szimplán komolytalannak tűnt.
Komoly kihívást jelentett, mert a számítógépes személyiségeket – amennyiben nem robot, android, virtuális karakter – érzelmileg szinte csak a hangjuk alapján tudjuk megítélni. A hangalapú ember-gép interakció dinamikus fejlődésével egyre markánsabb igény mutatkozik a megfelelő hang iránt. A GPS-től a robotokig, sok hétköznapi tárgy, berendezés és alkalmazás beszél már hozzánk, és nagyon nem mindegy, hogyan szólalnak meg. A „beszélgető ágensek” értik a természetes nyelvet és a beszédet, válaszolnak az emberi hangutasításokra.
Egyelőre lehetetlen teljesen humán gépi hangot alkotni. Egy-két rövid mondat erejéig talán még elhisszük, hogy ember a partnerünk, aztán viszont hamar rájövünk: mégsem.
Ismét egy gyakran emlegetett jelenséggel szembesülünk: a „rejtélyes völgyben” járunk.
A Rejtélyes Völgyben
Az 1970-es évek végén a japán Masahiro Mori dolgozta ki a robot-tervezést és az emberi pszichológiát összekapcsoló, a kettő kölcsönhatásait elemző, úgynevezett Rejtélyes Völgy (Uncanny Valley) elméletet. A Homo sapiens gépi entitásokra reagáló érzelmeit vizsgáló tudós 1974-ben publikálta a robotika metafizikai aspektusait elemző könyvét, The Buddha in the Robot: a Robot Engineer’s Thoughts on Science and Religion (Buddha a robotban: egy robottervező gondolatai tudományról és vallásról) címmel. „Hiszek a robotok Buddha-természetében, abban, hogy bennük van a buddhaság elérésének a lehetősége” – írta.
1978-ban, kísérletei közben, az antropomorfizmus különböző stádiumait tanulmányozva jutott arra a következtetésre, hogy, addig szeretjük gépeinket, addig viszonyulunk hozzájuk mind pozitívabban, amíg (akár) humanoid jellegük ellenére hamisítatlan mechanikus külsővel rendelkeznek. Viszont, ha már megjelenésükben, mozgásukban „majdnem emberek” – replikánsok, androidok –, egy pontot elérve, rövid közöny után, érzéseink gyorsan és drasztikusan ellentétes előjelbe váltanak. Elutasítjuk őket, belépünk a Rejtélyes Völgybe. A „majdnem ember” a „titokzatosat”, az „idegent” és a „nyugtalanítót” egyaránt implikálja. Érezzük, hogy még „majdnem ember”, de többet, mást, nehezen magyarázhatót is, ugyanakkor tisztában vagyunk vele: egyelőre nem „teljesen emberi”. Tudatalattink szörnyekkel, zombikkal népesíti be a kettő között tátongó völgyet – a szakadékot, a senkiföldjét.
Mihelyst százszázalékosan emberi formát öltenek, feloldódik az érzelmi zár, megint elfogadjuk őket, újfent egyre pozitívabb érzelmekkel viszonyulunk hozzájuk. Kapcsolatunk idővel a völgy előtti állapotoknál is bensőségesebb lesz.
Az eredetileg csak robotokra vonatkoztatott elvet később más területekre, így a számítógép által animált karakterekre szintén alkalmazták. Nem kodifikálták, viszont kimondva, kimondatlanul majdnem minden kutató szinte dogmaként tette magáévá.
„Ha egy robot feje nem emberi, inkább elfogadjuk emberi szint alatti viselkedését” – véli Ray Kurzweil.
Viszont ha úgy néz ki, mint mi, ám értelme meg se közelíti a homo sapiensét, olyan érzésünk támad, hogy „hibás”, „megrongálódott”, ráadásul azonosíthatatlan intelligenciával kommunikálunk, ami mindig félelmet kelt.
Mori elmélete robotok és animált karakterek mellett a hangra, beszédre is érvényes.
Barbie baba és az izraeli választások
„Csikorogva megy. Amikor a gépek korrektül tesznek valamit, azt várjuk, hogy mindent korrektül tegyenek” – nyilatkozta a Barbie babáknak digitális hangot adó san franciscói ToyTalk beszédkutatója, Brian Langner.
A fejlesztőknek a pontos kiejtés mellett más kihívásokat, a prozódiaként ismert jelenségcsoportot is kell kezelniük: intonációt, érzelmi töltést, kiemeléseket stb. Érzelmek teljesen élethű vokális megformálása mai mesterségesintelligencia-programokkal egyelőre nem lehetséges. Gépitanulás-algoritmusok masszív beszéd-adatbázisokon dolgoznak rajta.
A beszédszintézist különböző módszerekkel valósítják meg. Emberi hang rögzítésével kezdődik, a többféleképpen elhangzott szövegből és alrészeiből adatbázist generálnak. Elég macerás folyamat, a hangját adó személy, gyakran színész sok-sok órát eltölthet vele.
Egyelőre távol vagyunk a 2013-as A nő alapkonfliktusától, amikor Joaquin Phoenix beleszeret Samanthába, a szintetikus hangba.
A modern beszédszintézis alapjait a jelenleg a Carnegie Mellon Egyetemen tanító skót Alan Black rakta le. Szerinte a komoly fejlődés ellenére is messze még az emberi tökély. Játékoknál, szórakoztató karaktereknél nem gond a hiba, üzleti tevékenység vagy betegápolás közben annál kényesebb, ha a géphang helytelenül fejez ki érzéseket.
A szakértők egyértelműsítenek: a kommunikációs partnert egyáltalán nem akarják megtéveszteni, hogy emberrel beszélget, a felhasználó és a gép között viszont emberszerű kapcsolatot alakítanának ki.
Watson adatbázisán egy évig dolgoztak, de utána is féltek, hogy például kiejtési bakikat követ el, vagy nem tud mit kezdeni az olyan csapdákkal, mint „Champagne”, „carpe diem” stb. Végül lassú, kiegyensúlyozott és kellemes hang mellett döntöttek. Egyértelmű, hogy gép, de optimista, életerős, pozitív kicsengésű.
Az izraeli Imperson szoftverfejlesztő szórakoztatásra szánt beszélgető karakterei után belevág a politikába. Kampányidőszakban a jelölteket avatároknak kellene megszemélyesíteni a közösségimédia-platformokon. Megszólítaná, aktív részvételre buzdítaná a szavazókat. Szimpatikus hanggal sokat maga mellé állíthat…