Magyarék végül eljutottak a mesterséges intelligenciától a beismerésig
Megint magukat leplezték le. Nem is egyszer.
Hétköznapi ismeretekből könnyen következtetünk, kétértelmű mondatok buktatóit ösztönösen érzékeljük. A gépek viszont egyelőre a sötétben tapogatóznak, megoldhatatlan problémákkal szembesülnek, és a statisztika sem segít rajtuk. Csúnyán leszerepeltek a Turing-teszt legújabb változatán.
Siri és társai kapcsán többször kiderült már, hogy nem is olyan intelligensek az intelligens asszisztensek… Hiába fejlődnek dinamikusan, az emberre jellemző „józanész” (common sense) komoly problémákat okoz nekik. Nem evidens számukra, hogy a fű zöld, az ég kék, éjjel sötét van és hasonlók. Az sem, hogy következtetéseket vonjanak le belőlük.
Legutóbb például egy átértelmezett, az eredetinél nagyságrendekkel nehezebb Turing-teszten, a Winograd Sémaversenyen mérettettek meg, és bizonyultak könnyűnek.
Ugyanúgy, mint majdnem minden teszten, amióta – inkább szenzációhajhász céllal, mint tényleges megoldásokat kutatva – mérik őket.
A megtévesztés művészete
A tesztet a szerteágazó gépi tudatosságot vizsgáló legendás angol matematikusról és MI-előfutárról, Alan Turingról (1912-1954) nevezték el. 1950-ben dolgozta ki az alapokat jelentő úgynevezett imitációs játék módszert.
„Három ember játssza: egy férfi (A), egy nő (B) és egy kérdező (C), aki bármilyen nemű lehet. A kérdező a másik kettőtől elzárt szobában tartózkodik. A játék célja a kérdező számára az, hogy megállapítsa, a másik kettő közül melyik a férfi, melyik a nő. Hogy a hangszín se segíthesse, a válaszokat írásban, vagy még jobb, ha gépírással adják meg. Most kérdezzük meg: mi történik, ha A szerepét egy gép veszi át? Vajon a kérdező ugyanolyan gyakran fog rosszul dönteni, ha a játékot így játsszák, mint akkor, ha a játék egy férfi és egy nő között zajlik? E kérdések helyettesítik az eredeti kérdésünket: tudnak-e a gépek gondolkodni?” – írta Turing.
Évtizedekkel később a teszt népszerű lett, és az MI-k sorra megbuknak. Ismert változatának lényege, hogy a tesztelő billentyűzet és monitor közvetítésével változatos kérdéseket tesz fel az általa nem látott, nem hallott két tesztalanynak. Az egyik ember, a másik gép, de mindketten ember mivoltukról próbálják meggyőzni a kérdezőt. A kérdések az élet minden területére vonatkoznak, és ha a tesztelő hosszas faggatózást követően sem tudja egyértelműen megállapítani, hogy melyik az ember, a gép átment a vizsgán.
A legújabb változatokban, az optikai érzékelést vizsgálva, videojelet is használnak, és léteznek speciális, például zenei változatok is. Néhány nagyon pontosan körülhatárolható, szűk témakörre korlátozódó kérdésekkel vizsgálható szakterület legfejlettebb képviselőit kivéve, egy gép sem ment át rajtuk.
A mostani Turing-teszteket, Loebner díjat és hasonlókat manapság egyre kevésbé értékelik, szinte csak a szenzációhajhász média veszi komolyan, ahol viszont tényleg kíváncsiak és számít, hogy ember vagy gép próbálkozik, más módszereket alkalmaznak, például a CAPTCHA-kat. A kognitív puzzle-szerű tesztmódszer a Completely Automated Public Turing test to tell Computers and Humans Apart rövidítése, ami nagyjából annyit jelent, hogy teljesen automatizált nyilvános, számítógépeket és embereket megkülönböztető Turing-teszt.
Jelentéstani csapdák
A Hector Levesque torontói kutató által 2014-ben kitalált Winograd Sémaverseny a legtöbb Turing-teszthez hasonlóan nyelvalapú. De míg a Turing-teszten egy gép elvileg megtévesztheti a bírát, vagy ködösíthet, addig a Sémaversenyen nincs menekvés…
A lehangoló eredményeket bő két hete ismertették egy new yorki konferencián.
A résztvevő programoknak több választási lehetőséget kínáló kérdéssor kitöltése után kétértelmű, de egy embernek mégis könnyen érthető két mondattal kell elboldogulniuk. Az elnevezés onnan van, hogy a második az első számítógépes beszélgetőprogramokat kidolgozó stanfordi MI-kutatótól Terry Winogradtól ered.
Az első mondat: „a trófea nem fért volna be a barna bőröndbe, mert túl nagy volt. Mi volt túl nagy? Válasz 0: a trófea. Válasz 1: a bőrönd.”
A második mondat: „a városi elöljárók elutasították a tüntetők kérvényét, mert féltek az erőszaktól. Kik féltek az erőszaktól? Válasz 0: a városi elöljárók. Válasz 1: a tüntetők.”
Egy embernek egyértelmű, hogy a trófea volt túl nagy, és a városi elöljárók féltek, a program számára viszont távolról sem ilyen egyszerű a megoldás. Mi értjük a kontextust, ők nem, amit ékesen bizonyított, hogy a két legjobb versenyző (a kínai Quan Liu és a ciprusi Nicos Issak) eredményei nem voltak sokkal jobbak, mintha véletlenszerűen válaszoltak volna. Mindketten a 25 ezer dolláros fődíjhoz szükséges 90 százaléktól igen messzi 48at értek el, szemben a random feleletek 45-ével.
Józanész nélkül nincs gépi intelligencia
„Nem lepődtem meg” – nyilatkozta a verseny tanácsadója, a New York Egyetem kutatópszichológusa és a Geometric Intelligence MI-startup társalapítója, Gary Marcus, majd megindokolta, hogy miért: számítógépeket köztudottan nehéz józanész-ismeretekkel felvértezni. Kézi kódolással borzasztóan sokáig tartana, és szövegek statisztikai elemzéséből sem lenne egyszerű megtanulni. Éppen ezért a versenyzők zöme a két megközelítést próbálta valamilyen szinten egybedolgozni.
Marcus még egy fontos tényre hívta fel a figyelmet: az MI-kutatásban, azon belül különösen a nyelvtechnológiákban és a gépi tanulásban (mélytanulásban) az utóbbi időben jelentős eredményeket elért mamutcégek, a Google, a Facebook, az Amazon, a Microsoft stb. nem képviseltették magukat a versenyen. Valószínűleg azért, mert még ők sincsenek eléggé felkészülve – a „józanész” meghaladja chatbotjaik jelenlegi képességeit.
Liu csapata mélytanulással gyakoroltatta komputerét – különféle események („kosarazás”, „nyerni”, „megsérülni” stb.) közti kapcsolatot kellett felismernie. A hibák korrigálása után állítólag 60 százalékot ért el. Hiába, mert az emberi teljesítménynél az is sokkal rosszabb.
Pedig a „józanész” ismereteken alapuló következtetésekre egyre nagyobb szükség lesz az ember-gép interakcióban. Aligha beszélhetünk „intelligens” programokról addig, amíg nem javulnak látványosan ezen a területen.