Kifogyhatunk az adatokból?

2024. május 03. 13:53

A mesterséges intelligencia (MI) képzéséhez rengeteg adatra van szükség. A kutatók szerint az iparág kifogyhat ezekből, és ez lassíthatja a nagy méretű nyelvi modellek fejlődését.

Fekete Kíra

A szerző a Makronóm újságírója.

A pontos és jó minőségű mesterségesintelligencia-algoritmusok betanításához rengeteg adatra van szükségünk. A ChatGPT-t például 570 gigabájtnyi szöveges adaton, azaz körülbelül 300 milliárd szón képezték ki. Elképzelhetetlen mennyiségekről beszélünk.

Hasonlóképpen a stabil diffúziós algoritmust (amely számos MI-képgeneráló alkalmazás, például a DALL-E, a Lensa és a Midjourney mögött áll) az 5,8 milliárd kép-szöveg párosból álló LAION-5B-adathalmazon képezték ki.

Miközben Ön ezt olvassa, valaki máshol már kattintott erre:

Végre leleplezték Von der Leyen mestertervét: így játszaná el Brüsszel és Kijev az unió jövőjét

Tovább a cikkhez

Ha egy algoritmust nem megfelelő mennyiségű adaton képeznek ki, akkor pontatlan vagy rossz minőségű lesz a kimenet.

Ezek mellett fontos az adatok minősége is. Az alacsony színvonalúak, például a közösségimédia-posztok vagy az elmosódott fényképek könnyen beszerezhetők, de nem megfelelők a nagy teljesítményű mesterségesintelligencia-modellek betanításához.

Sőt, a közösségimédia-platformokról vett szövegek lehetnek elfogultak vagy előítéletesek, tartalmazhatnak dezinformációt vagy illegális tartalmakat, amelyeket a modell lemásolhat. Amikor például a Microsoft a Twitter-tartalmak felhasználásával próbálta betanítani a mesterségesintelligencia-botját, az rasszista és nőgyűlölő módon válaszolt.

Ezért az MI fejlesztői jó minőségű tartalmakat keresnek. A Google Assistantot 11 ezer, a Smashwords oldalról származó romantikus regényen képezték ki, hogy fejlesszék a beszédkészségét.

Van elég adatunk?

A mesterségesintelligencia-ipar egyre nagyobb halmazokon képezte ki az MI-rendszereket, ezért vannak ma már olyan nagy teljesítményű modelljeink, mint a ChatGPT vagy a DALL-E 3. Ugyanakkor a kutatások szerint az online adatállományok sokkal lassabban bővülnek, mint ahogy arra szükség lenne.

Egy tavaly megjelent tanulmányban egy kutatócsoport azt jósolta, hogy 2026 előtt kifogyunk a jó minőségű szöveges adatokból, ha a jelenlegi MI-tréningtrendek folytatódnak. Becsléseik szerint az alacsony minőségű nyelvi információk valamikor 2030 és 2050 között, a szintén silány kategóriába tartozó képi adatok tárháza pedig 2030 és 2060 között merül ki.

A PwC számviteli és tanácsadó csoport szerint a mesterséges intelligencia 2030-ra akár 15,7 billió dollárral járulhat hozzá a világgazdasághoz. Az adathiány azonban lassíthatja a fejlődést.

Aggódnunk kellene?

Bár mindezek riadalmat kelthetnek, a helyzet talán nem olyan rossz, mint amilyennek látszik. Számos, jelenleg még ismeretlen megoldás létezik az MI fejlesztésére, és vannak módok arra, hogy miként kezelhetik az adathiány kockázatát. Az egyik lehetőség az, hogy a fejlesztők javítják az algoritmusokat, hogy azok hatékonyabban használják fel a már meglévő adatokat.

Valószínű, hogy az elkövetkező években kevesebb információt és számítási teljesítményt felhasználva is képesek lesznek nagy teljesítményű rendszereket képezni. Ez már csak azért is fontos lenne, mert segítene csökkenteni a mesterséges intelligencia karbonlábnyomát is.

Egy másik lehetőség, hogy az MI-t szintetikus adatok létrehozására használják a rendszerek betanításához. Más szóval, a fejlesztők maguk megteremtik azokat.

Számos projekt már most is használ szintetikus tartalmakat, amelyeket gyakran olyan adatgeneráló szolgáltatásoktól szereznek be, mint a Mostly AI. A The Conversation szerint ez a módszer a jövőben egyre elterjedtebbé válhat.

A fejlesztők az ingyenes online téren kívül is keresnek tartalmakat, például a nagy kiadók és más szolgáltatók külső tárhelyein lévőket. Gondoljunk csak az internet előtt megjelentetett szövegek millióira, amelyek digitálisan elérhetővé téve új adatforrást jelenthetnek a mesterségesintelligencia-projektekhez.

A tartalomkészítők tiltakoztak az ellen, hogy a tartalmaikat jogtalanul használják fel mesterségesintelligencia-modellek képzésére, sőt néhányan be is perelték őket. Azonban van remény, mivel a világ egyik legnagyobb híroldal-tulajdonosa, a News Corp nemrégiben közölte, hogy tartalmi megállapodásokról tárgyal MI-fejlesztőkkel. Ezek értelmében az MI-vállalatoknak fizetniük kell a képzési adatokért.

De nem ez a cég az egyetlen. A Financial Times (FT) megállapodást kötött az OpenAI-jal, így a mesterségesintelligencia-modelljeit többek között az említett hírportál archivált cikkein taníthatja be. A megállapodás értelmében az FT licenceli az anyagait a ChatGPT-t feltaláló vállalatnak, hogy segítsen továbbfejleszteni a már eddig is nagy sikerű termékeit.

A neves MI-startuppal az amerikai Associated Press, a német Axel Springer, a francia Le Monde és a spanyol Prisa Media is kötött megállapodást.

Pereskedés szülte a megoldást

Valóban igazán nagyvonalú az OpenAI, hogy fizet a tartalmakért, azonban ezt nem feltétlen jókedvéből teszi, hiszen nem volt ez mindig így. Korábban már pereskedett több alkotóval és vállalattal is emiatt, így valahol kénytelen volt elsimítani a dolgokat.

A The New York Times volt az első nagy amerikai médiacsoport, amely decemberben beperelte az OpenAI-t és a Microsoftot, azzal érvelve, hogy a technológiai vállalatok ingyen használtak fel több millió cikket a ChatGPT alapjául szolgáló modellek létrehozásához. Ezeknek az időknek vége, viszont valószínűleg az OpenAI-nak még így is megéri.

Kapcsolódó:

Címlapfotó: MTI/EPA/Clemens Bilan

További cikkeinket, elemzéseinket megtalálják a makronom.hu oldalon.

Ez rendben van, hiszen a pártja emberei mondják ezeket a dolgokat – Amerikai sztárújságírót kérdeztünk Orbán Balázs AI-videójáról

Külföld

Hayvi Bouzo szerint nincs ügy.

Leó pápa a fiataloknak: Ne a mesterséges intelligencia készítse el a házi feladatodat!

Videó

Külföld

Élőben, online beszélgetett több mint 15 ezer amerikai tinédzserrel XIV. Leó pápa.

Ezt látni kell: egy robottól kapott élő táncot Putyin (VIDEÓ)

Videó

Külföld

Az orosz elnöknek szerdán a Sberbank „Utazás a mesterséges intelligencia világába” című konferenciáján bemutatták az ország legnagyobb pénzintézetének táncoló robotját.

A mesterséges intelligencia árnyoldala – „horrormacit” vontak ki a piacról

Külföld

A Kumma nevű plüss olyan témákban kezdeményezett beszélgetést a gyerekekkel, amelyek veszélyt is jelenthettek volna rájuk.

Leo pápa megkongatta a vészharangot – szerinte óriási veszélyeket rejt a mesterséges intelligencia

Videó

Külföld

Az egészségügy jövője egyszerre csábító és ijesztő: miközben az MI javítja a diagnosztikát, sok orvos már most túlterhelt a digitális rendszerektől.

Ki áll nyerésre: az emberi agy vagy a mesterséges intelligencia? Utánajártunk!

Belföld

Szinte a csapból is az folyik, hogy a mesterséges intelligencia az élet egyre több területén előretör, és időről-időre felvetődik a kérdés: vajon felül tud-e kerekedni valaha az emberi agyon. Mesterséges intelligencia-szakértőt kérdeztünk a témában.

Hadházy Ákos megint túl messzire ment, ismét feljelentették az ellenzéki politikust

Belföld

Ezúttal Zalaegerszegen keveredett botrányba az ellenzéki képviselő, kábítószerrel kapcsolatos bűncselekményekkel vádolja a városvezetést.

Ezeket vinné magával Orbán Viktor az űrbe (VIDEÓ)

Belföld

„Nem mindegy, hogy utazunk vagy menekülünk” – reagált Kapu Tibor kérdésére a miniszterelnök.

Összesen 111 komment

A kommentek nem szerkesztett tartalmak, tartalmuk a szerzőjük álláspontját tükrözi. Mielőtt hozzászólna, kérjük, olvassa el a kommentszabályzatot.

Sorrend:

Bi Tang Tomee

•••

2024. május 03. 14:52 • Szerkesztve

Vigyázat!! A mesterséges intelligencia esetében - hasonlóan a távirányított közösségi médiákhoz - lejt a pálya, mert túlnyomó részt libsi és globalista narratívákkal töltik fel. Semmi sem hiányzik jobban az emberiségnek, mint hogy a Schwab-féle pszichopaták ellenünk fordítsák az egyre kifinomultabb algoritmusaikat.

Válasz erre

Jelenleg csak a hozzászólások egy kis részét látja. Hozzászóláshoz és a további kommentek megtekintéséhez lépjen be, vagy regisztráljon!

Videó

Végre leleplezték Von der Leyen mestertervét: így játszaná el Brüsszel és Kijev az unió jövőjét

8 órája

Mindent beleadott a Tisza győzelméért, elsőként ejtették ki – Magyar Péterék inkább visszahoznák a kommunistákat Nagy Ervintől Bódis Krisztáig

A Tisza nyilvánvalóan a Bokros-csomag örököse.

6 órája

Hadházy Ákos megint túl messzire ment, ismét feljelentették az ellenzéki politikust

Ezúttal Zalaegerszegen keveredett botrányba az ellenzéki képviselő, kábítószerrel kapcsolatos bűncselekményekkel vádolja a városvezetést.

2025.11.26 21:39

Ezeket vinné magával Orbán Viktor az űrbe (VIDEÓ)

„Nem mindegy, hogy utazunk vagy menekülünk” – reagált Kapu Tibor kérdésére a miniszterelnök.

2025.11.26 21:11

Trump bevédte megbízottját, miután az a békét szolgáló háttéregyeztetéseket folytatott az oroszokkal

Az amerikai elnök tisztázta a Witkoff körüli találgatásokat, és egyértelműen kiállt megbízottja mellett.

2025.11.26 20:59

Tabuk nélkül a Balatonról – a tó sötét titkai is feltárulnak Kovács Emőke új könyvében

A Balaton törtelmének legeredményesebb kutatója november 19-én, az Országos Széchényi Könyvtárban mutatta be a legújabb kötetét, a Balatoni értéktár sorozat harmadik állomásaként. Az Ismeretlen fejezetek a Pannon-tenger vidékéről című munkában tabuk nélkül rajzolódnak ki a Balaton eddig ismeretlen titkai.

2025.11.26 20:54

Elszabadult a pokol Washingtonban: meglőttek két nemzeti gárdistát a Fehér Ház közelében

A helyszínen azonnal megjelentek a rendőrök.

2025.11.26 20:51

Hajtóvadászat: sokakat lázban tart a Győrnél felrobbant meteor

A keresést az időjárás is nehezíti.

2025.11.26 20:46

Szoboszlai, ki más?! A tökéletesen helyezkedő magyar sztár góljával egyenlített a Liverpool a Bajnokok Ligájában (VIDEÓ)

Jubileumi találat!

2025.11.26 20:30

Így még senki sem égette be Magyar Péteréket: egy pillanat alatt elintézte az egész bagázst Orbán Viktor (VIDEÓ)

Videó

Nem különösebben foglalkoztatta a miniszterelnököt a Tisza Párt.

2025.11.26 20:28

Akták

Kifogyhatunk az adatokból?