„A drogokkal kapcsolatos társadalmi és egészségügyi problémák az elmúlt évtizedekben nemcsak a bűnüldözés és az egészségügyi ellátás számára jelentettek kihívást, hanem a kutatók és döntéshozók számára is. A gyorsan változó drogpiac, az új szintetikus szerek felbukkanása és a fogyasztói szokások átalakulása mind olyan tényezők, amelyek megnehezítik a hatóságok és szakemberek munkáját. A hagyományos epidemiológiai eszközök – például a klinikai adatok gyűjtése vagy a rendészeti statisztikák – lassan reagálnak, így gyakran hónapokkal vagy évekkel követik csak a valós trendeket. Ezért egyre nagyobb hangsúlyt kapnak az olyan alternatív adatforrások, mint a közösségi média, ahol a felhasználók közvetlenül, sokszor spontán módon osztják meg tapasztalataikat. Az arXiv-on 2025 szeptemberében megjelent tanulmány, »A Weak Supervision Approach for Monitoring Recreational Drug Use Effects in Social Media« éppen ezt a kérdést járja körül. A szerzők célja, hogy megmutassák: viszonylag kevés emberi erőforrással is lehet hatékony, skálázható rendszert építeni, amely képes a drogokhoz kapcsolódó pozitív és negatív élménybeszámolók osztályozására a közösségi médiában. Ez a megközelítés a gyenge felügyelet (weak supervision) módszertanára épül, amely lehetővé teszi, hogy a közvetlen módszerek mellet a szótárak és orvosi fogalomtárak segítségével hozzanak létre tudásbázisokat.

A tanulmány kiindulópontja egy hatalmas Twitter-adatbázis, amely 2010 és 2019 között gyűjtött több mint 6,7 millió posztot foglal magában, 2,68 millió egyedi felhasználótól. Ezek közül a szerzők kulcsszavas szűréssel választották ki azokat, amelyek a három vizsgált szert – MDMA/ecstasy, GHB és 2C-B – említik. Így alakult ki egy több mint 5,2 millió bejegyzést tartalmazó korpuszkutatási alapanyag, amelyben az ecstasy dominál, a másik két szer jóval kisebb arányban jelenik meg. Ez a minta önmagában is jól mutatja a közösségi médiában érzékelhető fogyasztási trendeket: az ecstasy kulturális jelenléte sokkal erősebb, mint a GHB-é vagy a 2C-B-é.

A kulcs azonban nem pusztán az említések számában rejlik, hanem abban, hogy a szerzők ki akarták szűrni a használathoz kapcsolódó élménybeszámolókat, és ezeket pozitív (pl. eufória, energia, fokozott empátia) vagy negatív (pl. rosszullét, szorongás, rossz utazás) hatásokhoz kapcsolni. Ehhez szükség volt egy annotációs stratégiára – ám nem volt reális több százezer poszt kézi feldolgozása. Ezért a szerzők két forrásból származó tudást kombináltak: egyrészt kézzel összeállított szlengszótárat, másrészt az orvosi terminológiákat tartalmazó UMLS-t, amelyet a MetaMap nevű eszközzel illesztettek a szövegre. Ezáltal minden tweethez hozzárendelhetők lettek bizonyos »hatás-szavak«, amelyek utalhatnak pozitív vagy negatív élményekre. A fogalmak polaritását (pozitív/negatív/kontingens) három szakértő értékelte. Ha egy kifejezés egyértelműen örömre, élvezetre utalt, pozitív címkét kapott, ha rosszullétre vagy ártalomra, akkor negatívat. A kontextusfüggő vagy vitatott eseteket kizárták az anítókészletből. Ez a módszer ugyan egyszerűsít, de egyben biztosítja a rendszer konzisztenciáját. A folyamat végén 92 ezer annotált tweet maradt, amelyből mintegy 4,6% tartalmazott pozitív, 95,4% pedig negatív hatást. Ez az arány erős osztály-egyensúlytalanságot mutat, ami jelentős kihívást jelentett a modellek tanítása során.

A kutatás legnagyobb erénye, hogy bebizonyítja: viszonylag kevés kézi annotációval, gyenge felügyeletű módszerekkel is lehet hasznos eszközt építeni a drogokhoz kapcsolódó élménybeszámolók monitorozására.