Hogy jött az ötlet, hogy elkészítsd a magyar Tumblr kapcsolati hálóját?
Körülbelül fél éve merült fel az ötlet egy barátommal való beszélgetés során, hogy a közösségi oldalakon lévő információkat lehet gráfokban is tárolni-ábrázolni. Eleinte a facebookos ismerőseim, és az általuk lájkolt oldalak letöltéséhez írtam egy scriptet, majd a kapott adatokat egy Gephi nevű nyílt forráskódú programmal elemeztem és ábrázoltam. Azóta többféle közösségi oldallal is próbálkoztam, mind közül a Tumblr biztosítja a legjobb hozzáférést az egyes blogok publikus adataihoz.
Felmerült többek részéről, hogy miért látszanak kevésbé népszerű tumbászok az ábrádon úgy, mintha „központi Tumblr-esek” lennének, míg más, ismertebb mikrobloggerek sokkal kisebb körként jelentek meg. Milyen módszertannal dolgoztál?
Az adatok letöltése úgy működik, hogy a program megnézi az én legutóbbi 180 posztomat, és egy adatbázisban tárolja, hogy kiktől reblogoltam azokat. Utána ugyanígy megnézi az adatbázisba bekerült emberek blogjait, majd az ő blogjaikról begyűjtött adatokat is. Az egész hármas mélységig fut le, tisztítás-szűrés előtt kb. 30 ezer blog és 40 ezer kapcsolat került az adatbázisba. Ebből az adatbázisból kitakarítottam a „levél-elemeket”, akiknek csak egy kapcsolata volt, utána pedig egy clusterező (csoportokat felismerő) algoritmus szétbontotta tovább a megmaradt blogokat, és ezek közül volt az egyik a magyar tumbászoké.
Az egyes blogok elhelyezéséhez egy beépített algoritmust használtam, ez rugószerűen húzza össze és tolja szét az egyes blogokat az ábrán. Akiknek sok a közös „rugójuk”, azok közel kerülnek egymáshoz, akiknek nincs sok köze egymáshoz, azok pedig távolabb helyezkednek el.
Többen kifogásolták azt is, hogy külföldi blogok is rákerültek az ábrára.
Igen, ezek pont amiatt kerültek be, mert annyian reblogoltak tőlük, hogy az algoritmus a közösség részének értelmezte ezeket is. Az elsődleges célom az volt ezzel az ábrával, hogy az információ terjedését (reblogolásokat) ábrázolni tudjam a magyar tumbászok hálózatában.