Hogy jött az ötlet, hogy elkészítsd a magyar Tumblr kapcsolati hálóját?
Körülbelül fél éve merült fel az ötlet egy barátommal való beszélgetés során, hogy a közösségi oldalakon lévő információkat lehet gráfokban is tárolni-ábrázolni. Eleinte a facebookos ismerőseim, és az általuk lájkolt oldalak letöltéséhez írtam egy scriptet, majd a kapott adatokat egy Gephi nevű nyílt forráskódú programmal elemeztem és ábrázoltam. Azóta többféle közösségi oldallal is próbálkoztam, mind közül a Tumblr biztosítja a legjobb hozzáférést az egyes blogok publikus adataihoz.
Felmerült többek részéről, hogy miért látszanak kevésbé népszerű tumbászok az ábrádon úgy, mintha „központi Tumblr-esek” lennének, míg más, ismertebb mikrobloggerek sokkal kisebb körként jelentek meg. Milyen módszertannal dolgoztál?
Az adatok letöltése úgy működik, hogy a program megnézi az én legutóbbi 180 posztomat, és egy adatbázisban tárolja, hogy kiktől reblogoltam azokat. Utána ugyanígy megnézi az adatbázisba bekerült emberek blogjait, majd az ő blogjaikról begyűjtött adatokat is. Az egész hármas mélységig fut le, tisztítás-szűrés előtt kb. 30 ezer blog és 40 ezer kapcsolat került az adatbázisba. Ebből az adatbázisból kitakarítottam a „levél-elemeket”, akiknek csak egy kapcsolata volt, utána pedig egy clusterező (csoportokat felismerő) algoritmus szétbontotta tovább a megmaradt blogokat, és ezek közül volt az egyik a magyar tumbászoké.
Az egyes blogok elhelyezéséhez egy beépített algoritmust használtam, ez rugószerűen húzza össze és tolja szét az egyes blogokat az ábrán. Akiknek sok a közös „rugójuk”, azok közel kerülnek egymáshoz, akiknek nincs sok köze egymáshoz, azok pedig távolabb helyezkednek el.