Onderzoekers van het Meertens Instituut en de
Universiteit Twente lanceerden gisteren TweetGenie, een computerprogramma
dat aan de hand van taalgebruik de leeftijd en het geslacht van Nederlandse
twitteraars kan raden. In 85 procent van de gevallen raadt het programma het
geslacht van twitteraars correct. Bij de inschatting van de leeftijd zit de
computer er gemiddeld minder dan vier jaar naast. Hiermee is de inschatting van
de computer al iets nauwkeuriger dan die van mensen.
Iedereen twittert op zijn eigen manier. Toch zijn er
voor groepen allerlei wetmatigheden te vinden. Uit onderzoek van het Meertens
Instituut en de Universiteit Twente komt bijvoorbeeld naar voren dat jongeren op
Twitter vaker over zichzelf en over onderwerpen als school praten. Ook gebruiken
ze meer smileys dan oudere twitteraars. Deze gebruiken op hun beurt bijvoorbeeld
weer langere woorden, langere zinnen, links en hashtags in hun
tweets.
De onderzoekers hebben nu een eerste versie van een
computerprogramma ontwikkeld, TweetGenie,
dat op basis van iemands tweets redelijk nauwkeurig de leeftijd en het geslacht
van die persoon in kan schatten. Het programma kijkt hierbij enkel naar het
taalgebruik van de twitteraar, en niet naar de naam, de foto of het profiel.
Beter dan de computer?
Je kunt elk twitterprofiel in het programma invullen
(van mensen die voornamelijk in het Nederlands twitteren). Ook kun je met het
programma, op basis van geanonimiseerde twitterprofielen, kijken of jij beter
bent in het inschatten van leeftijd en geslacht van een willekeurige twitteraar
dan de computer. Vandaag wordt de eerste versie van het programma gelanceerd. De
onderzoekers hopen, op basis van de feedback die mensen geven, het programma
verder te verbeteren. Zo is het op het moment bijvoorbeeld nog erg moeilijk om
de leeftijd van twitteraars ouder dan 35 goed in te schatten.


