B.V.L.G.

Mijn Initialen - Bedenkingen van en over mezelf, over business, over het webgebeuren, over social media, over alles rondom mij

03 januari 2011

Populaire kandidaten op grafiek

Als je over data beschikt is het niet altijd evident een gepaste manier te vinden om deze visueel voor te stellen.

Ik zal u mijn probleem voorleggen. Voor De Allerslimste Mens beschik ik over de tweets (Twitter berichten) sinds de start. Ondertussen waren er al 16 afleveringen (4 weken met telkens 4 afleveringen), waar in het totaal 18 kandidaten aan de kwis deelnamen. In een heleboel van de tweets worden kandidaten vermeld, om ze aan te moedigen, om commentaar te geven op hun antwoorden, om ze naar huis te wensen, ... Wat is nu de gepaste manier om deze vermeldingen van kandidaten doorheen de tweets van de afgelopen maand visueel voor te stellen ? Het zou leuk zijn om meer te geven dan louter het totaal aantal vermeldingen per kandidaat. Bovendien had ik graag de tijdsdimensie aan bod laten komen.

Een eerste mogelijkheid is een lijndiagram waar je per dag en per kandidaat het aantal tweets uitzet. Je krijgt dan de onderstaande grafiek. Je bekomt dan een grafiek met 18 lijnen door elkaar. De standaard grafiek van Excel laat niet toe voor elke kandidaat makkelijk de juiste lijn terug te vinden, wat onder te wijten is aan het feit dat Excel zelf een palet van kleuren die dicht bij elkaar liggen hanteert. De pieken kan je er gelukkig nog makkelijk op herkennen. Annelies Rutten werd het vaakst vermeld tijdens de eerste week. De piek tijdens de tweede en de derde week was telkens voor Bent Van Looy. Tijdens de laatste week kaapte Eva Brems de meeste belangstelling weg.


De belangstelling voor #dasm is naar mate de kwis vorderde verminderd. Een bijkomende mogelijkheid is het procentueel aandeel van de tweets per kandidaat uit te zetten. Hierbij wordt het aantal tweets per kandidaat per dag gedeeld door het aantal tweets van die dag, wat je per kandidaat en per dag een percentage oplevert. Je bekomt nogmaals een grafiek met 18 lijnen door elkaar. Tijdens de weekends werd er af en toe ook over #dasm geteweet. Het probleem is dat deze enkele tweets het beeld sterk verstoren. Bijgevolg bevat deze grafiek geen data voor zaterdagen en zondagen. Deze grafiek toont al verschillen met de vorige grafiek. Je kan merken dat de tweeps naarmate de kwis vorderde vaker namen van kandidaten vermelden. Vooral de laatste week ging Eva Brems vaak over de twitter-tong. De pieken blijven in deze benadering dezelfde, Annelies Rutten voor de eerste week, Bent Van Looy nogmaals de tweede en de derde week en tenslotte Eva Brems de laatste week.


Het nadeel van alle lijnen over elkaar te plaatsen is dat de lijnen voor de verschillende kandidaten niet zo goed tot hun recht komen. Hier kan je makkelijk een mouw aan passen door in Excel een 3D lijngrafiek te kiezen. Je bekomt dan het onderstaande resultaat. Het voordeel van deze grafiek is dat je merkt dat de belangstelling voor kandidaten komt en gaat. Wie heeft het nu nog over bijvoorbeeld Rik Torfs ? Naast dit zowat enige voordeel zijn er een heleboel nadelen aan deze voorstelling. De labels voor de derde as zijn niet volledig, Excel kiest zelf welke labels getoond worden. Het 3D-aspect laat niet goed meer toe de verschillen in de hoogtes van de verschillende lijnen in te schatten, wat met de 2D-versie wel het geval is. De lijnen voor Eva Brems en Ann De Bie lijken bijvoorbeeld achteraan samen te vallen.


Je kan ook het procentueel aandeel van de tweets in 3D voorstellen. Er lijken mij iets meer pieken op te duiken in vergelijken met de vorige 3D grafiek. Veel wijzer geraak ik er echter niet uit.


Nog een populaire manier om evoluties voor te stellen is de area-grafiek. Je bekomt dan de onderstaande grafiek. Dit lijkt mij eerder abstracte kunst te zijn dan een bruikbare grafiek. De kleurkeuze van Excel zorgt bijvoorbeeld voor verwarring. Het groen van de eerste week komt over met de tweets voor Annelies Rutten. Het beetje groen van de tweede week is dan weer voor Helmut Lotti. De opstapeling van area's laat ook niet meer toe de area's met elkaar te vergelijken.


Je kan ook het procentueel aandeel van de tweets door middel van een area-grafiek voorstellen. In sommige tweets werd meer dan één kandidaat vermeld. De percentages optellen kan bijgevolg leiden tot totalen boven de 100%. Dit komt gelukkig niet voor. Een mogelijke conclusie uit deze grafiek is dat naar mate de kwis vorderde er vaker kandidaten vermeld werden in de tweets. Voor de rest lijkt deze grafiek mij redelijk nutteloos.


Een alternatief van de platte area-grafiek is de 3D-versie. In deze grafiek zie je de belangstelling per kandidaat stijgen en daarna vaak even vlot weer dalen.


De 3D area kan ook toegepast worden voor het procentueel aandeel van de tweets per kandidaat. Bij een dergelijke grafiek moet je wel oppassen dat de area's elkaar niet verbergen. De grote oranje blok voor Eva Brems (wat sterk vloekt met haar politieke voorkeur ...) verbergt het detail van de kandidaten die pas in de vierde week aan bod kwamen.



Wat is de conclusie van dit alles ? Een goede visualisatie vinden waar zowel de vier weken en de 18 kandidaten en de talrijke tweets aan bod komen is niet eenvoudig. De basismogelijkheden van Excel lijken hierbij tekort te schieten. Als je toch iets zinvols wil zeggen over deze problematiek lijkt er mij maar één makkelijke remedie te zijn, de omvang van de te visualiseren data te reduceren. Dit kan door ofwel de periode in te perken, bijvoorbeeld telkens één week, of door het aantal kandidaten per grafiek beperken, of door beide.

Een voorbeeld van het reduceren van de data zijn de onderstaande grafieken, waar enkel de tweets van Annelies Rutten, Ben Crabbé, Ben Van Looy en Eva Brems getoond worden. Eerst is er een 2D lijngrafiek, gevolgd door een 3D area grafiek.



Naar welke grafiek gaat u voorkeur uit ? Bedenkingen op deze grafieken en suggesties om ze te verbeteren zijn steeds welkom. U kan ze hieronder kwijt, en als u echt wil zijn er nog talrijke andere manieren om mij te contacteren.

2 Bedenking(en) :
Anonymous Michel Vuijlsteke had op 03 januari, 2011 15:07, de volgende bedenking ...

Ik denk dat het antwoord voor de hand ligt: met zó weinig datapunten heeft het geen zin te zoeken naar een geschikte manier om de data te visualiseren. :)

Waren er meer gegevens, zou ik er en ding als deze op smijten: http://candescence.org/content/2009/01/epson-lastfm-stats.png

(ga naar Last.fm om uw eigen te maken)

 
Anonymous Michel Vuijlsteke had op 03 januari, 2011 15:31, de volgende bedenking ...

(Dat is dus een stacked area-ding, maar gecentreerd op de as om de data bevattelijker te maken, en met de lables in de area zelf -- ideaal voor iets zoals #dasm-tweets, waar veel verschillende waarden getoond moeten worden op een tijdsas, maar waar het aantal gelijktijdig te tonen zaken per tijdseenheid relatief beperkt blijft (in principe niet meer dan een handvol mensen vermeld per aflevering), en waar de vermelde mensen niet veel gaan terugkomen eens ze verdwenen zijn.)

 

Heeft u ook een bedenking ?

<< Home

Related Posts with Thumbnails