Analyse van publicatie criminaliteitscijfers

Vandaag viel mijn oog op een tweet van de VVD. In deze tweet werd en grafieken getoond van dalende criminaliteitscijfers in de afgelopen jaren. De reacties op de tweet waren dat de gegevens nogal suggestief gepresenteerd werden. Het gaat om de volgende tweet:

Deze reacties komen voort uit één van de basisprincipes bij het maken van grafieken: Begin de assen indien mogelijk bij het nulpunt. Als je dit namelijk niet doet loop je het risico dat de volatiliteit van de gegevens uitvergroot wordt. Dit principe is echter geen wet, maar een uitgangspunt waar zorgvuldig mee omgegaan moet worden. Heeft de VVD in zijn tweet nu terecht of onterecht afgeweken van dit principe? Hadden ze een alternatief kunnen gebruiken?

Hieronder staat de grafiek nagemaakt zoals in de tweet getoond.

vvd tweet 1

Eerst maar eens duidelijk maken hoe je de perceptie van de gegevens kunt veranderen door het principe wel of niet toe te passen. Hieronder zijn de gebruikte gegevens nogmaals getoond, maar nu startend bij het nulpunt. Het wordt duidelijk dat de daling waar in het bericht naar verwezen wordt een stuk minder zichtbaar is.

vvd tweet 2

Overigens is de daling ook met een grafiek startend in het nulpunt te versterken door de x-as te verkleinen. Zo zie je dat je als maker van een grafiek met hele simpele technieken al invloed uit kunt oefenen op de perceptie van de gegevens.

vvd tweet 3

 

 

 

 

 

 

 

 

Terug naar de grafiek in de tweet. Wat netjes gedaan is, is dat de schaal van elke afzonderlijk grafiek gelijk is aan de ander, de maatstreepjes staan om de 500 eenheden. Op deze wijze is het mogelijk om de grafieken ook ten opzichte van elkaar te beschouwen. Het effect van het niet starten in het nulpunt valt nu ook deels weg, omdat de volatiliteit van de gegevens tussen de grafieken hierdoor gelijk blijft.

Als de maker van deze grafiek de boel echt had willen belazeren dan had hij er wel zoiets van gemaakt (geen nul-punt, ongelijke schaal):

vvd tweet 4

Gezien het beperkte effect van niet bij nul starten en het gelijk houden van de schaal van de y-as representeert de grafiek die in de tweet opgenomen is naar mijn mening nog voldoende de werkelijkheid en is er alleen voor de puristen die vasthouden aan het principe iets aan te merken op de grafiek. Dat gezegd hebbende is er voor een politieke partij natuurlijk alles aan gelegen om te voorkomen dat ze beschuldigd worden van een suggestieve voorstelling van zaken. Gelukkig zijn verschillende alternatieven te bedenken om dezelfde boodschap over te brengen. Zo is het mogelijk om niet de absolute getallen van de relatieve getallen te laten zien, met andere woorden de procentuele verandering van de gegevens tussen periodes. De absolute aantallen zijn hier niet meer zichtbaar, maar omdat het doel is de afname te laten zien is dat niet erg.

vvd tweet 5

Iets moelijker te begrijpen maar een goede manier om verschillende gegevens ten opzichte van elkaar te kunnen beschouwen is via index cijfers. Met een index wordt de verandering van gegevens berekend ten aanzien van een vooraf gekozen startpunt. In dit geval is het startpunt voor de drie metingen gelijk aan elkaar, te weten 2010, maar dit hoeft niet. Als je bijvoorbeeld wilt analyseren wat het effect is van de koers van het Apple aandeel na de introductie van verschillende gadgets (iPhone, iPad), dan is het startpunt per gadget de introductiedatum en wordt de verandering berekend over gelijke intervallen na dit startpunt. Een ander voorbeeld is het meten van de verandering van verkoopcijfers in relatie tot de start van reclamecampagnes gedurende het jaar. In het onderstaande voorbeeld zijn de gegevens omgezet naar een index ten opzichte van de startwaarde in 2010.

vvd tweet 6

Het nadeel van een indexcijfer is dat het een lastig te begrijpen getal is (een genormaliseerde afwijking van een startpunt). Het is wel een goede manier om gegevens in relatie tot elkaar te brengen. Een cumulatieve procentuele afwijking ten opzichte van het startpunt levert dezelfde grafiek op, maar dan met het startpunt op nul in plaats van 100.

Ik hoop dat ik heb laten zien dat met de keuze voor een visualisatie invloed uitgeoefend kan worden op de perceptie van de kijker, dat het een bewuste keuze moet zijn om een principe wel of net toe te passen en dat er verschillende alternatieve zijn om dezelfde boodschap over te brengen.

Wat mij meer verbaast is dat er geen opmerkingen zijn gemaakt over het onjuiste gebruik van de lijngrafiek. Er mag een lijn tussen twee meetpunten getrokken worden als de meetwaarde tussen de punten grofweg deze lijn gevolgd heeft. In dit geval is er elk jaar opnieuw gestart met tellen, bij nul, en is het dus niet juist om de meetpunten met een lijn te verbinden. In dit geval is het beter gebruik te maken van staafdiagrammen.