Data professional Michiel beschrijft in deze blog de basisstappen van een data-analyse, aan de hand van een alledaags voorbeeld. Michiel is een enorme formule 1 fan en vraagt zich één ding af over de zogenoemde ”regenkoning”; training of geluk?
Eén kwaliteit kan ik wel noemen, die in mijn ogen vereist is voor iedere job: het kunnen uitvoeren van een data-analyse.
Binnen mijn werk spreek ik regelmatig met jonge mensen die net de arbeidsmarkt hebben betreden en die een passie hebben voor data. Dat zijn meestal de young professionals van i4talent en soms mensen die ik ontmoet op opdracht. Ik ben inmiddels een paar jaar in dat vakgebied onderweg en ik vind het leuk om erover te vertellen. Maar uitleggen wat je dan kan worden en wat je in de tussentijd moet leren gaat me niet zo goed af, omdat veel van de mogelijke paden voor data professionals nog niet in kaart zijn gebracht. De Magellanen van de data-wereld ontdekken nog regelmatig nieuwe landen (beroepen binnen data en toepassingen van data) en nieuwe routes daarnaartoe (benodigde kennis, vaardigheden, ervaring, etc.) De hoeveelheid verschillende Engelse functiebenamingen is overweldigend en niemand gebruikt hetzelfde woordenboek. Eén kwaliteit kan ik wel noemen, die in mijn ogen vereist is voor iedere job: het kunnen uitvoeren van een data-analyse.
Hieronder beschrijf ik de basisstappen die ik in iedere data-analyse neem en ik nodig je uit om hiermee te oefenen. Tip: pak een onderwerp dat je interessant vindt en waar je veel van weet. Zo ben ik bijvoorbeeld een levenslange volger van de Formule 1 en ik las laatst een artikel waarin Max Verstappen de nieuwe “regenkoning” werd genoemd. Fans zijn onder de indruk van Verstappens talent om een auto met 300 km/u of meer onder controle te houden op momenten dat de racebaan meer lijkt op een wildwaterrivier. En ik vroeg mezelf af: komt het puur aan op talent of heeft Verstappens afkomst (natte zomers, zachte winters) hem al voorbereid op dit soort omstandigheden? En hoe zit het met eerdere coureurs die de titel “regenkoning” hebben gedragen? Ik denk niet dat ik iets aan het antwoord ga hebben, maar ik vind het leuk om te onderzoeken. Het houdt m’n hersenen scherp.
Normale mensen doen sudoku’s, ik doe een data-analyse. En dat doe ik op deze manier:
Hypothese
Dit is mijn stelling: Formule 1-coureurs uit landen met hogere hoeveelheid jaarlijkse neerslag zijn succesvoller in regenraces.
Verzameling data
Als je geluk hebt, dan is de benodigde data openbaar, betrouwbaar en makkelijk te verkrijgen. In het geval van de Formule 1 is dat zo: je kan de wedstrijdresultaten sinds de oprichting van de sport halen van de officiële website, maar er zijn verschillende onofficiële bronnen die méér gegevens openbaren en ze op een betere manier presenteren. En van die bronnen is de betrouwbaarheid te controleren door ze met elkaar te vergelijken. Ik bekeek de resultaten van iedere coureur uit iedere Formule 1-race sinds 1950 plus de weersomstandigheden tijdens de race. Ook zocht ik de gemiddelde jaarlijkse regenval per land op.
Voorbereiding analyse
Na het downloaden, kopiëren of in het ergste geval overtypen van de benodigde data is het nuttig om ten eerste je data voor te bereiden voor de volgende stappen. Ik werk op dit punt meestal in Excel en maak graag gebruik van de tools die het programma biedt. Maak je data vrij van spelfouten en verwarrende interpunctie (gebruik je bijvoorbeeld komma’s of punten om duizendtallen aan te geven?) en zorg ervoor dat je data uniform is, oftewel dat je elke twee regels met elkaar kan en mag vergelijken. Resultaten van coureurs werden vroeger op een andere manier gescoord dan nu, maar dat is simpel op te lossen met een vertaaltabel en een enkele Excel-formule.
Zodra je data schoon is, bedenk dan ten tweede welke getallen je uiteindelijk nodig hebt om je hypothese te testen, zodat je je spreadsheet zo clean mogelijk kan inrichten. Voor deze analyse maakte ik een raster met horizontaal de landen van herkomst van de coureurs en verticaal alle Formule 1-races, met de notitie of ze werden verreden in droge of natte weersomstandigheden.
Berekeningen
Deze stap is uiteraard specifiek voor elke analyse. Eén tip die ik je hier kan geven is de overweging om in Excel te blijven werken of over te stappen naar een programma dat meer rekenkracht en/of betere visualisaties biedt, zoals PowerBI. Voor mijn analyse was Excel prima, dus binnen het raster uit stap 3 berekende ik per race het gemiddelde resultaat van de coureurs uit een bepaald land. Onder het raster berekende ik tenslotte per land het gemiddelde resultaat van alle regenraces en het gemiddelde resultaat van alle races, want die twee getallen zou ik per land vergelijken om de hypothese te testen.
Visualisatie/statistiek
Deze stap gaat over het maken van niet per se de mooiste, maar wel de juiste plaatjes. Verdiep jezelf in de theorie achter verschillende visualisatiemethodes (bijvoorbeeld, wanneer gebruik je een lijn- en wanneer een staafdiagram?) en gun jezelf een basisles statistiek (wanneer is er sprake van een samenhang tussen variabelen?). Voor inspiratie zou je het werk van geniussen zoals Frédérik Ruys en Hans Rosling kunnen bekijken, maar een correcte grafiek gaat vóór een mooie grafiek. Voor mijn analyse was een scatter plot voldoende en die zag er zo uit:
Conclusie
Om de hypothese te bevestigen zouden coureurs uit landen met een hoge jaarlijkse regenval beter dan normaal moeten scoren in regenraces en coureurs uit landen met een lage jaarlijkse regenval slechter dan normaal. Een dergelijk lineair verband was er niet en de correlatiecoëfficient werd niet groter dan 0,1 bij hogeregraads verbanden. Dus het land van herkomst lijkt geen invloed te hebben op de vaardigheid van een Formule 1-coureur op een natte racebaan. Daarmee is de hypothese afgewezen en lijkt het erop dat Verstappen zijn titel “regenkoning” meer dan alles te danken heeft aan zijn eigen talent.
Leuk. Nu weer aan het werk. Tenzij je meer wil weten over data-analyse? Of over i4talent? Of over historische Formule 1-statistieken? Dan mag je me bellen op 06-51318444.