Digitaal toetsen levert niet alleen cijfers op, maar ook een schat aan data. Elke toets genereert statistieken die je vertellen hoe goed je vragen zijn, welke onderwerpen leerlingen lastig vinden en of je toets als geheel betrouwbaar is. Toch worden deze statistieken door veel docenten niet gebruikt, vaak omdat de termen onbekend of intimiderend klinken. In dit artikel maken we de belangrijkste toetsstatistieken begrijpelijk en praktisch toepasbaar.
P-waarde: hoe moeilijk is de vraag?
De P-waarde (ook wel moeilijkheidsindex genoemd) geeft aan welk percentage van de leerlingen een vraag goed heeft beantwoord. Een P-waarde van 0,80 betekent dat 80% de vraag goed had. Een P-waarde van 0,20 betekent dat slechts 20% de vraag goed beantwoordde.
- P-waarde boven 0,80: de vraag is erg makkelijk. Overweeg om de vraag aan te passen of te vervangen.
- P-waarde tussen 0,40 en 0,80: ideaal bereik. De vraag onderscheidt goed tussen sterke en zwakke leerlingen.
- P-waarde onder 0,30: de vraag is erg moeilijk. Controleer of de vraag duidelijk is geformuleerd en of de stof voldoende is behandeld.
Rit-waarde: onderscheidt de vraag goed?
De Rit-waarde (item-restcorrelatie) meet of een vraag hetzelfde meet als de rest van de toets. Een hoge Rit-waarde betekent dat leerlingen die de toets goed maken, ook deze specifieke vraag goed beantwoorden. Een lage of negatieve Rit-waarde wijst op een problematische vraag.
- Rit-waarde boven 0,30: goed discriminerend. De vraag onderscheidt effectief tussen sterke en zwakke leerlingen.
- Rit-waarde tussen 0,10 en 0,30: matig. De vraag draagt beperkt bij aan de betrouwbaarheid van de toets.
- Rit-waarde onder 0,10 of negatief: problematisch. De vraag meet iets anders dan de rest van de toets. Herzie of verwijder deze vraag.
Cronbach's alpha: is de toets betrouwbaar?
Cronbach's alpha meet de interne consistentie van je toets als geheel. Het getal loopt van 0 tot 1. Een hoge alpha betekent dat de vragen samen een samenhangend geheel vormen en hetzelfde construct meten.
- Alpha boven 0,80: goede betrouwbaarheid. Je toets is consistent en geschikt voor summatieve beoordeling.
- Alpha tussen 0,60 en 0,80: acceptabel voor formatieve doeleinden, maar verbeterbaar.
- Alpha onder 0,60: onvoldoende betrouwbaarheid. De toets bevat waarschijnlijk vragen die niet goed bij elkaar passen.
Hoe gebruik je deze data in de praktijk?
Toetsstatistieken zijn geen doel op zich, maar een middel om je onderwijs te verbeteren. Hier zijn vier concrete manieren om ze in te zetten.
- Verbeter je vragen: een vraag met een lage P-waarde en een negatieve Rit-waarde is waarschijnlijk onduidelijk geformuleerd. Herformuleer de vraag voor de volgende keer.
- Pas je les aan: als 80% van de leerlingen een bepaald onderwerp fout heeft, dan is de stof mogelijk onvoldoende behandeld. Plan een extra instructiemoment.
- Bouw een kwalitatieve vragenbank op: bewaar vragen met goede P- en Rit-waarden en gebruik ze opnieuw.
- Verantwoord je beoordeling: bij klachten over een toets kun je met data aantonen dat de toets eerlijk en betrouwbaar was.
Toetsstatistieken in TestWisely
TestWisely berekent automatisch de P-waarde en andere statistieken per vraag na elke toetsafname. In het resultatendashboard zie je in een oogopslag welke vragen goed werkten en welke aandacht nodig hebben. Zo bouw je stap voor stap een steeds betere vragenbank op en wordt elke volgende toets betrouwbaarder dan de vorige.
Data gedreven onderwijs hoeft niet ingewikkeld te zijn. Begin met het bekijken van de P-waarden na je volgende toets en je zult merken hoeveel inzicht een paar simpele getallen al geven.




















