Wie de afgelopen jaren een Cito-toets heeft afgenomen of een TOEFL-test heeft gedaan, heeft adaptief toetsen al meegemaakt. De vragen worden niet random gekozen: de eerste vraag is "gemiddeld", en op basis van of je hem goed of fout maakt, komt er een moeilijkere of makkelijkere vraag achteraan. Het idee: in minder vragen krijg je een preciezer beeld van het niveau van de leerling. Klinkt aantrekkelijk. Maar in de praktijk werkt het niet altijd zoals je hoopt — en voor veel klassentoetsen is een gewone lineaire toets gewoon de betere keuze.
Adaptief is niet altijd beter. Voor een eindtoets met een vast eisenpakket is een lineaire toets eerlijker te vergelijken; adaptief schittert vooral bij oefenen en diagnose.
Wat is een adaptieve toets precies?
Een adaptieve toets (Computer Adaptive Testing, CAT) werkt als een vorm van binair zoeken op het kennisniveau van de leerling. Het systeem begint met een vraag op middelbaar niveau. Bij een goed antwoord komt er een moeilijkere vraag; bij een fout antwoord een makkelijkere. Na een aantal vragen wordt de spreiding kleiner en convergeert het systeem op een geschatte kennisniveau. Statistisch gezien kun je met 15 adaptieve vragen vaak hetzelfde meten als met 40 lineaire vragen.
De aantrekkelijke kanten van adaptief
- Minder vragen nodig voor hetzelfde meet-resultaat (efficiëntie).
- Iedere leerling krijgt vragen op zijn eigen niveau, niet alleen op middelbaar niveau.
- Sterke leerlingen worden uitgedaagd, zwakkere leerlingen lopen niet vast op te-moeilijke vragen.
- Bij vergelijking tussen leerlingen of in de tijd zijn de uitkomsten op een gemeenschappelijke schaal te plaatsen (mits goed gekalibreerd).
- Toetsangst neemt soms af doordat een zwakkere leerling niet alle moeilijke vragen ziet.
Waar adaptief tegen z'n grenzen aanloopt
Klinkt allemaal mooi. Maar in de praktijk hebben adaptieve toetsen een paar serieuze beperkingen die in het Nederlandse onderwijs vaak onderbelicht blijven. De belangrijkste: je hebt een grote, goed gekalibreerde itembank nodig. Voor elke vraag moet je weten hoe moeilijk hij precies is. Dat doe je door hem eerst af te nemen bij een grote, representatieve groep leerlingen en dan psychometrisch te analyseren (Item Response Theory, IRT). Voor een klassentoets met 30 leerlingen die je zelf maakt, is dat niet realistisch.
Tweede beperking: leerlingen krijgen niet allemaal dezelfde vragen. Dat is per definitie het idee, maar voor een ouder die ziet dat zijn kind een ander toetsblad kreeg dan zijn klasgenoot, is dat lastig uit te leggen. Bij summatieve toetsen waar het cijfer telt voor het rapport, is gevoel van rechtvaardigheid net zo belangrijk als statistische precisie. Een leerling die "een makkelijkere toets" lijkt te hebben gekregen, voelt zich daardoor soms beoordeeld voor zijn niveau in plaats van voor zijn prestatie.
Derde punt: terugkijken op de toets ("waar ging het fout?") is bij adaptief lastiger. Bij een lineaire toets kan jij als docent het toetsblad samen met de leerling doorlopen en zien waar de stof hapert. Bij een adaptieve toets heeft elke leerling een ander pad gevolgd, dus terugkijken vraagt om een dashboard dat de patronen voor jou samenvoegt.
Wanneer adaptief wél werkt
Voor sommige situaties is adaptief gewoon beter. De duidelijkste cases: grootschalige meting met een goed gekalibreerde itembank (Cito, IELTS, niveau-bepaling bij instroom), oefenomgevingen waar je niet een eindcijfer maar een actueel niveau wil zien, en remediërende toetsen waar je per leerling op het juiste niveau wil oefenen.
- Instroomtoets aan het begin van een schooljaar — niveau bepalen, niet beoordelen.
- Oefenomgevingen voor wiskunde of taal — leerling oefent op zijn niveau zonder cijfer.
- Diagnostische toets om te zien op welke leerdoelen je extra moet ingrijpen.
- Centrale schoolexamens als de uitgever gekalibreerde items aanlevert.
Wanneer een lineaire toets gewoon beter is
- Klassentoets gemaakt door de docent zelf — geen kalibratie mogelijk op 30 leerlingen.
- Toets waar het cijfer voor het rapport telt — uitlegbaarheid en rechtvaardigheid wegen zwaar.
- Bespreekbare toets (klassikaal nabespreken na afloop) — werkt alleen als iedereen dezelfde vragen had.
- Korte toets met een duidelijke leerdoelen-mapping — een 16-vragen toets met 4 vragen per leerdoel is heel direct interpreteerbaar.
- Toets met open vragen die diep denken vragen — daar is adaptiviteit eigenlijk niet zo zinnig.
Een tussenvorm: gerandomiseerde lineaire toetsen
Veel scholen kiezen in de praktijk voor iets daartussenin: een lineaire toets met dezelfde vragen, maar in een andere volgorde per leerling, eventueel met antwoordopties geshuffeld. Dat geeft je de uitlegbaarheid van een gewone toets (iedereen heeft dezelfde inhoud) en een groot deel van de fraudepreventie van adaptief (afkijken is veel lastiger). In TestWisely is dit de standaardinstelling: vragen worden in willekeurige volgorde gepresenteerd, en bij meerkeuze worden de antwoordopties geshuffeld. Voor 90% van de praktijksituaties is dit precies wat je nodig hebt.
Een eerlijke conclusie
Adaptief toetsen is een mooi instrument, maar het is geen wondermiddel — en het is zeker geen verbetering "by default". Voor de meeste docenten in het voortgezet onderwijs is een goed gemaakte lineaire toets, met gerandomiseerde volgorde en duidelijke leerdoelen-mapping, simpelweg het beste gereedschap. Adaptief wordt interessant zodra je grootschalig meet en een gekalibreerde itembank tot je beschikking hebt. Maar zoals zo vaak in onderwijs-tech: het juiste antwoord is meestal niet "wat is nieuwer en fancier", maar "wat past bij wat ik probeer te meten".

























