Om overzicht te krijgen welke taalmodellen goed werken voor Nederlandse toepassingen, testte ik 16 toonaangevende AI-modellen op duizenden echte Nederlandse eindexamenvragen. De resultaten zijn verrassend: sommige modellen kosten 165 keer meer dan anderen voor identieke prestaties.
GPT-5 Mini blijkt net zo accuraat als het duurdere GPT-5, terwijl open-source modellen zoals DeepSeek-R1 onverwacht sterke prestaties leveren. Het onderzoek laat zien dat organisaties vaak veel te veel betalen voor hun AI-oplossingen en dat er betere alternatieven bestaan.
In de benchmark ontdek je prestaties per vakgebied, kosten-batenanalyses, en praktische aanbevelingen voor het kiezen van het juiste model voor jouw specifieke Nederlandse toepassing.