Home
Nieuws
Hoe veilig zijn GPT en Claude volgens elkaars tests?

Hoe veilig zijn GPT en Claude volgens elkaars tests?

Elwin Hodžić Elwin Hodžić 1 september 2025

Steeds meer bedrijven zetten AI-tools als ChatGPT en Claude vaker in voor rapportages en klantinteractie. Maar hoe veilig en betrouwbaar zijn die modellen? Anthropic en OpenAI hebben elkaars systemen getest op hallucinaties, datalekken en misbruikscenario’s. Hun bevindingen tonen een spanning die ict-professionals direct raakt: strengere beveiliging gaat vaak samen met vaker weigeren van antwoorden — met gevolgen voor productiviteit en inzetbaarheid in de praktijk.

Onafhankelijke onderzoeken met eigen testmethoden

In juni en juli onderzochten Anthropic en OpenAI elkaars AI-modellen op veiligheid en stabiliteit en publiceerden ze gelijktijdig hun rapporten. Beide partijen hanteerden daarbij hun eigen testmethoden (gericht op verschillende risico’s en scenario’s), waardoor de resultaten niet één-op-één vergelijkbaar zijn. Toch leveren ze een reeks interessante details op die inzicht geven in de sterke en zwakke punten van de modellen.

Tip!

Extra voordeel bij c’t!

Krijg deze maand tot 39% korting op een abonnement

Profiteer nu

Op de hoogte blijven van alles omtrent AI?

Schrijf je in voor onze gratis nieuwsbrief:

Je aanmelding is helaas niet gelukt. Probeer het later nog eens.

Veiligheid gaat verder dan klassieke IT-beveiliging

Met veiligheid doelen de onderzoeken niet uitsluitend op klassieke IT-beveiliging (zoals je die in een Threat Report terugziet), maar ook op de robuustheid van het model zelf — de betrouwbaarheid van antwoorden en de stabiliteit bij variërende invoer. Hallucinaties vormen daarbij een expliciet aandachtspunt. Daarmee worden antwoorden bedoeld die een AI-model weliswaar overtuigend formuleert, maar die feitelijk onjuist of volledig verzonnen zijn.

Het doel van de externe evaluaties was, aldus OpenAI, “lacunes bloot te leggen die anders onopgemerkt zouden blijven”. Niet het modelleren van reële dreigingsscenario’s stond centraal, maar de vraag “hoe de modellen zich gedragen in omgevingen die speciaal als uitdagend zijn ontworpen”.

Anthropic legt de nadruk anders: het bedrijf wil “de meest zorgwekkende acties begrijpen die deze modellen zouden kunnen proberen uit te voeren, als ze daartoe de kans kregen”. Om dat doel te bereiken richten de onderzoekers zich specifiek op agent-gerelateerde misalignments — situaties waarin een model ongewenst gedrag vertoont zodra het autonoom taken uitvoert.

Geteste modellen en aanpak via API’s

De tests liepen via de respectieve API’s direct op de modellen zelf — dus GPT in plaats van ChatGPT — waarbij ontwikkelaars bepaalde veiligheidsmechanismen hadden uitgeschakeld (om de uitvoering van de tests niet te hinderen). Aan OpenAI-zijde ging het om GPT-4o, GPT-4.1, o3 en o4-mini; aan de kant van Anthropic om Claude Opus 4 en Sonnet 4. In beide gevallen werden de eigen modellen parallel meegenomen als referentiepunt.

Verschillen in onderzoeksopzet beperken vergelijkbaarheid

Omdat de onderzoekers hun tests op uiteenlopende manieren hebben opgezet, zijn overkoepelende conclusies beperkt. Anthropic benadrukt daarbij: “Geen van de door ons geteste modellen was opvallend verkeerd afgestemd.” Beide rapporten laten bovendien zien dat reasoning (redeneren) ingeschakeld doorgaans betere resultaten oplevert — maar niet in alle gevallen.

Opvallend is ook dat hogere veiligheid vaak samenhangt met een toename van afwijzende antwoorden (het model weigert output te leveren). Voor zakelijke toepassingen kan dat problematisch zijn: modellen die te vaak weigeren, ondermijnen productiviteit of klantinteractie.

Hoe de modellen omgaan met riskante prompts

Anthropic richt zich op intensieve gedragstesten: hoe ver laat de AI zich sturen? Werkt ze mee bij schadelijke of dubieuze prompts — helpt ze zelfs bij misdrijven of terrorisme? Het antwoord is ondubbelzinnig ja, al vergt dit doorgaans veel herhalingen en geforceerde context (zoals het veinzen dat men “onderzoek doet om kwaad te voorkomen”). GPT-4o en GPT-4.1 zijn in dat opzicht “toegeeflijker dan verwacht”. GPT-o3 blijkt daarentegen het meest robuuste model — ook vergeleken met de Claude-modellen — maar weigert buitensporig veel vragen (overrefusal).

Anthropic onderzoekt in dit kader ook andere mensachtige gedragingen, zoals klokkenluiden of pogingen van de AI om uit eigenbelang vervalste antwoorden te geven. Zo documenteerden de onderzoekers bijvoorbeeld “zelfzuchtige hallucinaties” bij GPT-o3.

Voor bedrijven illustreert dit een duidelijk spanningsveld: meer robuustheid tegen misbruik betekent vaak minder bruikbaarheid in legitieme scenario’s. De balans vinden is cruciaal voor operationele stabiliteit.

OpenAI focust op naleving van interne regels

OpenAI kiest voor een meer gestructureerde onderzoeksaanpak: toetsing van de mate waarin modellen richtlijnen naleven — ook interne — én hoe goed een aanvaller die grenzen kan doorbreken. De modellen moeten de hiërarchie van instructies respecteren (Instruction Hierarchy: interne regels boven externe aanwijzingen) en bijvoorbeeld interne uitspraken of wachtwoorden geheimhouden.

In dit domein blijkt Claude 4 bijzonder veilig. Bij de jailbreak-test StrongREJECT v2 — die een model tot verboden uitingen probeert te verleiden — scoorden de GPT-modellen beter, vooral o3. Veiligheidsonderzoekers zien jailbreaking als een van de grootste AI-risico’s.

Overigens hallucineren Opus en Sonnet het minst — maar weigeren ook het vaakst om te antwoorden.

Beide partijen erkennen verbeterpunten

Beide teams spreken elkaar nadrukkelijk lof toe. “De evaluaties van Anthropic hebben aangetoond dat onze modellen op verschillende gebieden voor verbetering vatbaar zijn,” aldus OpenAI, met de kanttekening dat GPT-5 niet in de tests is meegenomen. Anthropic benadrukt op zijn beurt: “De resultaten van OpenAI hebben ons geholpen de grenzen van onze eigen modellen beter te begrijpen, en ons werk aan de evaluatie van OpenAI’s modellen heeft ons geholpen onze eigen tools te verbeteren.”

Voor CIO’s en IT-managers is de boodschap duidelijk: geen enkel model is volledig veilig of foutloos — continue monitoring, modelvergelijking en periodieke audits zullen een vast onderdeel van de bedrijfspraktijk moeten worden.

Tot slot

Voor CIO’s en IT-managers is één conclusie onvermijdelijk: geen enkel AI-model is volledig veilig of betrouwbaar. Structurele audits, heldere governance en beleid rond weigeringen zijn nodig om AI inzetbaar én beheersbaar te houden.

Wie de diepte in wil: de parallelle rapporten van Anthropic en OpenAI bieden een uitgebreid overzicht van de sterke en zwakke punten van de huidige generatie AI-modellen.