Home
Nieuws
AI als CEO: de meeste taalmodellen falen in start-upsimulatie

AI als CEO: de meeste taalmodellen falen in start-upsimulatie

Onderzoekers van Princeton University lieten AI-modellen 500 dagen lang een fictieve softwarestart-up leiden. Slechts drie eindigden met winst, terwijl een eenvoudige regelgebaseerde agent beter presteerde dan vrijwel alle modellen.

CEO-Bench simuleert 500 dagen ondernemerschap

Met CEO-Bench hebben onderzoekers van Princeton University een nieuwe langetermijnbenchmark ontwikkeld waarin AI-agenten 500 dagen lang een fictieve softwarestart-up moeten besturen. De resultaten vallen tegen: van de tien geteste modellen eindigden slechts drie met meer geld in kas dan het initiële startkapitaal van één miljoen dollar. Ter vergelijking: ongeveer een vijfde van de door mensen opgerichte start-ups in de Verenigde Staten faalt binnen het eerste jaar, en na tien jaar is ongeveer 65 procent verdwenen.

Tip!

NIEUW: ct.nl voor leden

Verzeker jouw kennisvoorsprong en blijf scherp met c’t
Nog geen lid? Lees nu de eerste maand online voor 1,-

Profiteer nu >

Regelgebaseerde agent verslaat bijna alle AI-modellen

Om de prestaties van de AI-modellen in perspectief te plaatsen, namen de onderzoekers ook een handmatig geprogrammeerde, volledig regelgebaseerde agent op in de benchmark. Deze maakte geen gebruik van machine learning, maar van vooraf vastgelegde beslisregels. Op de drie best presterende AI-modellen na wist deze eenvoudige referentie-agent betere resultaten te behalen dan alle overige AI-systemen.

Complexe simulatie meet ‘steering intelligence’

De op arXiv gepubliceerde studie draait om een gesimuleerde onderneming met de naam NovaMind. De AI-agenten beginnen zonder klanten en met een startkapitaal van één miljoen dollar. Zodra het saldo onder nul zakt, is het bedrijf failliet en eindigt de simulatie. Om de onderneming te besturen beschikken de agenten over 34 hulpmiddelen, variërend van prijsbepaling en productontwikkeling tot marketing. Daarnaast krijgen zij toegang tot onder meer interne bedrijfsdatabases, informatie over klantsegmenten waarvan de voorkeuren eerst moeten worden afgeleid, en een markt die voortdurend verandert. Conjunctuurcycli, concurrentiedruk en veranderende marktomstandigheden maken eveneens deel uit van de simulatie.

De modellen moeten omvangrijke en onderling verweven bedrijfsgegevens analyseren, informatie en gebeurtenissen vertalen naar onderbouwde strategieën en grote aantallen beslissingen op elkaar afstemmen. Volgens de auteurs meet de benchmark daarmee niet het vermogen om afzonderlijke taken uit te voeren, maar wat zij ‘steering intelligence’ noemen: het vermogen om een complex systeem gedurende langere tijd onder onzekerheid effectief aan te sturen.

Slechts drie modellen eindigen met winst

In de hoofdtest doorliep ieder model drie simulaties. Als prestatiemaatstaf gold de beste run per model. Claude Opus 4.8 behaalde daarbij een eindsaldo van circa 27,8 miljoen dollar na 500 dagen. GPT-5.5 eindigde op ongeveer 21,3 miljoen dollar. Beide modellen kwamen daarmee in hun beste simulatie ruim boven het startkapitaal uit. In hun twee andere runs bleven zij echter onder de beginwaarde en slaagden zij dus eveneens niet voor de test.

Volgens de projectpagina van CEO-Bench behaalde Claude Fable 5 in één simulatie zelfs ongeveer 47 miljoen dollar. Tijdens die test werd echter tijdelijk overgeschakeld naar Opus, omdat Fable vanwege zijn strenge veiligheidsbeperkingen regelmatig weigerde bepaalde opdrachten uit te voeren.

De overige modellen bleven onder het startkapitaal of gingen failliet. Claude Opus 4.7 overleefde weliswaar in alle runs de volledige periode van 500 dagen, maar eindigde met slechts ongeveer 390.000 dollar. Grok 4.20 hield het in het beste geval slechts 37 dagen vol, terwijl DeepSeek V4 Pro maximaal 176 dagen wist te overleven.

Altijd op de hoogte van kunstmatige intelligentie?

Lees alles over AI-hardware, software en toepassingen. Schrijf je in voor onze gratis nieuwsbrief.

Je aanmelding is helaas niet gelukt. Probeer het later nog eens.

Twee totaal verschillende strategieën leiden tot succes

De succesvolle modellen volgden uiteenlopende strategieën. Claude Opus 4.8 koos in één simulatie voor een radicale harvesting-strategie: eerst agressief klanten werven en vervolgens de kosten drastisch terugbrengen. Het resultaat was een grote kaspositie, maar zonder nog actieve klanten. Het doel van de benchmark was daarmee gehaald, al zou zo’n onderneming in de praktijk nauwelijks waarde hebben.

GPT-5.5 koos juist voor een duurzame klantenbasis en investeerde ongeveer 89 procent van het ontwikkelingsbudget in verbeteringen voor specifieke klantgroepen. Beide modellen schreven zelfstandig broncode: Opus 4.8 ontwikkelde een op cohorten gebaseerde kasstroomprognose terwijl GPT-5.5 onderhandelingsgeschiedenissen analyseerde om klantvoorkeuren af te leiden.

Grote verschillen tussen runs van hetzelfde model

Opvallend is ook de grote variatie tussen verschillende runs van hetzelfde model. GPT-5.5 varieerde bijvoorbeeld van een vroeg faillissement na 77 dagen tot een volledige simulatie van 500 dagen. Een enkele run geeft daardoor geen stabiel beeld van de prestaties. Zelfs in een verkorte variant van slechts 50 dagen faalden de meeste agenten. Dat wijst erop dat niet alleen de lange tijdshorizon problematisch is, maar vooral de coördinatie van beslissingen onder onzekerheid.

Resultaten sluiten aan bij eerder onderzoek

De uitkomsten sluiten aan bij eerder onderzoek naar de langetermijncapaciteiten van AI-modellen. In het project Emergence World mochten modellen als ChatGPT, Grok, Claude en Gemini gesimuleerde steden besturen, met soms opmerkelijke resultaten. Gemini 3 Flash creëerde een samenleving met zeer hoge criminaliteit, terwijl Claude Sonnet 4.6 een vrijwel conflictloze ‘ponyweide’ wist op te bouwen. Ook daar bleek dat AI-modellen in open simulaties over langere perioden onvoorspelbaar gedrag kunnen vertonen.

Bij beide experimenten geldt echter een belangrijke kanttekening: de onderzochte systemen waren geen gespecialiseerde wereldmodellen, maar voornamelijk reasoning-modellen, die vermoedelijk niet optimaal zijn toegerust voor dit type langetermijnsimulaties.

Tip

Waarom NIS2 je dwingt anders naar cybersecurity te kijken

Download het e-book en krijg direct inzicht in de stappen die jouw organisatie moet zetten.

Download nu

Elwin Hodžić

Werkt bijna vijf jaar bij c’t als (web)redacteur en schrijft over uiteenlopende onderwerpen binnen de (zakelijke) techwereld. Van nieuwsartikelen en achtergrondverhalen tot reviews en af en toe een workshop – juist die afwisseling maakt het werk interessant én leuk. De ene dag draait het om een actuele ontwikkeling, de volgende om een onderwerp dat wat meer uitzoekwerk vraagt, en daarna weer om hardware die in de praktijk moet bewijzen dat er achter alle mooie woorden ook echt iets schuilgaat.