c’t 06/2026
Apple MacBook Neo – de Windows-killer?
Cover van
aivideo introscan man in de bus

AI-video’s met audio: OpenAI Sora 2 vs. Google Veo 3.1 in de test

Voor het eerst bieden AI-videogeneratoren ook audio: OpenAI Sora 2 en Google Veo 3.1 stoppen spraak en geluid in AI-clips, maar de stemkwaliteit, logica en dynamiek laten nog te wensen over. Waar de AI-filmpjes van de grote modellen precies staan, blijkt uit de vergelijking met Adobe Firefly, Kling AI of Runway ML.

Lees verder na de advertentie

Van stille clips naar volledige AI-producties

Het tijdperk van ‘stomme’ AI-­video’s is voorbij: met OpenAI’s Sora 2 en Googles Veo 3.1 komen er nu diensten op de markt die niet alleen bewegende beelden beloven, maar ook voorzien van overtuigende audio: van kinder­lijke voice-overs tot filmische geluidseffecten.

Ook de Chinese aanbieder Kling AI voorziet AI-videoclips via DeepSeek van geluidseffecten en muziek, en kan sinds kort ook Engelse (en Chinese) audio toevoegen.

Adobe Firefly, Ray3 van Luma AI en Runway ML produceren nog steeds alleen clips zonder enig geluid. We hebben alle zes modellen vergeleken. De videogeneratoren werden in de test met iets meer dan tien taken tegen elkaar afgezet.
De taken zijn onderverdeeld in drie blokken: kindvriendelijke animaties die eenvoudige processen uitleggen, de presentatie van een technisch apparaat als productvideo met en zonder menselijke avatar en Hollywood-achtige filmscènes voor marketing, reclame, tv of bioscoop.

Lees dit artikel verder

Lees over tech-trends en achtergronden, nieuwe apparatuur, software en toepassingen voor professioneel gebruik. Met c’t heb je altijd de juiste tech-informatie. Word abonnee en lees onbeperkt alle artikelen.
Bekijk abonnementen Al abonnee? Log in

Toegang via web-app

Google en OpenAI integreren de videogeneratoren in hun AI-chatbots. Zo zal Sora 2 in de toekomst beschikbaar zijn via ChatGPT; Google heeft Veo 3 al in Google Gemini ingebouwd.

Net als bij de beeldgeneratoren kristalliseert de strijd om de gunst van de gebruikers zich ook op videogebied uit tot een duel tussen de twee grote taalmodellen. Voor Google Veo 3 kun je geen los abonnement afnemen.

Het Google AI Pro-abonnement geeft onder andere toegang tot Gemini 3 Pro, Gemini Code Assist, de beeldgenerator Nano Banana Pro, de onderzoeksassistent NotebookLM en 2 TB cloudopslag voor Google Foto’s, Google Drive en Gmail. Het kost 21,99 euro per maand. Met dit abonnement genereert het videomodel echter slechts drie video’s per dag. Aangezien je alleen met vallen en opstaan tot goede resultaten komt, kan een enkel project dus meerdere dagen in beslag nemen.

Met het zakelijke abonnement Google AI Ultra kun je voor 274,99 euro per maand (op het moment van schrijven tijdelijk 139,99 euro per maand) ongeveer 100 video’s per maand genereren. Met het ChatGPT Plus-abonnement krijgen klanten binnen de EU toegang tot GPT-5 en de bijbehorende beeldgenerator, maar alleen tot videogeneratie met Sora 1. Het abonnement kost 23 euro per maand.
Tot nu toe kunnen alleen gebruikers in de VS en Canada profiteren van Sora 2; ook in Noord-Amerika is het model tot nu toe niet beschikbaar op Android of in de web-app, maar alleen via de iPhone-app.

Er is echter een sluiproute totdat OpenAI de dienst ook in de EU vrijgeeft: de Adobe AI-dienst Firefly biedt sinds het najaar van 2025 een hele reeks partnermodellen aan, waaronder Sora 2. Firefly genereert met Sora 2 weliswaar alleen video’s in HD-­resolutie (720p), maar dat is voldoende om de basismogelijkheden van het model te beoordelen. Wel zit het genereren achter een betaald premiumfuncties-abonnement gestopt.

Alle geteste modellen genereren clips in 720p of 1080p met een beeldverhouding van minimaal 16:9 of 9:16. Afgezien van kleine testquota vereisen ze betaalde abonnementen met een maandelijks opzeggingsrecht voor 10 tot 15 euro (zie de tabel). Hiermee krijg je bij Adobe, Kling, Luma en Runway toegang tot beeld- en videogeneratoren in een web-app.

Animatie met voice-over

De modellen moeten eerst een animatie genereren die technische processen illustreert: Maak een animatievideo van 20 seconden over de watercyclus. Laat wolken, regen, rivieren en een meer zien. Vertel het proces met een kindvriendelijke stem. Achtergrondmuziek: zachte, rustgevende melodie. Stijl: cartoon, vriendelijk, kleurrijk.

De modellen negeerden de seconde-specificatie, omdat geen van hen zulke lange clips kan genereren. De limieten zijn 8 seconden voor Google Veo, 10 seconden voor Kling AI en 12 seconden voor Sora. Hoewel de prompt in het Nederlands was geformuleerd, genereerde Google Veo een video met een kinderlijke vertelstem in het Engels. Sora gaf zoals gevraagd een video met een mannelijke vertelstem.


In beide gevallen toont de animatie water, wolken, zon en regendruppels, maar zonder samenhang. Bij de tweede poging hebben we de tekst aangepast: Maak een geanimeerde video over de watercyclus. Verteltekst in het Nederlands met een kindvriendelijke stem: ‘De zon verwarmt het water in de zee. Het stijgt als waterdamp op in de atmosfeer, condenseert daar tot wolken en valt als regen weer terug op aarde. ‘ Achtergrondmuziek: zachte, rustgevende melodie. Stijl: cartoon, vriendelijk, kleurrijk.

Zowel Sora als Veo waren in staat om het als animatie weer te geven. De voice-over van Sora klonk uiteindelijk enigszins robotachtig. Google Veo zag in de tweede poging af van de Engelse gesproken tekst, maar negeerde ook de instructie om Nederlandse tekst weer te geven. De video bevatte alleen geluidseffecten.

In de clip van Kling AI sprongen waterdruppels kort naar boven en vielen meteen weer op de grond. Adobe Firefly produceerde alleen een animatie zonder audio met een wartaal van letterachtige vormen. Luma en Runway produceerden weliswaar grafisch aantrekkelijke animaties, maar qua inhoud waren ze volledig misplaatst. Alleen Sora slaagde erin om coherente video en audio te produceren.

Dat lag niet aan het complexe script, zoals blijkt uit de poging met een eenvoudigere opzet: opnieuw produceerde Sora een Nederlandse soundtrack en Veo en Kling AI een Engelse.

Bij Sora viel de gewenste kindvriendelijke aanspreekvorm op. Ook hier gedroeg de Google AI zich afstandelijk en technisch, alsof de prompt gericht was op ingenieurs, en niet bepaald kindvriendelijk: First grip the ball firmly. Then pull your arm back and throw it forward with maximum velocity. Always remember the followthrough for optimal trajectory.

Adobe Firefly genereerde een soort jonglerend figuur met imitatietekst, veel slechter dan bij Kling, Sora en Veo. Bij het gooien zouden hun figuren bij een robotwedstrijd ook geen prijzen hebben ge­­wonnen. Maar je begrijpt wat er bedoeld wordt. Kling AI scoort het beste op het gebied van animatie en detailniveau. Sora behaalde uiteindelijk het betere resultaat met overtuigende spraakuitvoer.

Productpresentatie

In de categorie productpresentatie moesten de diensten eerst een generieke smartphone presenteren. Bij de eerste poging toonden ze allemaal een wirwar van letterachtige grafische vormen op het scherm. Bij Firefly, Luma en Runway veranderden het cameramodel, de voor- en achterkant liepen vrolijk in elkaar over. Ook Kling AI bracht de cameramodule aan de achterkant naar voren.

In de tweede poging lieten we de modellen een concreet apparaat presenteren: Maak een video van 15 seconden waarin een smartphone wordt gepresenteerd. Toon het apparaat van alle kanten, zoom in op het display, licht roterende ani­matie. Vertel: “De Google Pixel 10 Pro wordt geleverd met de nieuwe Google Tensor G5-chip, die meer prestaties en een betere energie-efficiëntie levert. Hij heeft 16 GB RAM en opslagopties tot 1 TB en bevat een helder 6,3-inch LTPO-OLED-display met een piekhelderheid tot 3300 nits. De grootste energieopslag van een Pixel-smartphone tot nu toe levert 5200 mAh.” Achtergrondmuziek: dynamisch, modern. Stijl: realistisch.

Ook hier staan de gewenste 15 seconden niet in het menu. Van de diensten met audio konden alleen Google Veo, Kling AI en OpenAI Sora de taak uitvoeren.

In de Google-video sprak de voice-­over weer Engels, hoewel de prompt in het Nederlands was geformuleerd. De informatie over de prompttaal gaat blijkbaar verloren bij de overdracht naar de videogenerator.

Sora 2 genereerde met dezelfde prompt opnieuw een clip met een Nederlandse audiotrack. Kling, Sora en Veo produceerden deze keer een geloofwaardige smartphone, die echter bij Veo en Sora beter geanimeerd en in scène gezet was. Sora was de enige dienst die een Google-logo op de achterkant plaatste en de camera­module op zijn minst redelijk natuurgetrouw weergeeft.

Pratende avatar

Als de AI het gewenste apparaat niet kan reproduceren, moet een menselijke avatar het nieuws voorlezen. Speciaal voor Veo hebben we deze keer de uitvoertaal gespecificeerd in Nederlands: Maak een video van 15 seconden waarin een smartphone wordt gepresenteerd door een kale witte man met een volle baard. Toon het apparaat van alle kanten, zoom in op het display, licht roterende animatie. Vertel: “De Google Pixel 10 Pro wordt geleverd met de nieuwe Google Tensor G5-chip, die meer prestaties en een betere energie-efficiëntie levert. Hij heeft 16 GB RAM en opslagopties tot 1 TB en bevat een helder 6,3-inch LTPO-OLED-display met een piekhelderheid tot 3300 nits. De grootste energieopslag van een Pixel-smartphone tot nu toe levert 5200 mAh.” Achtergrondmuziek: dynamisch, modern. Stijl: realistisch.

De avatar van Google Veo sprak deze keer Nederlands, maar het klonk niet vloeiend en overtuigend. De avatar van de Sora-video’s sprak ook deze keer duidelijk, begrijpelijk en foutloos, zoals aangegeven in de prompt. Kling AI toonde een sprekende mens, die haastig maar goed verstaanbaar Engels sprak. De Sora-avatar leek uiteindelijk minder dynamisch en gedetailleerd dan die van Google Veo.

Ook de geluidskwaliteit was bij de Sora-video’s veel slechter dan bij Veo, maar dat kan te wijten zijn aan de vaste instellingen in Adobe Firefly.

Filmrijpe scenes

Het doel was om filmische scènes te creëren die zich kunnen meten met reclame- of filmproducties. De eerste opdracht: Maak een filmische close-up van een trieste oude man die door het gangpad van een bus loopt, bij de deur komt en uitstapt, terwijl er langzame rock-’n-roll in de stijl van Elvis uit de radio klinkt, regen luidruchtig tegen de ruit klettert, koele, gedempte blauwtinten, trieste sfeer, beeldverhouding 16:9.

De diensten wisten de licht- en kleursfeer over het algemeen goed weer te geven. Wat betreft kleuren, huidtextuur en details deden Sora 2 en Veo3, maar ook Kling AI en Luma Ray 3 het goed. Bij Adobe Firefly zag het figuur er wasachtig en onnatuurlijk uit.
Runway faalde zowel op het gebied van kleurgebruik als animatie. Alleen Kling AI slaagde erin de complexe animatie weer te geven. Bij Veo wilde de man uit de bestuurdersstoel stappen en bij Sora 2 door het raam. Veo 3 leverde ook hier meer details en een hogere resolutie dan Sora 2.

Google Veo produceerde een passend liedje in Elvis-stijl, Sora 2 vooral witte ruis. Geen enkel model produceerde bruikbare clips, ook niet na meerdere pogingen. Stilstaande beelden waren wel overtuigend.

De lakmoestest: er is bijna niets moeilijker voor videogeneratoren dan mensen te laten zien terwijl ze spaghetti eten. De testkandidaten schrikken er dan ook voor terug. Bij de belangrijkste kandidaten voeren ze een welbespraakt gesprek. In plaats van te proosten, nemen de mensen elkaars glas uit hun hand.


Ook deze clip lukte bij de tweede poging met een Nederlandse audiotrack afgezien bij Kling AI die dat niet ondersteunt, maar bij de Sora-video bewogen de lippen niet en klonk de spraak kunstmatig. Google Veo maakt weer spraakfouten. Het komt erop neer dat je, in tegenstelling tot bij smartphones, waar elk detail telt, in derge­lijke situaties de teugels wat losser kunt laten en beloond wordt met interessante resultaten.

In het Engels werkt dit perfect, maar Nederlandse spraakuitvoer lukt, als het al lukt, alleen met Sora 2. Tests met andere scènes toonden aan dat het resultaat sterk afhankelijk is van het onderwerp. Sportscènes zoals een jogger in het park zijn bekend uit fitnessvideo’s en worden steeds weer op dezelfde manier in scène gezet. De AI-modellen Kling AI, Sora en Veo slaagden er dan ook op overtuigende wijze in om dit thema te verwerken.

Bij een video van een kat die in een boom klimt en eraf springt, faalden ze echter: gracieus en sierlijk behoren nog niet tot het repertoire van kunstmatige intelligentie op het niveau van begin 2026: misschien ergens in de komende jaren.

Conclusie

De videogeneratoren OpenAI Sora 2 en Google Veo 3.1 en Kling AI hebben momenteel een voorsprong op modellen van andere producten op dit gebied, zoals Adobe Firefly, Luma AI Ray3 en Runway ML Gen3, omdat ze de enige zijn die video- en geluidsuitvoer, inclusief spraak, met elkaar combineren.

Sora en Veo slagen er echter niet in om consistente geometrie en volume te creëren gedurende de nog steeds korte clips. Zelfs bij korte, cartoonachtige animaties falen ze. Alleen Sora kan clips in meer dan alleen Engels overtuigend voor elkaar krijgen. Voor professioneel gebruik moeten de diensten nog een jaar of twee rijpen.

André Kramer en Alieke van Sommeren

Meer over

0

Praat mee

Abonneer
Laat het mij weten wanneer er
0 Reacties
oudste
nieuwste
Inline feedbacks
Bekijk alle reacties

Inspiratie in je mailbox

Blijf bij op IT-gebied en verbreed je expertise. Ontvang elke week artikelen over de laatste tech-ontwikkelingen, toepassingen, nieuwe hard- en software én ontvang tips en aanbiedingen.

Loginmenu afsluiten