Deepfake en AI-stemmen: kansen en risico’s van spraaksynthese

Noud van Kruysbergen
0

Inhoudsopgave

De menselijke stem kan met behulp van AI al worden gekloond en aangepast en bijvoorbeeld voor een ‘deepfake’ gebruikt worden. We bekijken de risico’s en kansen van spraaksynthese.

Als je de zin “Gisteravond droomde ik ervan om op een rups te rijden” of een soortgelijke kant-en-klare zin voorleest bij de spraak­synthesesoftware Replica, maakt dat een kopie van je stem. Hoe meer voicesamples je opneemt, des te realistischer de resultaten klinken. Een schaal van nul tot vijf geeft aan of de software je stem nog kan verbeteren. Bij nul is er nog ruimte voor verbetering en vijf betekent dat Replica genoeg materiaal heeft om een realistische stemkloon te maken. Om de gekopieerde stem in actie te horen, typ je in een dialoog­venster in en klik je op Play. Je hoort je eigen stem dan zinnen zeggen die je nooit hebt opgenomen.

Deepfake met Obama

Het programma van de Australische producent Replica Studios is niet de eerste software in zijn soort. Spraaksyntheseprogramma’s zoals Lyrebird beloven vergelijkbare resultaten. De software van de Canadese start-up met dezelfde naam zorgde voor opschudding met video’s waarin ze zelfgemaakte zinnen in de mond van bekende politici legden zoals hieronder. Soortgelijke fake video’s zijn ook door anderen gecreëerd met uitspraken als “President Trump is a total and complete dipshit” (zie verder naar beneden) – bij nader inzien kon je merken dat dit een kunstmatig gegenereerde stem was, maar het klonk heel geloofwaardig.

De Australische start-up Lyrebird maakte bedrieglijk echte kopieën van stemmen van bekende politici en gebruikte die voor demonstratiedoeleinden in o.a. een deepfake video met Obama (bron: https://youtu.be/YfU_sWHT8mo).

De bètaversie van het programma, die tot voor kort online beschikbaar was, is niet meer beschikbaar. Ook Adobe had al in 2016 een werkend prototype van zijn VoCo-software. Maar dat programma is nooit verder gekomen dan de bètafase. Een van de redenen daarvoor zouden de negatieve reacties van de media kunnen zijn geweest die volgde op de presentatie van de software. Al waren de mogelijkheden om een deepfake video te creëren op dat moment minder ver gevorderd.

Commercieel gebruik

Replica biedt vergelijkbare functies als Lyrebird en is van plan om zijn programma om te zetten in een marktplaats voor stemmen. Sprekers voor animatiefilms of audioboeken zouden daarmee een mogelijkheid hebben hun stem eenmalig onder licentie te verkopen aan opnamestudio’s. Dat zou tijd besparen, aangezien de dialogen niet meer gesproken hoeven te worden. Dat is ook praktisch in de gameproductie, want je kunt een stem kiezen die overeenkomt met het karakter dat je creëert en die veranderen. Andere toepassingsgebieden zijn muziek en reclame. Spraaksynthese heeft ook het potentieel om de stem te reproduceren van mensen die lijden aan degeneratieve zenuwziekten zoals ALS. Naast een bedrieglijke deepfake video zijn er dus ook veel kansen voor positieve inzet van spraaksynthese.

In de momenteel beschikbare bètaversie kunnen stemmen al worden gekopieerd en kunnen bestaande sprekers worden gebruikt om dialogen aan te maken. Momenteel echter alleen in het Engels. Als je probeert teksten in andere talen voor te laten lezen, krijg je een onbegrijpelijk, robotachtig resultaat. Maar de Engelse resultaten zijn vrij goed voor een bètaversie. Als je bijvoorbeeld consequent het woord ‘hebrew’ verkeerd uitspreekt, neemt de gekloonde stem die eigenaardigheid gewoon over. Maar je kunt een mens nog niet om de tuin leiden met Replica.

Om de resultaten realistischer te maken, zijn er emoties zoals boos en geïrriteerd, die aan de tekst kunnen worden toegevoegd. Als je bijvoorbeeld de emotie boos toevoegt aan de stem van een oude vrouw, zal ze een agressieve toon uitdrukken. Met je eigen stem is het gebruik van emoties nog niet mogelijk. Bovendien hoor je bij sommige emoties, zoals levendig, nauwelijks verschil met de neutrale versie. Daarnaast houdt Replica nog geen rekening met toonveranderingen bij leestekens. Dus een stem gaat bij een vraagteken aan het eind van de zin niet omhoog. Typfouten als ‘Thisss isrealy awhsome’ veroorzaken geen problemen voor het programma, het spreekt die zin correct uit.

Replica gebruiken

De duidelijk geordende interface van Replica is verdeeld in vijf gebieden: Dashboard, Projects, Voices, Marketplace en Integrations. Op dit moment staan er demoversies van Replica Voice voor ­verschillende toepassingsgebieden zoals videospelletjes en reclame op het dashboard. Bij Voices kunnen nieuwe stemmen worden opgenomen en ontwerpen worden opgeslagen.

Replica stem opnemen voice sample spraaksynthese deepfake

Om een kopie van je eigen stem te krijgen, moet je een aantal gegeven zinnen voorlezen aan Replica. Hoe meer voicesamples je opneemt, des te realistischer het resultaat zal zijn. (Bron afbeelding: https://replicastudios.com/voices/)

De bediening is intuïtief. Bij Projects krijg je een overzicht van reeds opgenomen gesprekken. Om er sneller mee aan de slag te kunnen, biedt Replica daar ook tutorials. De voltooide projecten kunnen met vrienden worden gedeeld via een link of worden geëxporteerd in MP3-, FLAC-, OGG- en WAV-­formaten. Het is ook mogelijk om opnames afzonderlijk te downloaden.

Onder het item Integrations bevindt zich een API waarmee Replica-gebruikers hun eigen projecten beter kunnen integreren. Het bedrijf adviseert de API-ontwikkelingsomgeving Postman voor dat doel en biedt een stap-voor-stap handleiding om meteen aan de slag te gaan.

Spraaksynthese met AI

Replica geeft geen informatie over hoe de AI precies getraind wordt. Onder de naam Tacotron hebben onderzoekers van de Universiteit van Cornell sinds 2017 echter een reeks studies gepubliceerd die juist over dat onderwerp gaan. Die onderzoekers werken nauw samen met Google en maken bijvoorbeeld gebruik van het neurale netwerk WaveNet, dat geluiden genereert uit een toonhoogtediagram (Mel-spectogram). Voor hun Tacotron 2-systeem gebruiken ze een sequence-to-sequence model dat een reeks eigenschappen genereert uit een serie van letters, die uiteindelijk het audiosignaal ­coderen.

Tacotron 2 werd getraind met 24 uur audio­materiaal en haalde een Mean Opinion Score (MOS) van 4,525. Dat is een rekenkundig gemiddelde voor de subjectieve beoordeling van goede (5) of slechte (1) spraak- en beeldkwaliteit. Ter vergelijking: een menselijke stemopname bereikt een gemiddelde MOS-waarde van 4,58. Er zijn echter nog steeds problemen met de uitspraak van vreemde woorden. Het model is ook nog niet geschikt voor realtime spraakuitvoer.

Het Tacotron-systeem is in principe gebaseerd op drie componenten: een speaker-encoder, een AI voor spraaksynthese en een vocoder. De speaker-­encoder is een neuraal netwerk dat getraind is met samples van meer dan 30.000 sprekers. Op basis van de trainingssamples creëert het een gemiddelde van de menselijke spraak. Die stap is slechts één keer nodig en zorgt ervoor dat toekomstige stem­kopieën geen urenlange audio-opnames vereisen. Voor elke nieuwe opname genereert de AI-spraaksynthese een spectrogram voor de vocoder uit het spraakgemiddelde, waardoor het een hoorbaar resultaat wordt.

Risico’s

In een blogpost doet Replica Studios verslag van de manier waarop het de kopieën wil beschermen tegen misbruik. Aan de ene kant moeten akoestische watermerken helpen om de gelicentieerde stemmen te identificeren als Replica-stemmen. Aan de andere kant wil Replica Studios andere platforms ondersteunen bij het opsporen van illegale stem­kopieën en end-to-end encryptie bieden voor Replica-­gebruikers. Dat kan helpen om misbruik van stemmen voor een deepfake tegen te gaan, bijvoorbeeld rond de Amerikaanse verkiezingen of andere gebeurtenissen.

Spraaksynthese kan worden gebruikt voor deepfakes met nagebootste stemmen (bron: https://youtu.be/cQ54GDm1eL0).

 

In haar privacybeleid behoudt het Australische bedrijf zich het recht voor om persoonlijke informatie zoals naam, e-mailadres, leeftijd, creditcardgegevens en locatie op te slaan en ter beschikking te stellen aan derden. Daartoe behoren overheidsinstellingen en potentiële zakenpartners van Replica Studios. Bovendien behoudt het bedrijf zich het recht voor om de informatie te delen met zakenpartners buiten Australië en wil het erop wijzen dat er geen garantie is dat persoonlijke informatie veilig zal zijn.

De gekloonde stemmen zijn in potentie een handige tool voor creativiteit en kunnen zieke mensen helpen. Maar hoewel nieuwe technologieën op dit gebied naar verwachting binnenkort de bètafase zullen verlaten, zijn oplossingen voor identiteitsdiefstal blijven hangen in het alfastadium. Er zijn potentiële moeilijkheden en problemen geïdentificeerd, maar een bevredigende oplossing ontbreekt nog steeds. Om de spraaksyntheseprogramma’s zonder zorgen te kunnen gebruiken, is met name op dat gebied echter dringend een update nodig.

(Kim Sartorius en Noud van Kruysbergen, c’t magazine 9/2020, p. 114)

 


Blijf op de hoogte van de nieuwste informatie en tips!
Schrijf je in voor de nieuwsbrief:

Ontvang elke week het laatste IT-nieuws, de handigste tips en speciale aanbiedingen.

 

Lees uitgebreide achtergrondinfo en reviews op je gemak in c't 05/2024

Meer over

Audio

Deel dit artikel

Noud van Kruysbergen
Noud van KruysbergenNoud heeft de 'American Dream' doorlopen van jongste bediende tot hoofdredacteur van c't, waar hij zo veel mogelijk de diepgang, betrouwbaarheid en diversiteit wil bewaken.

Lees ook

Dit kun je verwachten als je ChatGPT als hacking-tool wilt gebruiken

Kun je ChatGPT gebruiken als hacking-tool? We neigden naar de duistere kant en onderzochten of de assistentie van een AI van elke scriptkiddie een eli...

Raspberry Pi GPIO pinnen: een overzicht van de aansluitingen

Een kleine Raspberry Pi board is zo volgepakt met alle componenten dat er geen ruimte meer over was om de 40 GPIO pinnen van informatie te voorzien. O...

0 Praat mee
avatar
  Abonneer  
Laat het mij weten wanneer er