Deepfake en AI-stemmen: kansen en risico’s van spraaksynthese

Noud van Kruysbergen24 september, 2021• min. leestijd

Inhoudsopgave

Inleiding

De menselijke stem kan met behulp van AI al worden gekloond en aangepast en bijvoorbeeld voor een ‘deepfake’ gebruikt worden. We bekijken de risico’s en kansen van spraaksynthese.

Als je de zin “Gisteravond droomde ik ervan om op een rups te rijden” of een soortgelijke kant-en-klare zin voorleest bij de spraaksynthesesoftware Replica, maakt dat een kopie van je stem. Hoe meer voicesamples je opneemt, des te realistischer de resultaten klinken. Een schaal van nul tot vijf geeft aan of de software je stem nog kan verbeteren. Bij nul is er nog ruimte voor verbetering en vijf betekent dat Replica genoeg materiaal heeft om een realistische stemkloon te maken. Om de gekopieerde stem in actie te horen, typ je in een dialoogvenster in en klik je op Play. Je hoort je eigen stem dan zinnen zeggen die je nooit hebt opgenomen.

Deepfake met Obama

Het programma van de Australische producent Replica Studios is niet de eerste software in zijn soort. Spraaksyntheseprogramma’s zoals Lyrebird beloven vergelijkbare resultaten. De software van de Canadese start-up met dezelfde naam zorgde voor opschudding met video’s waarin ze zelfgemaakte zinnen in de mond van bekende politici legden zoals hieronder. Soortgelijke fake video’s zijn ook door anderen gecreëerd met uitspraken als “President Trump is a total and complete dipshit” (zie verder naar beneden) – bij nader inzien kon je merken dat dit een kunstmatig gegenereerde stem was, maar het klonk heel geloofwaardig.

De Australische start-up Lyrebird maakte bedrieglijk echte kopieën van stemmen van bekende politici en gebruikte die voor demonstratiedoeleinden in o.a. een deepfake video met Obama (bron: https://youtu.be/YfU_sWHT8mo).

De bètaversie van het programma, die tot voor kort online beschikbaar was, is niet meer beschikbaar. Ook Adobe had al in 2016 een werkend prototype van zijn VoCo-software. Maar dat programma is nooit verder gekomen dan de bètafase. Een van de redenen daarvoor zouden de negatieve reacties van de media kunnen zijn geweest die volgde op de presentatie van de software. Al waren de mogelijkheden om een deepfake video te creëren op dat moment minder ver gevorderd.

Commercieel gebruik

Replica biedt vergelijkbare functies als Lyrebird en is van plan om zijn programma om te zetten in een marktplaats voor stemmen. Sprekers voor animatiefilms of audioboeken zouden daarmee een mogelijkheid hebben hun stem eenmalig onder licentie te verkopen aan opnamestudio’s. Dat zou tijd besparen, aangezien de dialogen niet meer gesproken hoeven te worden. Dat is ook praktisch in de gameproductie, want je kunt een stem kiezen die overeenkomt met het karakter dat je creëert en die veranderen. Andere toepassingsgebieden zijn muziek en reclame. Spraaksynthese heeft ook het potentieel om de stem te reproduceren van mensen die lijden aan degeneratieve zenuwziekten zoals ALS. Naast een bedrieglijke deepfake video zijn er dus ook veel kansen voor positieve inzet van spraaksynthese.

In de momenteel beschikbare bètaversie kunnen stemmen al worden gekopieerd en kunnen bestaande sprekers worden gebruikt om dialogen aan te maken. Momenteel echter alleen in het Engels. Als je probeert teksten in andere talen voor te laten lezen, krijg je een onbegrijpelijk, robotachtig resultaat. Maar de Engelse resultaten zijn vrij goed voor een bètaversie. Als je bijvoorbeeld consequent het woord ‘hebrew’ verkeerd uitspreekt, neemt de gekloonde stem die eigenaardigheid gewoon over. Maar je kunt een mens nog niet om de tuin leiden met Replica.

Om de resultaten realistischer te maken, zijn er emoties zoals boos en geïrriteerd, die aan de tekst kunnen worden toegevoegd. Als je bijvoorbeeld de emotie boos toevoegt aan de stem van een oude vrouw, zal ze een agressieve toon uitdrukken. Met je eigen stem is het gebruik van emoties nog niet mogelijk. Bovendien hoor je bij sommige emoties, zoals levendig, nauwelijks verschil met de neutrale versie. Daarnaast houdt Replica nog geen rekening met toonveranderingen bij leestekens. Dus een stem gaat bij een vraagteken aan het eind van de zin niet omhoog. Typfouten als ‘Thisss isrealy awhsome’ veroorzaken geen problemen voor het programma, het spreekt die zin correct uit.

Replica gebruiken

De duidelijk geordende interface van Replica is verdeeld in vijf gebieden: Dashboard, Projects, Voices, Marketplace en Integrations. Op dit moment staan er demoversies van Replica Voice voor verschillende toepassingsgebieden zoals videospelletjes en reclame op het dashboard. Bij Voices kunnen nieuwe stemmen worden opgenomen en ontwerpen worden opgeslagen.

Replica stem opnemen voice sample spraaksynthese deepfake

Om een kopie van je eigen stem te krijgen, moet je een aantal gegeven zinnen voorlezen aan Replica. Hoe meer voicesamples je opneemt, des te realistischer het resultaat zal zijn. (Bron afbeelding: https://replicastudios.com/voices/)

De bediening is intuïtief. Bij Projects krijg je een overzicht van reeds opgenomen gesprekken. Om er sneller mee aan de slag te kunnen, biedt Replica daar ook tutorials. De voltooide projecten kunnen met vrienden worden gedeeld via een link of worden geëxporteerd in MP3-, FLAC-, OGG- en WAV-formaten. Het is ook mogelijk om opnames afzonderlijk te downloaden.

Onder het item Integrations bevindt zich een API waarmee Replica-gebruikers hun eigen projecten beter kunnen integreren. Het bedrijf adviseert de API-ontwikkelingsomgeving Postman voor dat doel en biedt een stap-voor-stap handleiding om meteen aan de slag te gaan.

Spraaksynthese met AI

Replica geeft geen informatie over hoe de AI precies getraind wordt. Onder de naam Tacotron hebben onderzoekers van de Universiteit van Cornell sinds 2017 echter een reeks studies gepubliceerd die juist over dat onderwerp gaan. Die onderzoekers werken nauw samen met Google en maken bijvoorbeeld gebruik van het neurale netwerk WaveNet, dat geluiden genereert uit een toonhoogtediagram (Mel-spectogram). Voor hun Tacotron 2-systeem gebruiken ze een sequence-to-sequence model dat een reeks eigenschappen genereert uit een serie van letters, die uiteindelijk het audiosignaal coderen.

Tacotron 2 werd getraind met 24 uur audiomateriaal en haalde een Mean Opinion Score (MOS) van 4,525. Dat is een rekenkundig gemiddelde voor de subjectieve beoordeling van goede (5) of slechte (1) spraak- en beeldkwaliteit. Ter vergelijking: een menselijke stemopname bereikt een gemiddelde MOS-waarde van 4,58. Er zijn echter nog steeds problemen met de uitspraak van vreemde woorden. Het model is ook nog niet geschikt voor realtime spraakuitvoer.

Het Tacotron-systeem is in principe gebaseerd op drie componenten: een speaker-encoder, een AI voor spraaksynthese en een vocoder. De speaker-encoder is een neuraal netwerk dat getraind is met samples van meer dan 30.000 sprekers. Op basis van de trainingssamples creëert het een gemiddelde van de menselijke spraak. Die stap is slechts één keer nodig en zorgt ervoor dat toekomstige stemkopieën geen urenlange audio-opnames vereisen. Voor elke nieuwe opname genereert de AI-spraaksynthese een spectrogram voor de vocoder uit het spraakgemiddelde, waardoor het een hoorbaar resultaat wordt.

Risico’s

In een blogpost doet Replica Studios verslag van de manier waarop het de kopieën wil beschermen tegen misbruik. Aan de ene kant moeten akoestische watermerken helpen om de gelicentieerde stemmen te identificeren als Replica-stemmen. Aan de andere kant wil Replica Studios andere platforms ondersteunen bij het opsporen van illegale stemkopieën en end-to-end encryptie bieden voor Replica-gebruikers. Dat kan helpen om misbruik van stemmen voor een deepfake tegen te gaan, bijvoorbeeld rond de Amerikaanse verkiezingen of andere gebeurtenissen.

Spraaksynthese kan worden gebruikt voor deepfakes met nagebootste stemmen (bron: https://youtu.be/cQ54GDm1eL0).

In haar privacybeleid behoudt het Australische bedrijf zich het recht voor om persoonlijke informatie zoals naam, e-mailadres, leeftijd, creditcardgegevens en locatie op te slaan en ter beschikking te stellen aan derden. Daartoe behoren overheidsinstellingen en potentiële zakenpartners van Replica Studios. Bovendien behoudt het bedrijf zich het recht voor om de informatie te delen met zakenpartners buiten Australië en wil het erop wijzen dat er geen garantie is dat persoonlijke informatie veilig zal zijn.

De gekloonde stemmen zijn in potentie een handige tool voor creativiteit en kunnen zieke mensen helpen. Maar hoewel nieuwe technologieën op dit gebied naar verwachting binnenkort de bètafase zullen verlaten, zijn oplossingen voor identiteitsdiefstal blijven hangen in het alfastadium. Er zijn potentiële moeilijkheden en problemen geïdentificeerd, maar een bevredigende oplossing ontbreekt nog steeds. Om de spraaksyntheseprogramma’s zonder zorgen te kunnen gebruiken, is met name op dat gebied echter dringend een update nodig.

(Kim Sartorius en Noud van Kruysbergen, c’t magazine 9/2020, p. 114)

Blijf op de hoogte van de nieuwste informatie en tips!
Schrijf je in voor de nieuwsbrief:

Je aanmelding is helaas niet gelukt. Probeer het later nog eens.

Lees uitgebreide achtergrondinfo en reviews op je gemak in c't 05/2024

Bestel nu

Noud van KruysbergenNoud heeft de 'American Dream' doorlopen van jongste bediende tot hoofdredacteur van c't, waar hij zo veel mogelijk de diepgang, betrouwbaarheid en diversiteit wil bewaken.

Dit kun je verwachten als je ChatGPT als hacking-tool wilt gebruiken

Kun je ChatGPT gebruiken als hacking-tool? We neigden naar de duistere kant en onderzochten of de assistentie van een AI van elke scriptkiddie een eli...

achtergrond•AI ChatGPT hacking kunstmatige intelligentie

24/04/2024

Raspberry Pi GPIO pinnen: een overzicht van de aansluitingen

Een kleine Raspberry Pi board is zo volgepakt met alle componenten dat er geen ruimte meer over was om de 40 GPIO pinnen van informatie te voorzien. O...

achtergrond•Hardware Raspberry Pi raspberry pi projects Zelfbouw

23/04/2024

Softlink

0 Praat mee

Abonneer

Cookie	Looptijd	Omschrijving
AnalyticsSyncHistory	1 month	No description
bc_view	1 year	No description
cookielawinfo-checbox-analytics	11 months	This cookie is set by GDPR Cookie Consent plugin. The cookie is used to store the user consent for the cookies in the category "Analytics".
cookielawinfo-checbox-functional	11 months	The cookie is set by GDPR cookie consent to record the user consent for the cookies in the category "Functional".
cookielawinfo-checbox-others	11 months	This cookie is set by GDPR Cookie Consent plugin. The cookie is used to store the user consent for the cookies in the category "Other.
cookielawinfo-checkbox-advertisement	1 year	Set by the GDPR Cookie Consent plugin, this cookie is used to record the user consent for the cookies in the "Advertisement" category .
cookielawinfo-checkbox-necessary	11 months	This cookie is set by GDPR Cookie Consent plugin. The cookies is used to store the user consent for the cookies in the category "Necessary".
cookielawinfo-checkbox-performance	11 months	This cookie is set by GDPR Cookie Consent plugin. The cookie is used to store the user consent for the cookies in the category "Performance".
cookielawinfo-checkbox-socialmedia	1 year	No description
cxexp	30 minutes	No description available.
cxid	session	No description available.
iutk	5 months 27 days	This cookie is used by Issuu analytic system. The cookies is used to gather information regarding visitor activity on Issuu products.
JSESSIONID	session	Used by sites written in JSP. General purpose platform session cookies that are used to maintain users' state across page requests.
lang	session	This cookie is used to store the language preferences of a user to serve up content in that stored language the next time user visit the website.
li_gc	2 years	No description
li_sugr	3 months	No description available.
PHPSESSID	session	This cookie is native to PHP applications. The cookie is used to store and identify a users' unique session ID for the purpose of managing user session on the website. The cookie is a session cookies and is deleted when all the browser windows are closed.
ROUTEID	session	This cookie is used for directing the users to the same server.
SERVERID	past	This cookie is used to assign the user to a specific server, thus to provide a improved and faster server time. It remembers which server had delivered the last page on to the browser. It also helps in load balancing.
SessionID	session	No description
viewed_cookie_policy	11 months	The cookie is set by the GDPR Cookie Consent plugin and is used to store whether or not user has consented to the use of cookies. It does not store any personal data.
_ga	2 years	The _ga cookie, installed by Google Analytics, calculates visitor, session and campaign data and also keeps track of site usage for the site's analytics report. The cookie stores information anonymously and assigns a randomly generated number to recognize unique visitors.
_gat_UA-1134343-1	1 minute	A variation of the _gat cookie set by Google Analytics and Google Tag Manager to allow website owners to track visitor behaviour and measure site performance. The pattern element in the name contains the unique identity number of the account or website it relates to.
_gid	1 day	Installed by Google Analytics, _gid cookie stores information on how visitors use a website, while also creating an analytics report of the website's performance. Some of the data that are collected include the number of visitors, their source, and the pages they visit anonymously.

Cookie	Looptijd	Omschrijving
bscookie	2 years	This cookie is a browser ID cookie set by Linked share Buttons and ad tags.
fr	3 months	Facebook sets this cookie to show relevant advertisements to users by tracking user behaviour across the web, on sites that have Facebook pixel or Facebook social plugin.
GoogleAdServingTest	session	No description
IDE	1 year 24 days	Google DoubleClick IDE cookies are used to store information about how the user uses the website to present them with relevant ads and according to the user profile.
mc	1 year 1 month	Quantserve sets the mc cookie to anonymously track user behaviour on the website.
test_cookie	15 minutes	The test_cookie is set by doubleclick.net and is used to determine if the user's browser supports cookies.
uuid	session	To optimize ad relevance by collecting visitor data from multiple websites such as what pages have been loaded.
VISITOR_INFO1_LIVE	5 months 27 days	A cookie set by YouTube to measure bandwidth that determines whether the user gets the new or old player interface.
YSC	session	YSC cookie is set by Youtube and is used to track the views of embedded videos on Youtube pages.
yt-remote-connected-devices	never	YouTube sets this cookie to store the video preferences of the user using embedded YouTube video.
yt-remote-device-id	never	YouTube sets this cookie to store the video preferences of the user using embedded YouTube video.
_fbp	3 months	This cookie is set by Facebook to display advertisements when either on Facebook or on a digital platform powered by Facebook advertising, after visiting the website.
__gads	1 year 24 days	The __gads cookie, set by Google, is stored under DoubleClick domain and tracks the number of times users see an advert, measures the success of the campaign and calculates its revenue. This cookie can only be read from the domain they are set on and will not track any data while browsing through other sites.

Cookie	Looptijd	Omschrijving
bcookie	2 years	LinkedIn sets this cookie from LinkedIn share buttons and ad tags to recognize browser ID.
CONSENT	16 years 2 months 19 days 17 hours	YouTube sets this cookie via embedded youtube-videos and registers anonymous statistical data.
lidc	1 day	LinkedIn sets the lidc cookie to facilitate data center selection.
UserMatchHistory	1 month	Linkedin - Used to track visitors on multiple websites, in order to present relevant advertisement based on the visitor's preferences.

Deepfake en AI-stemmen: kansen en risico’s van spraaksynthese

Inhoudsopgave

Deepfake met Obama

Commercieel gebruik

Replica gebruiken

Spraaksynthese met AI

Risico’s

Lees uitgebreide achtergrondinfo en reviews op je gemak in c't 05/2024

Lees ook

Dit kun je verwachten als je ChatGPT als hacking-tool wilt gebruiken

Raspberry Pi GPIO pinnen: een overzicht van de aansluitingen

Lees ook

Softlink

Blijf op de hoogte!

Deepfake en AI-stemmen: kansen en risico’s van spraaksynthese

Inhoudsopgave

Deepfake met Obama

Commercieel gebruik

Replica gebruiken

Spraaksynthese met AI

Risico’s

Lees uitgebreide achtergrondinfo en reviews op je gemak in c't 05/2024

Meer over

Deel dit artikel

Lees ook

Dit kun je verwachten als je ChatGPT als hacking-tool wilt gebruiken

Raspberry Pi GPIO pinnen: een overzicht van de aansluitingen

Lees ook

Softlink

Blijf op de hoogte!