Kunstmatige intelligentie maakt beeldbewerking intuïtief

Noud van Kruysbergen
0

Kunstmatige neurale netwerken kunnen foto’s beschrijven, teksten vertalen en strategiespelen op hoog niveau leren – maar dat was pas het begin. Nieuwe netwerkarchitecturen genereren al fotorealistische afbeeldingen. Ze kunnen zorgen voor een revolutie bij het retoucheren van foto’s. Op de lange termijn leren computers zo hoe de wereld in elkaar steekt.

Googles superresolutienetwerk geeft een erg pixelig portret weer een gezicht (midden). Veel resultaten lijken verrassend aardig op het origineel (rechts) – maar dat is slechts een van de vele mogelijkheden.

Mensen weten intuïtief hoe een goede foto eruit moet zien. Iedereen stoort zich aan een te blauwe winterfoto en magenta-achtige huidskleuren. Dat een folder van een groenteboer zelf in elkaar gezet is, zie je aan bomen waarvan de vruchten lijken te zweven.

Dat is makkelijk te herkennen, maar moeilijk te verbeteren. Beeldbewerkingsprogramma’s denken niet in scènes en objecten, maar in helderheden, histogrammen en filters. Hun assortiment aan tools is vaak zo uitgebreid dat het voor beginners vaak teveel van het goede is. Of zo beperkt dat het niet uitnodigt tot creatieve ideeën. De klassieke autocorrectie helpt voor veel facetten van de fotografie niet en met één klik toegepaste effecten gaan op de lange termijn vervelen.

Dat verandert op dit moment echter fundamenteel. Op universiteiten en bij de onderzoeksafdelingen van bedrijven zoals Adobe, Google en Facebook en dergelijke ontstaan er fascinerende technieken die intuïtieve directe beeldbewerking mogelijk maken. Die worden allemaal ontwikkeld op basis van diepe neurale netwerken (deep learning). Google heeft daar vijf jaar geleden het herkennen van katten succesvol mee getraind. Daardoor werd het onderwerp kunstmatige intelligentie opeens de technologie van de toekomst.

Diepe netwerken bestaan uit meerdere lagen van neuronen die via synapsen met elkaar verbonden zijn. De netwerkarchitectuur en de werking zijn nageaapt van de visuele cortex van de mens. Die abstraheert de informatie die in beelden zit en geeft die door aan een volgende verwerkingslaag – waardoor ze uit steeds complexere kenmerken worden samengesteld. Net als mensen leren de kunstmatige netwerken objecten te herkennen alleen door talloze voorbeelden te bekijken – en via een foutfunctie feedback te krijgen of de inschatting goed was.

Begrijpen betekent creëren

De afgelopen jaren zijn de netwerkarchitecturen duidelijk complexer geworden. Daarbij hebben verschillende disciplines zoals spraakherkenning, speltheorie en beeldbewerking van elkaar geprofiteerd. Twee jaar geleden kwam Ian Goodfellow, toen onderzoeker aan de universiteit van Montreal, met een geheel revolutionair concept: Generative Adversarial Networks (GAN). Yann LeCun, AI-baas van Facebook, noemde dat het belangrijkste idee van de laatste tien jaar op het gebied van machinaal leren. Het omvat twee concurrerende netwerken die dusdanig met elkaar verbonden zijn dat beide hun vaardigheden door de onderlinge competitie perfectioneren. Om beelden te genereren, werkt het ene netwerk als vervalser en het andere als detective die de vervalsing moet herkennen.

Met die nieuwe netwerken lukte het om fotorealistische beelden te produceren in plaats van alleen te interpreteren. In tegenstelling tot de tot dan gebruikte deep-learners hebben GAN’s voor het trainen geen door mensen geclassificeerde voorbeelden nodig. Voor onderzoekers is die zogeheten unsupervised training het doel, waar een universele kunstmatige intelligentie uit moet volgen. GAN’s zijn een mijlpaal op de weg daar naartoe. Er is de afgelopen jaren een groot aantal wetenschappelijke publicaties over dit onderwerp geweest, wat illustreert welke enorme potentie generatieve netwerken en hun varianten kunnen hebben. Intuïtieve, contextafhankelijke beeld- en videobewerking is slechts een van de mogelijke toepassingen daarvan.

Spraakcommando’s

Beeldbewerking met alle mogelijkheden van machinaal leren zou de gebruikers omslachtige technieken met lagen, instellingslagen, maskers, kanalen en filters kunnen besparen. In plaats zou het kunnen reageren op simpele (spraak)commando’s als “hang sinaasappels in de boom” of “maak persoon lichter”. Hun neuraal aangestuurde autocorrectie verschuift de helderheidswaarden niet volgens een ingesteld schema, maar heeft geleerd om huwelijksfoto’s anders te optimaliseren dan actiefoto’s en een sfeerfoto te onderscheiden van een slechte belichting. Door machinaal leren ontstaan er editors die geen abstracte helderheidswaarden verschuiven, maar zich een dieper begrip eigen hebben gemaakt van beelden, foto’s, motieven en compositie – net als een mens.

Dergelijke technieken worden niet alleen gevraagd door beginners, maar zeker ook door professionals die onder tijdsdruk duidelijk meer materiaal moeten afwerken dan twintig jaar geleden. Sommige AI-filters en -apps kun je al uitproberen. Als je je wilt verdiepen in de wereld van diepe netwerken, kun je inmiddels kiezen uit meerdere gratis frameworks als Caffe van Facebook en TensorFlow van Google.

Van analyse naar creativiteit

Maar wie bepaalt eigenlijk hoe de beeldbewerking van de toekomst eruit ziet? De AI-concerns Google en Facebook? Of laat uiteindelijk toch weer Adobe zich gelden met zijn jarenlange ervaring? Of komt er een geheel onbekende uit de start-upscene? In het begin was alles Google. Met zijn deep-learning-objectherkenning en perfecte vermarkting katapulteerde het dataconcern in 2012 de al vaker doodverklaarde kunstmatige intelligentie tot de techniek van de toekomst. Google trok AI-onderzoekers aan als een magneet. Ze kochten de start-upmarkt compleet leeg en richtte een eigen AI-afdeling op met de naam Google Brain. Toen Google dan ook nog John Nack binnenhaalde, een ervaren Photoshop-ontwikkelaar die naar eigen zeggen kwam om ze duidelijk te maken hoe beeldbewerking werkte, zag je het imperium van de al decennia lang onbedreigde nummer één Adobe al beginnen te wankelen.

Google, niet wars van een beetje publiciteit, presenteerde twee jaar geleden psychedelische kunstwerken die kwamen van de op objectherkenning getrainde deep-learner met de naam Inceptio. Met creativiteit – zoals dat vaak geïnsinueerd werd – had dat in de verste verte echter niets te maken. De fascinerende beelden waren namelijk niet meer dan afvalproducten van visualisatiemethoden die moeten helpen bij het het begrijpen van processen in de diepere netwerklagen.

Maar de aandacht was getrokken. Als neurale netwerken iets surrealistisch kunnen produceren, dan moet het toch ook mogelijk zijn ze kunstzinnige of zelfs echte beelden te laten produceren. Een eerste stap in die richting waren apps als Prisma en deepart.io. Daarmee was het opeens mogelijk een foto de stijl van Edvard Munchs De Schreeuw of Picasso’s Guernica te geven.

Van creativiteit naar realisme

Fotorealistische in plaats van artistiek vervreemde beelden kunstmatig produceren is echter geen peulenschil. Een fotogenerator, een intelligente retoucheertool of een effectfilter mag geen willekeurige correcties aanbrengen, maar moet zich beperken tot realistisch ogende. De software moet dus een idee hebben van welke kleur- en helderheidsverlopen, patronen, randen et cetera bij een foto passen. Met name op dat gebied hebben Adobe-onderzoekers de laatste tijd opvallend veel dingen gepresenteerd die ook voor de praktijk geschikt zijn. Fotorealistische stijltransfer, autocorrectie, automatisch vrijstaand maken – en beeldmanipulatie met behulp van generatieve netwerken. Onlangs heeft Adobe van al die nieuwe algoritmes een toepassing voor het optimaliseren van portretten gemaakt. Die is als technische demonstratie in Photoshop Touch gestopt.

De successen zijn niet toevallig. Adobe ontwikkelt met de Marketing Cloud al jaren tools voor het verzamelen, analyseren en visualiseren van data. De Creative Cloud maakt het mogelijk om omvangrijke gebruiksanalyses door te voeren, als de klant daar niets op tegen heeft. Sinds de herfst van 2016 bundelt Adobe zijn AI-onderzoek in een eigen platform met de naam Adobe Sensei. Dat moet een van de grootste strategische investeringen van het komende jaar worden (zie het interview op de pagina hiernaast).

RAISR

De lach lijkt echt, maar is berekend door een neuraal netwerk – dat automatisch alle bij het lachen betrokken delen van het gezicht aanpast.

Google lijkt zich op dit moment vooral op AI-technieken te concentreren die de belangrijkste diensten van het concern meteen gebruiken. Een sleuteltechniek daarvoor is het superresolutienetwerk RAISR, dat foto’s er zelfs na een sterke vergroting haarscherp uit laat zien. RAISR heeft aan de hand van vergelijkingsbeelden geleerd de bij het schalen optredende onscherpte te verbergen. Dat gebeurt door daar op de juiste plek zinvolle details toe te voegen. Die techniek wordt bij Android al gebruikt om foto’s onderweg met een lagere resolutie te versturen. Daar kan de databundel mee beperkt worden. Ook Google Earth kan dankzij RAISR de in de ruimte genomen landschapsfoto’s veel gedetailleerder laten zien dan voorheen.

Facebook gaat voor Augmented Reality. Facebook heeft onlangs een AR-cameraplatform voor mobiele apparaten geïntroduceerd. Een uitgerijpte beeldbewerkings-AI die begrijpt hoe objecten zich in hun natuurlijke omgeving gedragen is ook daar essentieel voor.

(Andrea Trinkwalder / Noud van Kruysbergen)

Meer over

AI

Deel dit artikel

Lees ook

IPMI maakt plaats voor Redfish: remote server beheer vernieuwd

IPMI voor server beheer op afstand wordt opgevolgd door Redfish voor nieuwe functies, hogere veiligheid en meer flexibiliteit. We gaan in op Redfish e...

Deepfake en AI-stemmen: kansen en risico’s van spraaksynthese

De menselijke stem kan met AI worden gekloond en bijvoorbeeld in een 'deepfake' gebruikt worden. We bekijken de risico's en kansen van spraaksynthese.

0 Praat mee
avatar
  Abonneer  
Laat het mij weten wanneer er