Alleen als een steekproef groot genoeg is en de betreffende categorie in al zijn facetten vertegenwoordigt, helpen die gegevens een neuraal netwerk karakteristieke kenmerken en patronen te vinden en deze het juiste gewicht te geven. Afhankelijk van het toepassingsgebied kan het eenvoudig, nogal lastig of gewoon onmogelijk zijn om een kwalitatief hoogwaardige en uitgebalanceerde steekproef te krijgen die groot genoeg is.
Dit neurale netwerk heeft duidelijk aan de hand van fotovoorbeelden geleerd dat vrouwen in de keuken horen. Daarom komt het in de problemen wanneer er een man aan het fornuis staat.
Bij de beroemde kattendetector van Google werkte dat perfect, maar bij foto’s van mensen begonnen de problemen al. Toch is er op het internet bepaald geen tekort aan foto’s waar mensen op staan. Het probleem is dat in die enorme collectie foto’s, mannen met een lichte huid domineren en gekleurde mensen sterk ondervertegenwoordigd zijn. Als een provider bijvoorbeeld de eerste 100.000 resultaten van de fotozoekvraag ‘mens’ neemt en zijn kunstmatig neuraal netwerk daarmee traint, vat dit de lichte huidskleur ten onrechte op als een van de belangrijkste kenmerken van een mens. Als het systeem ook wordt getraind in het detecteren van gorilla’s, zal het netwerk een zwart gezicht beschouwen als een zeer sterke indicatie van een gorilla. De ‘racistische’ AI is daarmee geboren.
Die blooper overkwam Google bij de automatische trefwoordentoekenning in de clouddienst Google Foto’s, maar ook de gezichtsherkenningssoftware van Microsoft en IBM liet in een studie van de onderzoekster Joy Buolamwini (MIT Media Lab) hogere foutpercentages zien bij mensen met een donkere huidskleur. Overigens worstelt Google nog steeds met dat probleem. De categorieën ‘gorilla’ en ‘aap’ zijn al drie jaar uitgeschakeld, in plaats daarvan laat Google een pedagogisch waardevolle verklarende video zien die begrip vraagt voor het verschijnsel van steekproefvertekening.
Video van Google over bias en machine learning.
Dergelijke verstoringen noemen we een vooroordeel of bias. In het beste geval is een bias eenvoudig te herkennen en snel te verhelpen. In het ergste geval wordt hij te laat herkend, bijvoorbeeld wanneer de AI al heeft geleid tot verkeerde beslissingen. In het ergste geval wordt de bias niet herkend en/of kunnen de gegevens niet voldoende geneutraliseerd worden.
Er is geen gebrek aan ontspoorde trainingen en onderzoekers ontwikkelen steeds meer methoden om de oorzaken daarvan te detecteren en te visualiseren. Marco Tulio Ribeiro (Universiteit van Washington) en zijn wetenschappelijke team ontdekten met hun analyseprocedure LIME dat een kunstmatig neuraal netwerk op basis van foto’s van husky’s alleen geleerd had om sneeuw te herkennen. Een ander systeem bleef bij het leren van het concept trein volledig blind voor locomotieven en wagons. In plaats daarvan sloeg het alleen aan op perrons en sporen. Fouten die zelfs een peuter nooit zou maken. Ook daarom is het vaak zo moeilijk voor ontwikkelaars om bias in trainingsgegevens van tevoren te vermijden.