Tenzij je onder een steen geleefd hebt, ben je vast bekend met de “magie” van generatieve AI: hoe chatbots zoals ChatGPT alles kunnen schrijven, van marketingteksten tot filosofische verhandelingen, en hoe tekst-naar-beeld modellen zoals Stable Diffusion kunst kunnen genereren op basis van tekst-input.
Ontdek hoe je generatieve AI benutten kunt in je eigen bedrijf en voor je eigen toepassingen. We gaan kort in op de training en inferentie die de basis zijn bij generatieve AI en geven een voorbeeld van totaaloplossingen van GIGABYTE Technology waarmee je het volledige potentieel ervan kunt benutten.
Hoe werkt generatieve AI?
Generatieve AI is natuurlijk niet echt een robot met een verfkwast. Alle generatieve AI komt neer op twee essentiële processen die “training” en “inferentie” worden genoemd. Als je eenmaal begrijpt hoe ze werken, ben je in een goede positie om ze voor jou te laten werken.
Laten we ChatGPT als voorbeeld nemen. De “T” in “GPT” staat voor transformer, wat een architectuur is die wordt gebruikt door een subset van natuurlijke taalverwerking (NLP). Deze subset noemen we Large Language Model, of kortweg LLM. LLM is de belangrijkste manier geworden om computers te leren lezen en schrijven zoals mensen dat doen, omdat het in staat is om zichzelf te “trainen” op een groot corpus van ongelabelde tekst (met een woordenaantal dat in de biljoenen loopt) door middel van deep learning en kunstmatige neurale netwerken (Artificial Neural Network, ANN). Om het eenvoudiger te zeggen: het heeft zichzelf leren lezen en schrijven door het equivalent van de hele Wikipedia door te spitten. Het gedeelte waarin het gebruik maakt van zijn training om te reageren op je vragen wordt “inferentie” genoemd.
Oké, dus hoe werkt Stable Diffusion of Midjourney of een van de vele tekst-naar-beeld modellen? Dat verschilt eigenlijk niet zoveel van ChatGPT, behalve dat er dit keer een generatief afbeeldingsmodel aan het taalmodel is gekoppeld. Ook deze modellen zijn getraind op een grote hoeveelheid digitale teksten en afbeeldingen.
De techniek achter generatieve AI
Nu we je hebben laten zien hoe de meest populaire vormen van generatieve AI werken, gaan we dieper in op de betrokken technologieën en de tools die je nodig hebt om deze opwindende nieuwe doorbraak in kunstmatige intelligentie voor jou te laten werken.
Er is een reden waarom het moderne veld van machine learning sterk leunt op neurowetenschappelijke terminologie – deze tak van AI-ontwikkeling heeft veel baat bij ons begrip van het menselijk brein. Mensen hebben miljarden neuronen in hun hersenen die met elkaar communiceren door de vorming van triljoenen synapsen. Het ANN is ook opgebouwd uit lagen en lagen knooppunten die zijn gemodelleerd naar biologische neuronen; de verbindingen ertussen zijn verwant aan onze synapsen.
Training door herhaling met big data
Wanneer een stukje data van laag naar laag gaat, wordt er een gewogen score toegekend aan de gegevensparameters, afhankelijk van de geldigheid van de output. Door herhaalde iteraties van voorspellingen (voorwaartse voortplanting) en terugkoppelingen (achterwaartse voortplanting) worden de wegingen zo nauwkeurig dat altijd de juiste verbindingen worden gekozen. Om een ruwe analogie te gebruiken, je kunt het zien alsof de eerder geanalyseerde gegevens “groeven” achterlaten in het algoritme voor toekomstige gegevens om te volgen. Dus ook al begrijpt de AI je commando’s niet in letterlijke zin, hij heeft zo lang geoefend met het raden naar zoveel gegevens dat hij een goed onderbouwde reactie kan genereren op nieuwe input, of dat nu in de vorm van teksten of afbeeldingen is.
Gewoonlijk wordt tijdens het AI-trainingsproces een zee van gelabelde gegevens in het algoritme gegoten om te “bestuderen”. De AI maakt gissingen en controleert vervolgens de antwoorden om de nauwkeurigheid te verbeteren. Na verloop van tijd wordt de AI zo goed in het raden dat hij altijd de juiste gok maakt; met andere woorden, hij heeft de informatie “geleerd” waarmee jij wilde dat hij zou werken.
Het lijdt geen twijfel dat big data – de enorme hoeveelheid gegevens die onze onderling verbonden elektronische apparaten dagelijks verzamelen – een grote hulp was om ervoor te zorgen dat de AI een schat aan informatie had om van te leren. Eerdere trainingsmethoden waren afhankelijk van “gelabelde” gegevens en stonden onder toezicht van menselijke programmeurs, wat wil zeggen dat er veel begeleiding nodig was. Maar recente ontwikkelingen hebben het mogelijk gemaakt voor de AI om aan zelf- of semisupervisietraining te doen.
Krachtige servers voor training van generatieve AI
Het hoeft geen betoog dat de omvang van de computerresources die nodig zijn om de AI te trainen niet alleen adembenemend is, maar ook exponentieel toeneemt. GPT-1 bijvoorbeeld, die werd uitgebracht in 2018, trainde gedurende “een maand op 8 GPU’s”, waarbij ongeveer 0,96 petaflop/s-dagen (pfs-dagen) aan bronnen werden gebruikt. GPT-3, die werd uitgebracht in 2020, gebruikte 3.630 pfs-dagen aan bronnen. Er zijn geen cijfers beschikbaar voor de huidige iteratie van GPT-4, maar het lijdt geen twijfel dat de tijd en rekenkracht die ermee gemoeid waren, vele ordes van grootte groter waren dan GPT-3.
Als je aan AI-training wilt doen, heb je dus een krachtig GPU-computerplatform nodig. GPU’s genieten de voorkeur omdat ze uitblinken in het verwerken van grote hoeveelheden gegevens via parallelle berekeningen. Dankzij parallellisatie kan de eerder genoemde transformatorarchitectuur alle sequentiële gegevens die je erin stopt in één keer verwerken. Voor de veeleisende AI-expert kan zelfs het type cores in de GPU een verschil maken, als het doel is om de tijd die nodig is om de AI te trainen verder te verkorten.
Momenteel is een van de meest geavanceerde AI-computerplatforms ter wereld de G-serie GPU-servers van GIGABYTE. De meest geavanceerde van deze servers combineren AMD EPYC™ 9004 processors (in het geval van de G593-ZD2) of 4e generatie Intel® Xeon® Scalable processors (G593-SD0) met de HGX™ H100 rekenmodule van NVIDIA. De HGX™ H100 kan tot acht H100 GPU’s huisvesten; deze geavanceerde versnellers zijn gebouwd rond NVIDIA’s 4e generatie Tensor Cores, die speciaal geschikt zijn voor deep learning, en ze bieden een speciale “Transformer Engine” met FP8-precisie, die LLM-training kan versnellen. De HGX™ H100 levert meer dan 32 petaFLOPS aan AI-prestaties wanneer deze is geladen met alle acht GPU’s. GIGABYTE was in staat om al deze verwerkingskracht in een 5U server te passen dankzij de eigen koeltechnologie en het chassisontwerp, zodat klanten kunnen genieten van ongelooflijke computerdichtheid met een minimale voetafdruk.
Meer dan generatieve AI en servers
Het is belangrijk om op te merken dat AI-training al bestond lang voordat generatieve AI zijn intrede deed. Klanten die AI-modellen ontwikkelen, kiezen er vaak voor om GIGABYTE’s toonaangevende G-serie GPU-servers aan te schaffen. Een wereldberoemde Israëlische ontwikkelaar van autonome voertuigen gebruikt bijvoorbeeld de G291-281 om zijn vloot van zelfrijdende auto’s te trainen. Het Institute for Cross-Disciplinary Physics and Complex Systems (IFISC) in Spanje gebruikt de G482-Z54 om Europa’s kostbare olijfgaarden te bewaken met satellietbeelden en AI. In 2020 gebruikte een supercomputerteam van de Cheng Kung Universiteit van Taiwan (NCKU) de G482-Z50-servers van GIGABYTE om het wereldrecord te verbreken voor BERT, een taalmodel gebaseerd op de transformatorarchitectuur.
Serveroplossingen zijn niet de enige producten die GIGABYTE te bieden heeft voor AI-training. De DNN Training Appliance is een software- en hardwarepakket dat krachtige computing combineert met een gebruiksvriendelijke GUI. Het biedt ontwikkelaars de ideale omgeving om datasets te beheren, het systeem in realtime te monitoren en AI-modellen te analyseren.
AI en inferentie – uitleg en geschikte systemen
Zodra de AI goed is getraind en getest, is het tijd voor de inferentiefase. De AI wordt blootgesteld aan een stortvloed van onbekende nieuwe gegevens om te zien of hij zinkt of zwemt. In het geval van generatieve AI kan dit van alles betekenen, van verzoeken om code te schrijven (of zelfs malware) tot de eis om een tekening te maken van een astronaut op een paard in de stijl van de negentiende-eeuwse Japanse kunstenaar Utagawa Hiroshige (vraag niet waarom).
De AI vergelijkt de parameters van deze nieuwe invoer met wat het heeft “geleerd” tijdens het uitgebreide trainingsproces en genereert de juiste uitvoer. Terwijl deze voorwaartse en achterwaartse propagaties tussen de lagen worden uitgewisseld, gebeurt er nog iets anders interessants. De AI verzamelt de reacties van de menselijke gebruikers voor de volgende trainingssessie. Hij neemt notitie wanneer hij wordt geprezen voor goed werk en is bijzonder oplettend wanneer de mens kritiek levert op zijn output. Deze voortdurende lus van training en inferentie is wat kunstmatige intelligentie elke dag slimmer en levensechter maakt.
Tijdens het inferentieproces van de AI wordt onbekende, ongelabelde invoer ingevoerd in het vooraf getrainde model. De AI vergelijkt de parameters van de nieuwe gegevens met zijn training en probeert de juiste voorspelling te doen. Successen en mislukkingen tijdens de inferentiefase worden gebruikt in de volgende trainingssessie om de AI verder te verbeteren.
Servers voor inferentie en lage latentie
Computing resources en GPU-acceleratie zijn nog steeds belangrijk als het aankomt op inferentie, maar nu is er een ander aspect waar rekening mee moet worden gehouden: latentie. Gebruikers eisen snelle antwoorden van de AI, vooral wanneer veel van de door AI gegenereerde inhoud nog moet worden verfijnd voordat deze van enige waarde kan zijn. In andere scenario’s buiten generatieve AI kan een snelle reactie de productiviteit of zelfs de veiligheid beïnvloeden (zoals wanneer computervisie wordt gebruikt om post te sorteren of een zelfrijdende postwagen te besturen).
Een van de beste oplossingen van GIGABYTE voor AI-inferentie is de G293-Z43, die een zeer dichte configuratie van inferentieversnellers bevat, met zestien AMD Alveo™ V70-kaarten geïnstalleerd in een 2U chassis. Alveo™ V70 is gebaseerd op AMD’s XDNA™ architectuur, die is geoptimaliseerd voor AI-inferentie. De adaptieve dataflow-architectuur zorgt ervoor dat informatie tussen de lagen van een AI-model kan worden doorgegeven zonder afhankelijk te zijn van extern geheugen. Dit verbetert de prestaties en energie-efficiëntie en verlaagt de latentie.
Andere sterk aanbevolen oplossingen voor AI-inferentie zijn onder andere de Qualcomm® Cloud AI 100, die datacenters beter in staat kan stellen om inferenties uit te voeren aan de rand, omdat het verschillende unieke vereisten van cloud computing adresseert, zoals signaalverwerking, energie-efficiëntie, node-vooruitgang en schaalbaarheid. Deze oplossingen voor inferentie kunnen worden ingezet in veel van GIGABYTE’s serverproducten – naast de G-serie GPU-servers zijn er onder andere de E-serie Edge Servers en R-serie Rack Servers.
Generatieve AI efficiënt benutten
Generatieve AI vindt zijn weg naar steeds meer aspecten van ons leven, van detailhandel en productie tot gezondheidszorg en bankieren. Uiteindelijk hangt de serveroplossing die je kiest af van welk deel van de generatieve AI-reis je een boost wilt geven – of het nu gaat om het verwerken van gegevens om je AI te “trainen”, of het inzetten van het AI-model zodat het kan “inwerken” in de echte wereld. De kracht van nieuwe AI-uitvindingen zal niet zo onbereikbaar lijken als je eenmaal begrijpt dat er een overvloed aan speciale tools is ontworpen om ermee te werken – van iets miniems als de architectuur van processorkernen tot iets veelomvattends als de totaaloplossingen van GIGABYTE Technology.