AI-server: de juiste keuze maken

Blog
0

Met de komst van generatieve AI en andere praktische toepassingen van kunstmatige intelligentie is de aanschaf van servers die geschikt zijn voor AI-toepassingen een prioriteit geworden voor allerlei bedrijfstakken, variërend van de auto-industrie tot de gezondheidszorg, van zowel academische als openbare instellingen. In deze techguide van GIGABYTE nemen we je mee door de belangrijkste componenten van een AI-server. 

AI heeft grote prioriteit gekregen voor talloze industrieën en organisaties, of ze nu in de publieke of private sector werken, of het nu de wetenschap, onderzoek, productie of dienstverlening betreft. En dat is geen wonder: generatieve AI kan bijvoorbeeld helpen bij marketing, het bijhouden van gegevens en klantrelaties, terwijl andere AI-uitvindingen zoals computer vision – de wetenschap die zich bezighoud met hoe computers videomateriaal interpreteert – de productiviteit en efficiëntie kunnen verbeteren. Voor de meeste bedrijven en instellingen is het niet langer de vraag ‘of’ er een AI-server moet worden aangeschaft, maar ‘welke’, en hoe deze ook daadwerkelijk aan de verwachtingen kan voldoen.

De juiste cpu voor je AI-server

De processor is het hart en de ziel van elke computer. De cpu is de belangrijkste ‘rekenmachine’ die opdrachten van de gebruiker ontvangt en de ‘instructiecycli’ uitvoert die de gewenste resultaten opleveren. Een groot deel van wat een AI-server krachtig maakt, is de cpu.

Onbetwiste markleiders op gebied van cpu’s zijn AMD en Intel. Intels lijn van 4e generatie Intel Xeon-cpu’s en AMD’s lijn van AMD EPYC 9004-cpu’s vormen het summum van CISC-gebaseerde x86 processors. Als je op zoek bent naar uitstekende prestaties in combinatie met een volwassen, beproefd ecosysteem, dan kun je niet verkeerd gaan met de topproducten van deze chipfabrikanten.


In de GIGABYTE eShop ontdek je alle informatie en prijzen van het uitgebreide assortiment:

Bezoek de eShop


CISC of RISC?

Naast AMD en Intel zijn er nog andere keuzes. RISC-gebaseerde cpu’s zijn een serieuze mededinger geworden in de supercomputerarena. De sterker vereenvoudigde instructieset-architectuur (ISA) van RISC-processors betekent dat ze zuiniger opereren terwijl ze meer kernen bevatten, waardoor ze dezelfde rekenkracht kunnen laten zien als hun x86-tegenhangers. Omdat bijna alle mobiele en edge-apparaten (lees: je smartphone) op RISC-chips draaien, betekent dat RISC-gebaseerde cpu’s het voordeel hebben dat ze ‘cloud-native’ zijn en geen compiler nodig hebben om de gegevens van apparaten te vertalen. Als je AI-workload dus vooral van mobiele apparaten afkomt, kun je overwegen om RISC-producten te gebruiken.

Een van de bekendste lijnen van RISC-gebaseerde cpu’s is ARM. GIGABYTE heeft een uitgebreid assortiment ARM-servers die worden aangedreven door cpu’s die zijn gebouwd door Ampere. De meest geavanceerde Ampere-cpu’s bevatten zo’n 200 cores in één processor, terwijl ze ook de beste prestatie/watt-verhouding in hun klasse bieden, wat helpt om de total cost of ownership te verlagen.

Een andere interessante nieuwe toevoeging aan de ARM line-up is de NVIDIA Grace-cpu superchip, die ARM-cores combineert met gepatenteerde Nvidia-functies, zoals 900 GB/s NVLink-C2C interconnect en de eerste LPDDR5X met error-correcting code (ECC) geheugen. Als je vaak werkt met NVIDIA’s AI-softwaresuite en de cpu-hardware ervan wilt overnemen, is de GIGABYTE H263-V60 High Density Server het AI-supercomputerplatform voor jou.

gigabyte AI server H263-V60

De GIGABYTE H263-V60 High Density Server

 

De juiste gpu voor je AI-server

Naast de cpu speelt in een AI-server de grafische verwerkingseenheid of gpu een belangrijke rol. Een gpu dient als versnellers die de cpu kan helpen om AI-workloads veel sneller af te handelen. Gpu’s beschikken over vereenvoudigde onderdelen van een cpu, maar in veel grotere aantallen. Het resultaat is dat een gpu een taak kan opsplitsen in kleinere segmenten en deze gelijktijdig kan verwerken via parallel computing, vooral als de workload bestaat uit grafische gegevens, wat vaak het geval is bij AI.

De meeste moderne gpu’s zijn ontworpen voor zeer specifieke taken. Hun chiparchitectuur kan geschikt zijn voor bepaalde subsets van AI-ontwikkeling of -toepassingen. Maar als je wilt dat je server de flexibiliteit heeft om uiteenlopende opdrachten aan te kunnen, zijn gpu’s gebaseerd op de FPGA-configuratie (‘field-programmable gate array’) misschien een betere keuze. In tegenstelling tot hun ASIC (‘application-specific integrated circuit’) tegenhangers kunnen FPGA-chips na de productie worden geherprogrammeerd om verschillende functies uit te voeren. Xilinx, dat is overgenomen door AMD, was een bekende fabrikant van FPGA-chips. Veel GIGABYTE-servers zijn compatibel met FPGA-versnellers.

Hoe gebruik je AI?

De volgende vraag om te overwegen is of je je voornamelijk bezig gaat houden met AI-training of -inferentie. Deze twee processen vormen de basis van alle moderne versies van AI met ‘beperkt geheugen’. Tijdens de training neemt het AI-model een grote hoeveelheid big data op met miljarden of zelfs triljoenen parameters. Bij inferentie gebruikt de AI het ‘geheugen’ van zijn training om te reageren op nieuwe input uit de echte wereld. Beide processen zijn erg rekenintensief en daarom worden er gpu-uitbreidingskaarten en -modules geïnstalleerd om het proces te versnellen.

Voor AI-training zijn bepaalde gpu’s ontworpen met gespecialiseerde kernen en ‘engines’ die het proces kunnen stroomlijnen. Een goed voorbeeld is de NVIDIA HGX H100 8-gpu, die meer dan 32 petaFLOPS aan FP8 deep learning-prestaties kan leveren. Deze module is geïntegreerd in de G593-SD0, G593-SD2 en G593-ZD2 servers van GIGABYTE.

gigabyte G593-ZD2 

De G593-ZD2 server van GIGABYTE

Er is ook een variant van de module met vier gpu’s, genaamd de NVIDIA HGX H100 4-gpu. Deze is geïntegreerd in de GIGABYTE G363-SR0, die waterkoeling ondersteunt om het volledige potentieel van de chips te ontsluiten en tegelijkertijd de PUE (Power Usage Effectiveness) van een datacenter te verhogen. Elke H100 SXM5 gpu bevat Tensor Cores van de vierde generatie die het nieuwe FP8-datatype gebruiken, evenals een ‘Transformer Engine’ om modeltraining te optimaliseren. NVLink, dat tot 900 GB/s aan bandbreedte biedt, wordt gebruikt om de processors met elkaar te verbinden, terwijl NVSwitch wordt gebruikt om het cluster te coördineren.

AMD’s Instinct MI300X is een krachtig alternatief dat de OAM-standaard van het Open Compute Project (OCP) volgt. Een van de specialiteiten is de enorme geheugen- en datadoorvoer, wat belangrijk is voor generatieve AI workloads, zoals in een groot taalmodel (LLM). Hierdoor kunnen LLM’s zoals Falcon-40, een model met 40 miljard parameters, draaien op een enkele MI300X versneller. Het AMD Instinct Platform is een module die tot acht MI300X-gpu’s combineert voor baanbrekende prestaties in AI-computing.

Als je niet voor de allerkrachtigste prestaties wilt gaan of als de dataset waarmee je de AI traint niet zo enorm is, dan heeft GIGABYTE een uitgebreide lijn oplossingen die de AMD Instinct MI200-serie versnellers ondersteunen. De NVIDIA L40S-gpu, die wordt ondersteund door de GIGABYTE G493-SB0, G293-S40, G293-S41, en G293-S45, is ook een aanrader voor AI-training. De R162-Z11 rackserver is een ander goed voorbeeld van een veelzijdige server die geen rekenmodule bevat, maar voorzien is van PCIe-sloten die tot drie Nvidia-gpu’s ondersteunen.

gigabyte G493-SB0

De GIGABYTE G493-SB0 met de nieuwe serie Xeon-processors en met PCIe 5.0-ondersteuning

Wat AI-inferentie betreft, is het van belang om te zoeken naar gpu’s met gebruikersscenario-specifieke voordelen. Een van de beste AI-inferentieservers op de markt is bijvoorbeeld de GIGABYTE G293-Z43, met een zeer dichte configuratie van zestien AMD Alveo V70-kaarten in een 2U-chassis. Deze gpu’s zijn gebaseerd op AMD’s XDNA-architectuur, die met name uitblinkt in zijn adaptieve dataflow-architectuur die gegevens door de lagen van een AI-model laat gaan zonder extern geheugen nodig te hebben. Dit verbetert de prestaties en reduceert de latentie, waardoor de G293-Z43 de ideale oplossing is voor zeer veeleisende AI-workloads. GIGABYTE-servers met meerdere PCIe Gen 4 (of hoger) uitbreidingssloten zijn ook compatibel met NVIDIA A2 Tensor Core-gpu’s en L4 Tensor Core-gpu’s, die zijn gericht op het aanpakken van AI-inferentieworkloads.

Als je inferentieworkload voornamelijk in de cloud plaatsvindt, kunnen andere kenmerken zoals energie-efficiëntie en signaalverwerking doorslaggevend zijn. In dat geval zou je de Qualcomm Cloud AI 100-gpu’s kunnen overwegen, die inferentie bij de edge effectiever kunnen uitvoeren omdat ze de unieke vereisten van cloud-computing aanpakken. Deze versnellers kunnen worden ingezet in veel GIGABYTE-servers, waaronder de G-serie gpu-servers, R-serie Rack-servers en E-serie Edge-servers.

Aangezien de rekenkrachtvereisten voor AI-training over het algemeen hoger is dan voor inferentie, kunnen de meeste trainingsservers ook worden gebruikt voor inferentieworkloads.

Een andere spannende ontwikkeling die wordt aangevoerd door marktleiders is een ‘cpu plus gpu’-pakket dat het beste van twee werelden biedt voor alle categorieën AI- en HPC-workloads. De NVIDIA Grace Hopper Superchip, die beschikbaar is op de H223-V10 en H263-V11 High Density-server van GIGABYTE, en de AMD Instinct MI300A, AMD’s eerste APU (Accelerated Processing Unit), zijn beide uitstekende voorbeelden van deze nieuwe denkrichting. Kies deze producten als je wilt werken met het meest geavanceerde supercomputerplatform dat momenteel bestaat.

Het juiste geheugen voor je AI-server

Het werkgeheugen of RAM wordt in een server gebruikt om programma’s en gegevens op te slaan voor onmiddellijk gebruik door de processors. Aangezien de krachtigste AI-chips heel snel veel gegevens kunnen berekenen, zou het niet goed zijn om hun prestaties te belemmeren met onvoldoende geheugen. Het geheugen van de server moet altijd voldoende doorvoercapaciteit hebben om de processors te ondersteunen. Momenteel is DDR5 SDRAM het meest geavanceerde type geheugen.

Uiteraard is één RAM-stick (ook wel DIMM genoemd) niet genoeg. Zorg ervoor dat je AI-server voldoende DIMM-sloten heeft om aan de vereisten van je workload te voldoen. De GIGABYTE G493-ZB3 bijvoorbeeld, is een gpu-server uit de G-reeks met maar liefst achtenveertig DIMM-sloten.

GIGABYTE’s krachtpatser op het gebied van AI-training, de G593-SD0, ondersteunt de Intel Xeon-cpu Max-serie processors, die voorzien zijn van High Bandwidth Memory (HBM) voor verbeterd geheugengebruik in HPC- en AI-workloads. De XDNA-architectuur die wordt gebruikt door AMD-gpu’s heeft een adaptieve dataflow-architectuur waarmee gegevens door de lagen van een AI-model kunnen gaan zonder afhankelijk te zijn van extern geheugen.


In de GIGABYTE eShop ontdek je alle informatie en prijzen van het uitgebreide assortiment:

Bezoek de eShop


De juiste opslag voor je AI-server

De drie criteria die je moet overwegen zijn snelheid (de gegevensoverdrachtsnelheden en bandbreedte), opslagcapaciteit en of het apparaat compatibel is met de ‘derde pijler van moderne datacenters’ (naast de cpu en gpu), de DPU, ofwel de data processing unit.

Solid-state drives (SSD’s) hebben al lang harde schijven (HDD’s) voorbijgestreefd zijn als superieur opslagapparaat en zeker moeten worden gebruikt in je AI-server. Er zijn drie soorten opslaginterfaces: SATA, SAS en NVMe. SATA is de meest gevestigde technologie. SAS is sneller dan SATA, maar de kampioen is NVMe. Daarom zijn ssd’s met de nieuwste Gen5 NVMe-interface de eerste keuze voor opslagapparaten in AI-servers.

Het volgende kenmerk om rekening mee te houden is capaciteit. GIGABYTE’s uitgebreide lijn van AI-servers maakt voornamelijk gebruik van 2,5-inch opslagbays vanwege de grotere capaciteit en het hot-swappable ontwerp, waardoor de bays gemakkelijk kunnen worden verwijderd of vervangen zonder de server uit te schakelen. Extra M.2-sloten zijn ook beschikbaar op veel servermodellen.

Enkele AI-servers van GIGABYTE, zoals de H223-V10 H-Series High Density Server met de NVIDIA Grace Hopper Superchip, extra 2,5’ Gen5 NVMe hot-swappable storage bays ondersteunen door NVIDIA BlueField-3 DPU’s toe te voegen aan de uitbreidingssloten. Dit is een spannende nieuwe functie die interessant kan zijn wanneer je opties voor de opslagplaatsen van je AI-server vergelijkt.

De juiste voedingseenheid voor je AI-server

Omdat AI-workloads vaak rekenintensief zijn, is het noodzakelijk om een configuratie van PSU’s te kiezen die uitzonderlijke energie-efficiëntie en redundantie biedt. De AI-servers van GIGABYTE gebruiken voornamelijk 80 PLUS Titanium-gecertificeerde PSU’s, waarbij de conversie-efficiëntie tussen 89% en 94% ligt.

De server moet operationeel blijven, zelfs als een of meer van de PSU’s het begeven. De AI-servers van GIGABYTE zijn ontworpen met het juiste aantal redundante voedingen. Sommige servers kunnen normaal blijven werken, zelfs als de helft van de PSU’s offline gaat.

De juiste koeling voor je AI-server

Het kiezen van het juiste thermische beheer of de juiste hulpmiddelen voor warmteafvoer is belangrijk als je de beste prestaties uit je server wilt halen zonder dat je elektriciteitsrekening de pan uit rijst.
Alle AI-servers van GIGABYTE maken gebruik van een eigen luchtstroomvriendelijk hardwareontwerp. De richting van de luchtstroom in het chassis is geëvalueerd met simulatiesoftware om de ventilatie te optimaliseren. Een automatisch programma voor het regelen van de ventilatorsnelheid controleert de temperatuur op kritieke punten in het chassis en past de snelheid van de bijbehorende ventilator(en) hierop aan.

Bepaalde AI-servers, zoals de G363-SR0 van GIGABYTE, ondersteunen ook vloeistofkoeling. Dit is een innovatieve nieuwe methode van thermisch beheer waarbij vloeibare koelvloeistof door koude lussen wordt gepompt die langs belangrijke onderdelen in de server liggen en de warmte absorberen. Vloeistofkoeling heeft het potentieel om het volledige potentieel van processors te ontsluiten en tegelijkertijd de algehele PUE van het datacenter te verbeteren.

Het summum van vloeistofkoeling is immersiekoeling, waarbij de server direct wordt ondergedompeld in een bad van niet-geleidende, diëlektrische vloeistof. De A1P0-EB0 is bijvoorbeeld een one-stop vloeistof-immersie koeling oplossing, ontworpen voor standaard 19-inch EIA-servers, terwijl de A1O3-CC0 is ontworpen voor OCP-servers. De AI-servers van GIGABYTE kunnen worden aangepast om te werken met deze geavanceerde koelmethoden.

GIGABYTE A1P0-EB0 immersion tank

De GIGABYTE A1P0-EB0 vloeistof-immersie-tank is de perfecte oplossing voor toepassingen die veel rekenkracht vereisen.

 

De juiste uitbreidingssloten voor je AI-server

Aangezien schaalbaarheid belangrijk is, moet je niet vergeten aandacht te besteden aan de uitbreidingssloten van je AI-server. Er zijn geen verkeerde keuzes, maar het is handig om een paar tips in gedachten te houden.

Ten eerste, zoek naar PCIe Gen5 sloten – hoe meer hoe beter. De bandbreedte van PCIe Gen5 is 128 GB/s en de gegevensoverdrachtsnelheid is 32 GT/s; beide zijn een toename van 100% ten opzichte van de vorige generatie. Met deze sloten kun je extra grafische kaarten, RAID-kaarten en zelfs de eerder genoemde DPU’s toevoegen, die gegevensoverdracht, gegevenscompressie, gegevensopslag, gegevensbeveiliging en gegevensanalyse voor de cpu kunnen verzorgen, waardoor de prestaties van de server verder verbeteren.

De juiste I/O-poorten voor je AI-server

Het laatste waar je aan moet denken bij je AI-server is hoe deze verbinding maakt met externe apparaten, zoals switches, beeldschermen en andere servers. Richt je op LAN-poorten die 1Gb/s of zelfs 10Gb/s overdrachtsnelheden ondersteunen, USB 3.0 of hoger (zoals USB 3.2), enzovoort.

Je kunt ook kijken of je server speciale beheerpoorten heeft, ook wel MLAN genoemd. Deze bieden beveiligde toegang tot de BMC van de server, wat handig kan zijn als je een handigere manier wilt om je server te beheren. Als alles klaar is, heb je een supercomputerplatform dat ideaal is voor je AI-workload.


In de GIGABYTE eShop ontdek je alle informatie en prijzen van het uitgebreide assortiment:

Bezoek de eShop


Meer over

Servers

Deel dit artikel

Lees ook

Vloeistof-immersie koelsystemen: waterkoeling voor rekencentra

Nieuwe IT-toepassingen kunnen veel rekenkracht vereisen en daarmee grote uitdagingen vormen voor de koelsystemen in rekencentra. Waterkoeling, ofwel v...

Energiezuinige servers volgens de Open Compute Project-standaard

Het Open Compute Project is in het leven geroepen als nieuwe standaard voor servers die energiezuinig zijn, minder ruimte in beslag nemen en uiteindel...

0 Praat mee
avatar
  Abonneer  
Laat het mij weten wanneer er