Koeling en cluster-computing: de zware eisen van AI

c't-partner
0

GIGABYTE CLUSTER COMPUTING AND COOLING

Artificiële intelligentie heeft de ontwikkeling van innovatieve technologieën in datacenters voortgestuwd, zoals geavanceerde koeling en cluster-computing. De uitrol van krachtige AI-processors met steeds hogere TDP’s heeft ervoor gezorgd dat datacenters er bijna niet omheen kunnen om hun infrastructuur te upgraden of zelfs aan te passen aan de eisen van AI om energie-efficiëntere en kosteneffectievere koeling te gebruiken.

Deze is nodig om nieuwe generaties aan servers te koelen die de steeds complexere datasets te verwerken die worden gebruikt voor AI-ontwikkeling. De servers moeten niet alleen uitstekend presteren bij kritieke taken, maar ook met elkaar samenwerken om meer te zijn dan de som der delen –de basis van cluster-computing.

De huidige trend van artificiële intelligentie (AI) heeft de evolutie van informatietechnologie eerder heeft versneld dan veranderd. Naarmate de technologie voortschrijdt, is het normaal dat serverprocessors krachtiger worden en meer energie verbruiken. Dit forceert de industrie ertoe om ook andere koelmethoden te onderzoeken naast luchtkoeling, omdat deze klassieke methode dreigt te kort te gaan schieten.

De meest geavanceerde AI-chips op de markt overschrijden nu al de thermische grenzen van luchtkoeling. Op het moment van schrijven ligt de gemiddelde vermogensdichtheid van een luchtgekoeld serverrack ver onder de 20 kilowatt (kW). Een enkele NVIDIA H100 versneller heeft een maximale TDP van 700 watt, terwijl de volgende generatie enterprise-gpu’s, zoals de NVIDIA B100 en B200, een maximale TDP van 1000 watt kunnen hebben.

Als we de G593-ZD1 AI-server van GIGABYTE als voorbeeld nemen, kan een 5U server acht gpu’s huisvesten. Met andere woorden, zelfs een matig gevuld rack (dat 42 tot 48 rack-eenheden aan ruimte biedt) zal meer warmte genereren dan wat over het algemeen als rendabel wordt beschouwd voor luchtkoeling. Daarom hoeft het niet te verbazen dat NVIDIA’s rack-scale AI supercomputer, de GB200 NVL72, vanaf het begin is ontworpen voor gebruik met vloeistofkoeling.

De eisen van AI: prestaties, duurzaamheid en kosten

De meest geavanceerde chip ter wereld kan zijn volledige potentieel niet benutten als hij te heet wordt. Wanneer processors op piekcapaciteit draaien, moet de warmte die ze genereren snel worden afgevoerd om oververhitting en throttling te voorkomen. Effectieve koeling kan zorgen voor maximale prestaties en een stabiele werking.

Het stomweg opvoeren van de luchtkoeling is een tweesnijdend zwaard, omdat het ook meer energie verbruikt. Dit levert een slechtere energieconsumptie in verhouding tot het resultaat op en het vergroot de ecologische voetafdruk. De kracht van geavanceerde koeling is dat het meer warmte kan afvoeren met minder energie, waardoor organisaties hun productiviteit kunnen opvoeren terwijl de uitstoot wordt verlaagd.

De aanschaf van nieuwe koelapparatuur kan weliswaar een flinke hap uit het IT-budget nemen, maar de lagere energierekening helpt de operationele kosten op de lange termijn te verlagen. Een grotere kostenefficiëntie is een concurrentievoordeel dat geen enkele organisatie kan laten liggen.

Vloeistofkoeling, dompelkoeling en luchtkoeling

Vloeistofkoeling wint sneller dan ooit aan populariteit dankzij de eisen van AI processors. Zoals gezegd zijn veel AI-supercomputers ontworpen met vloeistofkoeling in gedachten. Nu steeds meer datacenters en grote cloudserviceproviders hun infrastructuur upgraden naar vloeistofkoeling, lijkt het slechts een kwestie van tijd te zijn voordat dit een nieuwe standaard wordt in de industrie.

Vloeistofkoeling aan een datacenter toevoegen kan eenvoudiger zijn dan je denkt. Bij een ‘liquid to air’-optie is er geen ingrijpende herziening van de traditionele infrastructuur voor luchtkoeling nodig. Een ‘liquid to liquid’-oplossing kan meer warmte afvoeren, maar hiervoor moet de faciliteit een ingebouwde vloeistofkoellus hebben die water betrekt van een bron op locatie.

Omdat betrouwbaarheid en veiligheid van cruciaal belang zijn bij het implementeren van vloeistofkoeling, werkt GIGABYTE nauw samen met partners om een complete oplossing te kunnen bieden. GIGABYTE beschikt bovendien niet alleen over een complete reeks vloeistofgekoelde servers, maar biedt ook racks zoals de DL90-ST0 voor een snelle en eenvoudige implementatie.

Het sterproduct is GIGABYTE’s GIGAPOD, een multi-rack cluster-computing-oplossing die de prestaties van AI-chips versterkt door middel van vloeistofkoeling.

Voor beheerders van datacenters die vooruit willen plannen en hun infrastructuur toekomstbestendig willen maken, is dompelkoeling de logische volgende stap na vloeistofkoeling.

Door de servers direct onder te dompelen in een bad van niet-geleidende koelvloeistof, kan de warmte van de componenten actief worden afgevoerd of door de natuurlijke verdamping van de koelvloeistof in de tank worden afgevoerd (tweefasige dompelkoeling). De drempel is echter dat veel aspecten van het datacenter, van de fysieke infrastructuur tot veiligheidsvergunningen, speciaal moeten worden voorbereid op dompelkoeling.

GIGABYTE heeft een uitgebreide productlijn die alles omvat van dompelklare servers tot tweefasige of enkelfasige dompeltanks. Accessoires zoals de IT-lift om de servers verticaal uit de tanks te tillen en IT-droogrekken om de servers te plaatsen tijdens onderhoud, en geverifieerde koelvloeistofproducten om de servers in onder te dompelen, zijn ook verkrijgbaar bij GIGABYTE.

Hoewel het absoluut aan te raden is om vloeistof- of dompelkoeling te overwegen, is het heel begrijpelijk dat het proces gecompliceerd kan zijn, en daarom luchtgekoelde servers in de nabije toekomst nog steeds zullen worden ingezet.

De luchtgekoelde servers van GIGABYTE hebben een eigen luchtstroomvriendelijk hardwareontwerp dat de meest optimale ventilatie biedt. Krachtige koellichamen worden gecombineerd met speciaal ontworpen luchtkanalen om de warmteafvoer te verbeteren. Een automatisch regelsysteem voor de ventilatorsnelheid dat is gekoppeld aan sensoren die strategisch in het chassis zijn geplaatst, past de ventilatorsnelheid aan op basis van de temperatuur van de belangrijkste componenten, waardoor een ongeëvenaarde thermische controle mogelijk is terwijl het systeem kosteneffectief en energiezuinig blijft.

Cluster-computers

Nu de datasets die worden gebruikt voor AI-ontwikkeling steeds omvangrijker en complexer worden, hebben datacenters servers nodig die niet alleen uitstekend presteren bij kritieke taken, maar ook met elkaar samenwerken om de eisen van AI aan te kunnen en daarvoor meer te zijn dan de som der delen. Dit is de basis van cluster-computing.

Net als de geavanceerde koeloplossingen is cluster-computing geen nieuwe uitvinding, maar het heeft aan bekendheid gewonnen door de eisen van AI. Een belangrijke drijvende kracht is het feit dat de moderne AI-ontwikkeling, die heeft geleid tot de creatie van grote taalmodellen (LLM’s) en generatieve AI, draait om het verwerken van enorme datasets met miljarden of zelfs triljoenen parameters door middel van AI-training. AI-inferentie, wat gebeurt als AI zijn vooraf getrainde model (of modellen) gebruikt om diensten aan gebruikers te leveren, kan ook veel middelen vergen. Dit is duidelijk niet het soort werk dat een computer in z’n eentje aankan.

Cluster-computing lost dit probleem op door de werklast te verdelen over onderling verbonden servers, workstations en zelfs pc’s. Het is een vorm van ‘parallellisme’ die vergelijkbaar is met grid-computing en parallel-computing.

De belangrijkste voordelen van cluster-computing zijn hoge beschikbaarheid, loadbalancing en misschien wel het meest relevant voor de eisen van AI, high performance computing (HPC).

GIGABYTE Technology helpt klanten bij het opzetten van hun eigen rekenclusters. Van gebruikssituaties op server- en rackniveau, waarbij GIGABYTE klanten helpt bij het implementeren van clusters voor biomedisch onderzoek, halfgeleideronderzoek, cloud computing en meer; tot GIGABYTE’s oplossing voor multirack computerclusters op datacenterniveau, de GIGAPOD. Deze bestaat uit maximaal negen serverracks die onderling verbonden zijn om een samenhangende computereenheid te vormen. GIGABYTE heeft de producten en ervaring om ervoor te zorgen dat klanten kunnen profiteren van de nieuwste ontwikkelingen op het gebied van datacentertechnologieën.

Cluster-computing op server- en rackniveau

eisen van AI

GIGABYTE kan meerdere servers combineren tot een cluster op basis van het budget en de vereisten van de gebruiker. Het cluster kan worden beheerd met de eigen software van de klant of met GIGABYTE Management Console (GMC) en GIGABYTE Server Management (GSM), die gratis beschikbaar zijn voor alle GIGABYTE-servers. Hier zijn twee succescases die een informatieve blik kunnen werpen op hoe GIGABYTE cluster-computing in uw IT-infrastructuur kan injecteren.

Case Study 1

De Universiteit van Rey Juan Carlos (URJC) in Spanje heeft met GIGABYTE samengewerkt om een computercluster genaamd ‘Talos’ te bouwen om cellulaire verouderingsmechanismen te bestuderen. Onderzoekers maken gebruik van AI-algoritmen en machine learning om patronen te detecteren in medische big data en nieuwe inzichten te verkrijgen. Ze gebruiken ook ruimtelijke-temporele modellering en generatieve modellen in hun werk.

Het resultaat was een cluster dat bestaat uit twee R182-Z91 rackservers voor gegevensverwerking, vier G492-ZD2 gpu-servers voor versnelling, één S451-3R1 storageserver voor gegevensopslag en nog een R182-Z91 als ‘hoofd’ of ‘besturingsknooppunt’ van het cluster. Zowel de R182-Z91 als de G492-ZD2 werden geselecteerd vanwege hun dual-socket cpu-ontwerp, dat de maximale capaciteit aan cpu-cores en threads biedt.

De vier gpu-servers werden uitgerust met NVIDIA HGX A100 8-gpu modules, die acht A100 gpu’s bevatten met razendsnelle interconnectie, waardoor de onderzoekers honderdduizenden cores tot hun beschikking hebben voor dubbelprecieze berekeningen en parallel rekenen. De S451-3R1 voegde 36 3,5’ SAS/SATA drives en zes 2,5’ hybride NVMe/SATA/SAS drive bays toe aan de mix voor schaalbare opslag, terwijl het hoofdknooppunt de communicatie tussen de servers beheerde via het NVIDIA Quantum InfiniBand netwerkplatform. GMC en GSM van GIGABYTE werden op de servers geïnstalleerd naast een combinatie van open-source software om URJC een complete en kosteneffectieve cluster-computing oplossing te bieden.

Case Study 2

In het geval van het Advanced IC Lab aan de Yang Ming Chiao Tung University (NCYU) in Taiwan hadden de academici een geavanceerd computercluster nodig om het efficiënt testen van IC-ontwerpen mogelijk te maken. Het GIGABYTE-team stelde een cluster samen met zes H282-ZC1 High Density-servers voor computergebruik en twee R282-Z91 rackservers voor opslag.

Elk van de High Density Servers bevat vier nodes en elk node ondersteunt dubbele processors, wat resulteert in meer dan 2000 cpu cores die onderling verbonden zijn via PCIe interfaces die 128GB/s aan bandbreedte leveren voor snelle en stabiele connectiviteit. De twee rackservers bieden niet alleen honderden terabytes aan opslag, maar ook over 20GB/s gegevensoverdracht tussen de nodes via ‘bonding’ netwerkschakelaars. Het lab implementeerde zijn eigen serververkeerscontrolesysteem voor clusterbeheer.

Het resultaat is dat nu 500 gebruikers tegelijkertijd met het cluster kunnen werken. Het testen van ingewikkelde IC-ontwerpen, wat vroeger uren duurde, kan nu in slechts enkele minuten worden uitgevoerd. Het lab is zelfs van plan om AI te implementeren om te helpen bij het chipontwerp. Dit is allemaal mogelijk dankzij het computercluster dat door GIGABYTE is gebouwd.

GIGABYTE eisen van AI SERVER

Het rekencluster dat GIGABYTE bouwde voor de Yang Ming Chiao Tung Universiteit stelt tot 500 gebruikers in staat om gelijktijdig te rekenen en reduceert de tijd die nodig is om IC-ontwerpen te testen van meerdere uren tot een kwestie van minuten.

Clustercomputergebruik op datacenterniveau: GIGAPOD

De GIGAPOD van GIGABYTE is de oplossing voor klanten die op zoek zijn naar een AI-ontwikkelingsengine die tientallen servers en honderden processors combineert tot een enorme supercomputer die de eisen van AI workloads aankan. De GIGAPOD kan worden ingezet als een onafhankelijke, zelfstandige eenheid of als een van de vele nodes in een uitgestrekt AI-datacenter.

De GIGAPOD bestaat uit 32 GIGABYTE gpu-servers van hetzelfde modeltype en met dezelfde interne configuratie. Elke server ondersteunt een 8-gpu versnellingsmodule.

De servers worden gewoonlijk geïnstalleerd in acht racks, met vier servers per rack. Dankzij de eigen koeltechnologie van GIGABYTE is een luchtgekoelde 5U (vijf racks) server zoals de G593-SD1-AAX3 in staat de 8-gpu-module te ondersteunen zonder prestatieverlies, zodat de 32 servers in slechts vier racks passen voor een minimale voetafdruk en ongeëvenaarde computerdichtheid.

Eén extra rack wordt gebruikt om het controleknooppunt voor clustermanagement en de opslagknooppunten in onder te brengen. Dit ondersteunende rack wordt precies in het midden van een array met vijf of negen racks geplaatst om de zogenaamde ‘spine-leaf’-architectuur te voltooien.

Als we terugkijken naar de vorige voorbeelden van rekenclusters, kunnen we zien dat deze opstelling in wezen een gestroomlijnd en gemodulariseerd cluster is. De hoofd- en opslagknooppunten zijn geconcentreerd in het centrale rack dat fungeert als de ‘ruggengraat’, terwijl de zware rekenknooppunten zijn verdeeld over de ‘bladeren’ aan weerszijden van de ruggengraat. Switches bovenaan de racks vergemakkelijken de communicatie tussen de servers in het cluster en tussen het cluster en de buitenwereld.

Identieke gpu’s en servermodellen worden gebruikt in de rekenknooppunten om maximale synergie te garanderen, waardoor het cluster functioneert alsof het één gigantische server of versneller is.

Industrieveteranen die bekend zijn met GIGABYTE’s toewijding aan high-tech oplossingen en gebruikerservaring zullen niet verbaasd zijn te horen dat GIGABYTE extra functies heeft opgenomen in de GIGAPOD voor buitengewone waarde voor de klant.

De GIGAPOD biedt drie extra functies met toegevoegde waarde voor zijn gebruikers: GPU-configuraties op maat volgens de behoeften van de klant, de keuze voor vloeistofkoeling voor nog betere prestaties en stabiliteit, en softwaresuites voor beheer en AI-ontwikkeling.

Aanpasbare opties

Klanten kunnen niet alleen kiezen tussen compute servers, opslagservers en servers voor besturingsknooppunten bij het samenstellen van de GIGAPOD, ook de componenten in de knooppunten kunnen geselecteerd worden op basis van de behoeften van de klant.

Geavanceerde koeling

GIGABYTE’s eigen koeltechnologie zorgt ervoor dat gpu-modules passen in luchtgekoelde servers met compacte formfactors. GIGAPOD ondersteunt ook geavanceerde koeltechnologieën zoals directe vloeistofkoeling (DLC), waardoor de servers nog betere prestaties en stabiliteit kunnen leveren.

Softwarepakket

GIGABYTE biedt met GPM een beheerplatform voor GIGAPOD aan dat vol zit met functies om een geoptimaliseerde datacenteroplossing te bieden. Het platform bevat een dashboard dat apparaatbewaking, toewijzing van werklast, clusterbeheer en met één klik upgraden van software of firmware binnen handbereik van de beheerder brengt. Het wordt zelfs geleverd met een GUI die gebruikers een gesimuleerd beeld geeft van de fysieke locaties van de servers om de gezondheid van apparaten beter te beheren en te reageren op kritieke gebeurtenissen en activiteiten.

Of je nu een oplossing op datacenterniveau zoals de GIGAPOD wilt overwegen, of zelf de servers en werkstations wilt kiezen waaruit uw cluster zal bestaan, GIGABYTE kan je helpen een begin te maken met de integratie van cluster-computing in je IT-infrastructuur. De AI-trend en de eisen van AI hebben veel computerontwikkelingen teweeggebracht die niet meer weg te denken zijn. Door ze te leren gebruiken, kun je je productiviteit verhogen en je concurrentievoordeel behouden.

Meer over

Servers

Deel dit artikel

Lees ook

Gebruik jouw ICT-vaardigheden voor vrede en (digitale) veiligheid

Of het nu gaat om het onderhouden en bouwen van telefonie-, satelliet- en computernetwerken of radioverbindingen, opleiden of leidinggeven: je draait ...

Tips voor ondernemers om jouw bedrijf snel & effectief te beveiligen

Cybersecurity is cruciaal voor elk bedrijf, groot of klein. Met enkele eenvoudige aanpassingen zorg je ervoor dat je bedrijf beter beschermd is tegen ...

0 Praat mee
avatar
  Abonneer  
Laat het mij weten wanneer er