Onderzoek naar cel-veroudering met machine learning

Blog
0

Begin 2023 voltooide de Universiteit Rey Juan Carlos in Spanje onder leiding van onderzoekers Sergio Muñoz en Luis Bote de installatie van hun Talos-cluster. Talos, een naam die is afgeleid van de eerste niet-organische kunstmatige intelligentie uit de Griekse mythologie, biedt aanzienlijke rekenkracht om machine learning in te zetten voor het onderzoek van het team naar cellulaire verouderingsmechanismen.

Het onderzoeksteam en de instelling

Sergio Muñoz, hoogleraar in Machine Learning en professor Biomedische Techniek aan de Universiteit Rey Juan Carlos (URJC) in Spanje, werkt samen met de BigMed+ medewerkers en onderzoekers in het ontwerpen van AI en machine learning-algoritmen. De URJC geniet aanzien als onderzoeksinstituut en met 46.000 studenten en vijf onderzoeksgroepen verspreid over 31 vakgroepen op gebied van kunst, wetenschap en literatuur, kan de universiteit bogen op een levendige academische omgeving.

Sergio Muñoz (URJC) en Raúl Díaz van SIE

In hun onderzoek zijn algoritmen niet alleen van groot belang voor het bieden van oplossingen, maar ook voor het begrijpen van de onderliggende data. Het interpreteren van de gegevens stelt de algoritmen in staat om effectief te reageren op vragen. Terwijl mensen uitblinken in bepaalde perceptuele taken, is het extraheren van verborgen inzichten uit enorme hoeveelheden gegevens veel lastiger. Vandaar dat de onderzoekers AI en machine learning inzetten voor het verwerken van deze informatie en het ontdekken van verborgen patronen om de gestelde vragen te beantwoorden.

In hun onderzoek staat gezondheid, en dan met name biomedische techniek, centraal. Een vereiste voor de onderzoekers om algoritmen voor kunstmatige intelligentie te kunnen ontwerpen, is een horizontale schaalarchitectuur, vooral op het gebied van machine learning. Daarnaast moest er een oplossing gevonden worden voor de beperkte opslag- en infrastructuurcapaciteit voor horizontale schaling en het efficiënte kunnen uitvoeren van algoritmes.

Aangezien de onderzoeksgroep gespecialiseerd is in het ontwerpen van ruimte-temporele simulaties, moesten de gpu’s goed presteren bij berekeningen met dubbele precisie. Bij de AI-algoritmen die ze hebben ontwikkeld, ligt de nadruk op deep learning-technieken en generatieve modellen. Dat vereiste de inzet van geavanceerde NVIDIA A100 Tensor Core-gpu’s op basis van de NVIDIA Ampere-architectuur.

Kort samengevat had de onderzoeksgroep drie vereisten:

– een groot aantal cpu-cores voor parallel-computing en om hun machine learning-modellen effectief toe te passen.

– gpu’s met dubbele precisie en de nieuwste generatie verklaarbare AI en simulatie.

– genoeg opslag, vooral voor biomedische toepassingen waarbij ook onderzoekers over de hele wereld betrokken zijn

Onderzoeksdoelstelling: cel-veroudering en herprogrammering

Het onderzoek richt zich op het begrijpen van het natuurlijke verouderingsproces op cellulair en moleculair niveau, zowel van jong naar oud als in omgekeerde zin door celherprogrammering. Het omvat verschillende gebieden, waaronder cardiologie en de studie van erfelijke hartziekten.

Er was een nauwe samenwerking met gerenommeerde onderzoeksgroepen van de Universiteit van Murcia en het universitaire klinische ziekenhuis Virgen of Arrixaca. Hierbij is gebruik gemaakt van hun uitgebreide collectie hartweefsel en bloedmonsters.

COVID: een kans voor verbetering

Tijdens de coronapandemie richtte de onderzoeksgroep zich op het onderzoek naar de oorzaken dat oudere mensen en mensen met reeds bestaande cardiopathie ernstiger getroffen werden. Deze studie leidde tot deelname aan een REACT-EU project. In samenwerking met onderzoekscentra zoals CNB-CSIC, CEMBio, Parque Científico de Madrid en MIT, onderzocht het team het verband tussen cardiopathie, veroudering en COVID-19. Het team ontwikkelde ook een dierlijk preklinisch-model om het cytokinestorm-syndroom te bestuderen en creëerde zo een veelzijdig platform voor het detecteren van bronnen en het ontwerpen van behandelingen, niet alleen voor COVID-19 maar ook voor toekomstige pandemieën en ziekten.

Het team heeft een krachtig rekencentrum opgericht in samenwerking met SIE, een bedrijf dat gespecialiseerd is in wetenschappelijke berekeningssystemen en High Performance Computing-systemen, en hun expertise in HPC- en GIGABYTE-platforms ingezet.

Toekomstige focus

De groep is niet alleen gericht op het verwerven van nieuwe kennis, maar ook op het overdragen van deze kennis. Het supercomputercentrum deelt kennis met partneruniversiteiten, wat medewerkers en de maatschappij ten goede komt. Snelle gegevensverwerking helpt bijvoorbeeld bedrijven die geïnteresseerd zijn in machine learning.

Het team wil zich in toekomstig onderzoek richten op twee vlakken richten: het bestuderen van gedeeltelijke of tijdelijke cellulaire herprogrammering voor een verbeterde levenskwaliteit, en het andere is oncologie.

Talos Cluster machine learning

Talos-cluster voor machine learning van de Rey Juan Carlos Universiteit

Technisch overzicht

GIGABYTE-servers, geïntegreerd door SIE, bieden de onderzoekers veel rekenkracht. Om het cluster te beheren, zetten ze GIGABYTE Server Remote Management (GSM) in, een propriëtair softwareplatform voor beheer op afstand van meerdere servers dat gratis wordt aangeboden door GIGABYTE.

Het cluster bestaat uit:

– Vier GIGABYTE G492-ZD2 gpu-nodes

– Twee GIGABYTE R182-Z91 compute-nodes

– Een GIGABYTE S451-3R1 storage-node

– Een GIGABYTE R182-Z91 head-node

 

Gpu-nodes

De G492-ZD2 is een server die speciaal is gebouwd voor de allerbeste prestaties in gpu-gerichte workloads. Hij maakt gebruik van een dual chamber-ontwerp in een 4U-chassis, waarbij de bovenste 1U is bestemd voor het cpu-platform en de onderste 3U voor de gpu’s. Er is desondanks nog steeds de mogelijkheid voor maximaal 10 low-profile NIC’s. Deze oplossing biedt de best mogelijke luchtkoeling, zodat het systeem topprestaties kan leveren zonder compromissen te sluiten.

Elk gpu-node heeft twee AMD EPYC 7282-processors voor een gecombineerde 32 cpu-cores en 160 PCIe 4.0-lanes. Het zware werk en de parallelle verwerking nemen de NVIDIA HGX A100 SXM4-gpu’s voor hun rekening. Elke gpu-server heeft acht NVIDIA A100-gpu’s. Dit innovatieve gpu-cluster heeft een indrukwekkende rekenkracht met 221.184 CUDA-cores en 13.824 Tensor-cores. En het bereikt een theoretische FP64 Tensor Core-prestatie van net iets boven de 600 TFLOPS. De connectiviteit is geoptimaliseerd voor directe gegevensverplaatsing van gpu naar gpu; NVIDIA A100 Tensor Core-gpu’s zijn onderling verbonden via verschillende NVIDIA NVLink-interconnects, wat een doorvoersnelheid van 600 GB/s tussen gpu’s oplevert.

Compute-nodes

De R182-Z91 wordt gebruikt voor zijn compacte ontwerp met dubbele socket, die tot 128 cpu-kernen ondersteunt van de AMD EPYC 7003-serie processors. Voor opslag beschikt de server over 8 × 2,5″ SATA/SAS-sloten en 2 × U.2 NVMe-sloten, waarvan er acht worden gebruikt voor SATA-SSD’s en één voor het besturingssysteem op een NVMe PCIe 4.0-disk. En er is nog ruimte voor twee low-profile slots die normaal worden gebruikt voor NIC’s.

Elk van de compute-nodes heeft twee AMD EPYC 7763-processors met een kloksnelheid van 2,45 GHz en 64 cores (128 threads) en 256 MB L3-cache. Omdat het een dualsocket-server met 8 geheugenkanalen is, is het systeem ook uitgerust met 1024 GB DDR4-geheugen. Er wordt een RAID-controller gebruikt voor de acht snelle SATA-ssd’s, die ideaal zijn voor de snelst mogelijke toegang en tegelijkertijd de onderhoudskosten en het energieverbruik reduceren. Al met al levert het een prestatieniveau dat zeer gewaardeerd wordt.

Head- en storage-nodes

De Single Head Gateway vormt de server- of beheer-node voor dit cluster. Hiervoor werd gekozen voor de R182-Z91, maar deze keer zonder de noodzaak van een systeem met veel cores. In plaats daarvan werd gekozen voor twee AMD EPYC 7252-processors (120 watt TDP) met een laag energieverbruik. De server werd voor dit cluster geselecteerd vanwege de toekomstige schaalbaarheid, aangezien de helft van de geheugensloten is gevuld. Het geheugen kan zo op een later tijdstip naar wens nog worden verdubbeld.

Net als bij alle opslagservers ligt de nadruk op opslagcapaciteit in plaats van computerprestaties. De S451-3R1 ondersteunt tot 36 × 3,5″ SAS/SATA-drives en beschikt over 6 × 2,5″ hybride NVMe/SATA/SAS-bays. Het systeem heeft twee Intel Xeon Silver 4210R-processors voor in totaal twintig cpu-cores, wat meer dan genoeg is voor een opslag-node – en dat terwijl het systeem met een lage TDP van 100 watt werkt. Ook hier wordt een RAID-controller gebruikt om hoge prestaties mogelijk te maken in een enkel volume van twee RAID 6 voor de 36 × 18TB-HDD’s voor een totale capaciteit van 576 TB.

De servers communiceerden bovendien via het NVIDIA Quantum InfiniBand-netwerkplatform via dubbele redundante poorten in NVIDIA ConnectX-6-kaarten.

SIE heeft alle GIGABYTE systemen in dit cluster geconfigureerd op basis van het HPC LadonOS 8-ecosysteem, een opensource-besturingssysteem gebaseerd op Centos. Dit stelt de onderzoekers in staat om op het cluster te werken zonder te hoeven betalen voor propriëtaire software, wat een flinke kostenbesparing oplevert. De belangrijkste tools zijn:

  • Rocky Linux 8.7 is het gekozen besturingssysteem omdat het zeer stabiel is en beveiliging biedt door gebruik van een IP-table.
  • SLURM voor taakplanning of workflow, dezelfde tool die wordt gebruikt door toonaangevende clusters in Spanje zoals Mare Nostrum of Hyperion.
  • Een Docker-containersysteem, waarmee elke toepassing in elke bibliotheek kan worden geïndividualiseerd zonder alle apparatuur te virtualiseren.
  • Check MK, een beheerconsole via IPMI die apparaten bewaakt via SNMP.
  • Easy Build, een software creation- en installatie-framework, dat voor een efficiënt beheer van wetenschappelijke software op HPC-systemen zorgt.

Het systeem heeft niet alleen voldaan aan de verwachtingen van Sergio Muñoz en Luis Bote, maar deze zelfs overtroffen. En het belangrijkste is dat het hun in staat stelt om verdere ontdekkingen uit hun onderzoek te halen, wat ten gunste komt van de gehele mensheid.

 

Meer over

AIServers

Deel dit artikel

Lees ook

Nieuwe GIGABYTE enterprise-oplossingen met AMD EPYC 9004

GIGABYTE Technology heeft onlangs zijn portfolio van producten aangekondigd voor de nieuwe AMD EPYC 9004 Series-processors, geschikt voor veeleisende ...

Nieuwe immersiekoeling-oplossingen van GIGABYTE

GIGABYTE heeft een serverserie voor vloeistof immersiekoeling uitgebracht en zijn aanbod uitgebreid met twee immersiekoeltanks.

0 Praat mee
avatar
  Abonneer  
Laat het mij weten wanneer er