Neural Processing Units voeren AI-berekeningen efficiënt en snel uit. We hebben onder Windows en macOS gekeken hoeveel voordeel ze opleveren bij verschillende toepassingen.
Waar NPU’s het verschil maken
Bijna geen enkele moderne processor in een laptop of mini-pc kan nog zonder een Neural Processing Unit, kortweg NPU. Die hardware-eenheden, die gespecialiseerd zijn in AI-berekeningen, ontlasten de CPU- en GPU-kernen en beloven AI-software efficiënter uit te voeren.
Apple en Microsoft integreren steeds meer AI-functies in hun besturingssystemen macOS en Windows 11 en maken daarvoor deels gebruik van NPU’s. Dat verlengt de accuduur omdat de NPU daarbij minder energie verbruikt dan de CPU of GPU. Bovendien blijven de gegevens op je eigen pc, in tegenstelling tot bij AI-toepassingen in de cloud.
Inmiddels maken ook veel applicaties van andere producenten gebruik van de geïntegreerde AI-hardwareversnellers. We hebben verschillende programma’s op het gebied van foto, video en audio nader bekeken. Daarbij hebben we ook gekeken waar NPU’s tijd en energie besparen en waar een gebrek aan softwareondersteuning een eventueel voordeel tenietdoet.
Neural Processing Units
De NPU’s van moderne laptop- en desktopprocessors zijn helemaal niet zo nieuw als het op het eerste gezicht lijkt. In SoC’s voor smartphones zitten die functieblokken al zo’n 10 jaar – zij het aanvankelijk met veel minder rekenkracht. Apple bouwde in 2017 voor het eerst een zogeheten Neural Engine in de toenmalige SoC A11 Bionic, die onder andere in de iPhone 8 en X zit.
Qualcomm breidde de al zo’n 20 jaar bestaande Hexagon-serie van geïntegreerde digitale signaalprocessors (DSP’s) in 2015 uit tot NPU’s, die sindsdien ook geschikt zijn voor AI-berekeningen. Als eerste x86-processors met NPU’s verschenen de AMD Ryzen 7040 Phoenix (XDNA) en de Intel Core Ultra 100 Meteor Lake 2023 (AI Boost) op het toneel.
Omdat de ARM-CPU’s voor laptops en mini-pc’s van Apple en Qualcomm zijn afgeleid van smartphone-SoC’s, hebben die al langer AI-eenheden. Bij Apple zijn ze er al sinds de M1 uit 2020 en bij Qualcomm sinds de Snapdragon 835 uit 2017.
De NPU’s kwamen echter pas in mei 2024 in de schijnwerpers door de specificaties van Microsoft voor laptops en pc’s met Copilot+. Daarbij is een processor met een AI-eenheid verplicht, die bovendien een rekenkracht van minstens 40 biljoen gehele getallen per seconde moet halen, oftewel 40 teraops (Tops).
De NPU’s van moderne processors bestaan uit een controller en uit veel vector- en scalaire rekenunits die in tegels gerangschikt zijn. Die laatste zijn geoptimaliseerd voor datatypes met een lage rekenprecisie, zoals gehele getallen en floatingpoint-getallen met een lengte van 8 bit (INT8/FP8), en sommige ook voor speciale AI-gegevensformaten zoals BFloat16.
Daarnaast hebben ze lokaal cachegeheugen, zodat ze zo min mogelijk toegang hoeven te zoeken tot het relatief trage RAM.
Dezelfde berekeningen kunnen ook door CPU-kernen en grafische processors uitgevoerd worden, en vooral door die laatste zelfs aanzienlijk sneller. Hun opbouw en uitvoeringseenheden zijn echter anders ontworpen, waardoor ze voor dezelfde AI-taken aanzienlijk meer energie verbruiken dan een NPU.
Het belangrijkste doel voor NPU’s is het uitvoeren van eenvoudige taken, zoals het herkennen van objecten in afbeeldingen en videostreams, bijvoorbeeld om personen in afbeeldingen vrij te stellen of de achtergrond bij videoconferenties onscherp te maken.
Voor het trainen van grote modellen of generatieve AI, zoals Large Language Models (LLM) of het genereren van afbeeldingen, zijn de gebruikelijke CPU-kernen of krachtige grafische chips meestal beter geschikt.
Fotosoftware met AI
Bij onze selectie van software hebben we bewust alles buiten beschouwing gelaten wat kennis van de commandline vergt of eerst gecompileerd moet worden. In plaats daarvan richten we ons op gebruiksvriendelijke applicaties die bepaalde taken uitvoeren met AI-algoritmes.
Bij Windows 11 kun je heel eenvoudig zelf achterhalen wanneer software de NPU gebruikt. Daarvoor hoef je alleen maar het Prestaties-overzicht in Taakbeheer te openen. Bij een pc met een processor met een NPU verschijnt daarvoor een grafiek, net als voor processor, geheugen, schijf, netwerk en GPU.
Bij macOS is dat niet zo eenvoudig af te lezen. Daar kan dat bijvoorbeeld met de commandlinetool asitop.
De RAW-fotosoftware PhotoLab van de Franse maker DxO gebruikt sinds 2020 AI-modellen om beeldruis te verwijderen. De ook wel DeepPrime genoemde techniek onderscheidt met behulp van neurale netwerken de beeldruis van details, zodat die bij ruisreductie behouden blijven.

Op een Mac met een ARM-processor uit de M-serie gebruikt de software daar standaard de NPU voor. Er is echter ook een optie om handmatig in te stellen of het proces op de CPU-kernen, de geïntegreerde GPU of juist op de NPU moet draaien.
DxO PhotoLab verwijdert de ruis pas bij het exporteren, waardoor we als test het energieverbruik en de tijd die nodig was voor één foto op het betreffende deel van de processor konden meten.
Een MacBook Air uit 2024 met een M4-processor had met de Apple Neural Engine (ANE) ongeveer 8 seconden nodig voor één foto, waarbij de SoC zo’n 8 watt verbruikte. De CPU-kernen hebben net zoveel vermogen nodig voor het ruisonderdrukken, maar het exporteren van de foto duurde 28 seconden en dus meer dan drie keer zo lang.
Daarbij werken uitsluitend de vier performancekernen met hun krachtige floatingpoint-units, terwijl de zes efficiëntiekernen inactief bleven. De GPU zit met 18 seconden tussen de NPU en de CPU-kernen in, verbruikt daarbij met 15,5 watt echter ongeveer het dubbele. Het werkt dus het meest efficiënt als de NPU het grootste deel van het werk doet.
Bij Windows hebben we DxO PhotoLab ook getest. Daar komt echter een nadeel naar voren van de wildgroei aan processors en NPU’s van AMD, Intel en Qualcomm. Er is met Windows ML wel een overkoepelend framework, maar de meeste softwareleveranciers spreken de NPU’s rechtstreeks aan, waarbij ze vaak niet alle drie de genoemde CPU-fabrikanten in gelijke mate ondersteunen.
DxO PhotoLab maakt onder Windows 11 tot nu toe uitsluitend gebruik van Intel-NPU’s. Op een laptop met een Qualcomm Snapdragon X biedt de exportfunctie daarom alleen de keuze tussen CPU-kernen of GPU. Het exporteren duurde daardoor echter net zo lang als met de geïntegreerde GPU van de laptop met een Core Ultra 7 258V die we gebruikten.
Het fotobewerkingsprogramma Luminar Neo van Skylum zet sinds de introductie in 2022 sterk in op AI. Van de meer dan 20 effecten hebben we voor de test de upscalingfunctie uitgekozen. Die verhoogt met AI-algoritmen de beeldresolutie met een factor 4, 16 of 36. Daarbij maakt het tegelijkertijd gebruik van NPU, CPU en GPU. Dat werkt zowel onder Windows als macOS. Een afbeelding opschalen naar 36 keer de grootte duurt ongeveer 20 seconden.
NPU-gebruik in programma’s
Ook sommige videobewerkingsprogramma’s maken gebruik van de NPU van moderne processors. Adobe Premiere Pro 26 gebruikt ze onder andere in de functie Scene Edit Detection om videomateriaal te doorzoeken op scènewisselingen en automatische knipmarkeringen aan te brengen.
Dat werkte bij Windows 11 bij onze test echter alleen op een laptop met Intel-processor en daar binnen enkele seconden. Op onze Copilot+-laptop met een Snapdragon X stond de NPU zich te vervelen, terwijl de CPU-kernen zich ongeveer een uur lang uit de naad werkten.
De opensource audiosoftware Audacity biedt zelf nog geen ondersteuning voor AI-hardware, maar er is wel een geschikte OpenVINO-AI-plug-in. Die biedt een schat aan handige functies, maar is beperkt tot de NPU van Intels Core Ultra-processors. Hij kan muzieknummers genereren, stem en muziek in aparte audiosporen opsplitsen en de achtergrondruis verminderen.
De plug-in gebruikt daarvoor naar keuze de CPU, GPU of NPU. De snelste resultaten levert hij met de Neural Processing Unit, die is geoptimaliseerd voor AI-berekeningen.

NPU’s onder Windows 11 en macOS 26
Ook de besturingssystemen zelf hebben inmiddels AI-functies. Microsoft promoot al een tijdje Copilot+-pc’s, waarvoor een processor met NPU verplicht is. Die maken onder andere gebruik van de Windows Studio-effecten van Windows 11 om bij videoconferenties het beeld zo aan te passen dat mensen altijd zo groot mogelijk in beeld zijn of om de achtergrond te herkennen en onscherp te maken.
De effecten gelden daarbij systeembreed voor alle apps die toegang hebben tot de camera.

Het tekenprogramma Paint heeft onder het Copilot-menu verschillende AI-functies, waarbij niet alle functies lokaal op het apparaat draaien. Je kunt dan bijvoorbeeld schetsen omzetten in voltooide afbeeldingen. De NPU wordt gebruikt om vlakken te vullen met generatieve beeldinhoud, zoals een weide- of watertextuur. Het maakt daarbij niet uit of er een x86-processor van AMD en Intel of een ARM-chip van Qualcomm in de pc zit.
macOS 26 biedt onder andere schrijfhulpmiddelen die teksten proeflezen, samenvatten of in verschillende stijlen herschrijven. Image Playground genereert afbeeldingen of bewerkt bestaande foto’s met AI, bijvoorbeeld om mensen andere kleding aan te trekken of ze in een junglelandschap te plaatsen.
De AI-berekeningen draaien echter niet uitsluitend op de Apple Neural Engine, maar meestal op een combinatie van CPU-kernen, geïntegreerde grafische kaart en NPU. Dat komt doordat Apple geen directe toegang tot de NPU biedt voor softwareontwikkelaars, maar dergelijke taken via het Core ML-framework afhandelt.
Als softwareontwikkelaars dat voor hun apps gebruiken, beslist het samen met het besturingssysteem welk deel van de processor de betreffende taak op zich neemt.
Dit overzicht is lang niet volledig voor software die al gebruikmaakt van NPU’s. Volgens Microsoft zijn er nog meer apps, zoals de videobewerkingsprogramma’s DaVinci Resolve en CapCut, die de NPU gebruiken voor AI-functies zoals objecttracking en achtergrondvervanging.
Hetzelfde geldt voor de PDF-software LiquidText, die er lange teksten inhoudelijk mee samenvat, en het audioprogramma Djay Pro, dat tracks opsplitst in afzonderlijke geluidssporen.
Conclusie
Er is al een overvloed aan toepassingen die voor AI-functies gebruikmaken van de Neural Processing Unit van moderne processors. Dat kost minder tijd en energie dan wanneer de CPU- of GPU-kernen daarvoor op volle toeren moeten draaien.
Er staat echter nog veel in de kinderschoenen, vooral bij Windows 11. De ideale Copilot+-wereld die Microsoft propageert, bestaat tot nu toe niet. Gebruikers van een Windows-on-ARM-apparaat met een Qualcomm Snapdragon vallen meestal immers buiten de boot, ondanks de aanwezige krachtige Hexagon-versnellers, omdat veel apps specifiek zijn aangepast aan NPU’s van andere CPU-fabrikanten.
De informatie bij de systeemeisen van de betreffende apps zegt daar helaas vaak niets over.
Apple heeft een duidelijke voorsprong omdat de processor, pc en het besturingssysteem uit één hand komen, terwijl in de Windows-wereld de verschillende belangen van meerdere fabrikanten met elkaar in overeenstemming moeten worden gebracht. Ook bij innovaties zoals AVX bij processors en raytracing bij grafische kaarten duurde het telkens meerdere jaren voordat die zich konden doorzetten.
Christian Hirsh en Noud van Kruysbergen
Praat mee