De Intel Core i9 12900K heeft voor het eerst een hybride ontwerp van krachtige performance- en zuinige efficiency-cores, P-kernen en E-kernen. Intels Core i-12000-cpu’s Alder Lake slaan op veel gebieden nieuwe wegen in: ze zijn de eerste met een hybride ontwerp van snelle plus efficiënte kernen, DDR5 RAM en PCI Express 5.0 en hebben plattere chips.
In combinatie met moderne productietechnologie gaat Intel de Ryzen 5000-serie van AMD bijna overal voorbij qua prestaties en mogelijkheden. Het is verbazingwekkend hoeveel dingen Intel bij Alder Lake tegelijkertijd heeft aangepakt: nieuwe productie, hybride ontwerp voor het eerst in massaproductie, flink omgewerkte kernen, nieuwe geheugentechniek en snellere PCI Express.
De veranderingen bij de Intel Core i-12000 serie
In vier artikelen behandelen we de afzonderlijke veranderingen en verbeteringen:
- De P-kernen en E-kernen
- Het ontwerp van de chip
- Threading en turbo
- Een vergelijking met de Ryzen 9 5950x
In plaats van een complete serie van goedkope kantoor-cpu’s tot dure high-end modellen, lanceert Intel zijn 12e generatie Core i-processors in fasen. De koplopers zijn het topmodel Core i9-12900K met 8+8 kernen voor ruim 700 euro, de Core i7-12700K met 8+4 voor ruim 450 euro en de 6+4 Core i5-12600K voor 330 euro.
Krijg gratis de laatste informatie over de nieuwste processors!
Schrijf je in voor de nieuwsbrief:
De P-kernen en E-kernen
Intel heeft de processorkernen tussen de gpu en de system agent geplaatst. In tegenstelling tot de desktop-cpu’s tot nu toe, gebruikt de fabrikant voor het eerst een hybride ontwerp van krachtige performance- en zuinige efficiency-cores.
Snelste Intel Core i9 12900K met 8 P- en 8 E-kernen
De snelste Alder-Lake-chip, de Core i9-12900K, bestaat uit acht P- en acht E-kernen. De Core i5-12600K heeft van Intel een 6P+4E ontwerp gekregen. De P-cores met Golden Cove-architectuur zijn een directe doorontwikkeling van de Willow-Cove-cores van de 11e Core i-generatie en zouden gemiddeld 19 procent sneller moeten zijn.
Voor de E-cores Gracemont heeft Intel gebruikgemaakt van de goedkope Celeron en Pentium Silver J/N cpu’s met Tremont-architectuur en die fors opgewaardeerd.
Architectuurvergelijking P-kernen en E-kernen Intel i9 12900K
Intel gebruikt voor de hybride kernen van de Core i 12000-processors twee totaal verschillende cpu-ontwerpen. De Golden Cove P-kernen bieden hoge singlethreading prestaties dankzij krachtige units. De kleinere Gracemont E-kernen daarentegen zijn geoptimaliseerd voor een hoge multithreading-doorvoer met een beperkt energieverbruik.
Krachtige P-kernen en kleinere E-kernen – Intel i9 12900K kenmerken
De P-cores zijn aanzienlijk krachtiger en nemen daarom veel meer ruimte in op de chip dan een E-core. In vergelijking met Rocket Lake hebben de Golden Cove-cores nu elk een 1,25 MB level 2-cache in plaats van 512 kB. De veel kleinere E-cores zitten per vier in een blok met een gedeelde 2 MB L2 cache. Met 8,7 mm2 is een dergelijk blok slechts ongeveer 20 procent groter dan een enkele P-core (7,3 mm2 ).
De level 3-cache, die tot 30 MB groot kan zijn, zit samen met de ringbus in de lengterichting in het midden van de die. Alle kernen en de gpu hebben toegang tot de cache, die ook wel de Last Level Cache (LLC) wordt genoemd. Hij wordt niet alleen gebruikt om benaderingen van het relatief langzame werkgeheugen te verminderen, maar ook om data tussen de kernen uit te wisselen.
Volgens Intel zou de berekende doorvoer meer dan 1000 GB/s moeten zijn. Met een capaciteit van 30 MB houdt de L3-cache bijna twee keer zoveel gegevens vast als bij zijn voorganger, de Core i9-11900K (16 MB). Dat is vooral gunstig voor geheugenintensieve toepassingen, zoals 3D-games.
Golden-Cove P-kernen nog sneller
Intel heeft de architectuur ten opzichte van de voorgaande cpu’s ingrijpend veranderd, in navolging van de trend in de processorontwikkeling naar steeds ‘bredere’ ontwerpen. Die verwerken meer instructies tegelijk. Dat lijkt verdacht veel op de Firestorm-kern van de ARM-chip M1 van Apple.
De Golden-Cove-kernen bevatten een verbeterde power management controller, die nu in microseconden in plaats van milliseconden de klokfrequentie en spanning regelt op basis van de huidige belasting.
Al direct bij het front-end van de P-kernen gaat het in de breedte, de decoders kunnen per cyclus tot zes micro-operaties (µOps) leveren. Zij vertalen de binnenkomende x86-instructies in een tot vier RISC-achtige microOps.
Intel onthult echter niet hoe de decoders bij Golden Cove precies opgebouwd zijn. Om te zorgen dat ze voldoende worden belast, kan de Translation Lookaside Buffer (TLB) nu tweemaal zoveel gegevens bevatten. Hij vertaalt de virtuele geheugenadressen naar fysieke adressen en buffert 256 entry’s van 4K-geheugenpagina’s of 32 pagina’s á 2/4-MB.
Bovendien is volgens Intel de sprongvoorspelling verbeterd. De betreffende Branch Target Buffer (BTB) bevat 12.000 entry’s in plaats van tot nu toe 5000.
Intel P-kernen 12900K – 8 instructies per cyclus
Meer dan 80% van de tijd zijn de energieverslindende decoders echter uitgeschakeld en losgekoppeld van de voeding. In plaats daarvan zet Intel al jarenlang sterk in op de microOp-cache, die in Golden Cove nu 8 in plaats van 6 instructies per cyclus kan leveren. Hij biedt ook plaats aan 4000 in plaats van 2250 microOps en staat daarmee op gelijke voet met de AMD Zen 3-architectuur.
De microOps komen in een wachtrij te staan voordat ze verder worden verwerkt in het out-of-order gedeelte. Die queue kan in single-threaded mode nu 144 microOps bevatten in plaats van 70. Met actieve Simultaneous Multithreading (SMT) zijn dat echter nog maar 72 instructies.
De daaropvolgende allocation-fase kan 6 in plaats van 5 microOps accepteren, die door de scheduler worden verdeeld over 12 uitvoeringspoorten in plaats van tien. De scheduler herordent ze voor optimale prestaties en de bijbehorende reorder buffer (ROB) kan 512 entry ’s beheren. In tegenstelling tot Zen 3 en de Gracemont-architectuur van de E-cores van Alder Lake, gebruikt Intel voor de P-cores een uniforme scheduler voor integer- en floatingpoint-operaties.
Aan een van de nieuwe uitvoeringspoorten hangt een vijfde arithmetic logic unit (ALU), die net als de andere vier units LEA-instructies (Load Effective Address) in één klokcyclus verwerkt, wat nuttig is voor multilevel-berekeningen. Het aantal vectorunits blijft onveranderd op drie. Twee daarvan kunnen nu echter sneller en efficiënter optellen (FADD). Er is een extra address generator unit bijgekomen voor laadinstructies, zodat Golden Cove in één keer drie 256-bit brede gegevenstypen kan laden.
Die-shot Core i9 12900K
In de meest complete versie biedt de halfgeleider-die van de Alder-Lake-processors acht P- en acht E-kernen. Hij is modulair opgebouwd, zodat Intel bij zwakkere cpu’s kernen en blokken van de Level 3-cache kan weglaten. Het rechtergedeelte met de UHD-770 grafische eenheid schuift dan naar links.
Gepimpte E-cores in Intel 12900K
Intel heeft voor de zuinige kernen met Gracemont-architectuur een geheel andere aanpak gekozen. Die komen niet voort uit de Core-architectuur, maar hun familielijn gaat terug tot aan de Atom-processors.
Voor Alder Lake heeft Intel het ontwerp van de voorganger Tremont ingrijpend verbeterd, met als doel prestaties te bereiken die vergelijkbaar zijn met de Skylake-architectuur van de Core i-6000 cpu’s, maar met 40 procent minder energieverbruik. Hiertoe heeft Intel, grofweg gezegd, alles weggelaten wat veel energie en ruimte op de chip kost, zoals multithreading.
Toch hanteert Intel ook bij de efficiency-cores een breed ontwerp. Het front-end van de E-cores verschilt enorm van dat van de P-cores omdat er twee onafhankelijke decoderblokken zijn met elk drie units. Dat is niet zo krachtig als de 6-way decoder van Golden Cove, maar verbruikt minder energie.
Gracemont-kernen uitgerust met instructiecache
Om te voorkomen dat de decoders leeglopen, heeft Intel de Gracemont-kernen uitgerust met een instructiecache van 64 kB. Dat is niet alleen twee keer zo groot als bij de voorgangers, maar ook in vergelijking met de P-cores. De BTB heeft een capaciteit van 5000 entry’s.
De E-cores hebben geen microOp-cache, in plaats daarvan slaat de cpu de lengte van de instructies op in de instructiecache en gebruikt die bij het decoderen als dezelfde code nog eens voorkomt. Dat kost wat performance, maar bespaart transistors.
Het out-of-order gedeelte van de Gracemont-kernen kan vijf microOps aan. De reorderbuffer is met 256 entry’s op Zen 3-niveau. Na het herordenen van de instructies verdeelt de scheduler ze over 17 uitvoeringspoorten. Tremont had er eerder slechts 10, de Intel-ontwikkelaars hebben daar blijkbaar hard aan gewerkt. In tegenstelling tot de P-cores zijn er twee aparte schedulers voor integer- en floatingpoint-units.
De vernieuwingen van de Gracemont-kernen omvatten een vierde integer- en een derde vectorunit. De vectorunits zijn veel krachtiger en kunnen nu voor het eerst 256-bit AVX2-instructies uitvoeren, terwijl hun voorgangers beperkt waren tot 128-bit SSE-bewerkingen.
Intel gaf de efficiency-cores ook de voor AI belangrijke VNNI-instructies (Vector Neural Network Instructions), die oorspronkelijk deel uitmaakten van AVX512 maar nu op zichzelf staan. Om het hybride ontwerp te laten werken, moeten E- en P-cores dezelfde instructieset ondersteunen. Daarom heeft Intel die behoorlijk geüpgraded.
(Deze informatie is afkomstig uit het artikel van Christian Hirsch en Marco den Teuling. c’t 3/2022, pagina 64)