Meilleurs ensembles d'outils de mécanicien pour 2023 - Route et piste
Apr 10, 2023Meilleures centrales électriques portables pour le camping : les 5 meilleures options en 2023
Jun 01, 2023Meilleurs cadeaux pour la fête des pères 2023 : 62 idées pour chaque type de papa
Jun 01, 2023Meilleurs ensembles d'outils de mécanicien 2023
Nov 22, 2023Extension Socket Market 2023 Aperçus qualitatifs, amélioration clé, analyse des parts jusqu'en 2030
May 12, 2023Intel minimise le processeur hybride
Quand Intel a annoncé son projet "Falcon Shores" pour construire un moteur de calcul hybride CPU-GPU en février 2022 qui permettait la mise à l'échelle indépendante de la capacité du CPU et du GPU dans un seul socket, il semblait que le fabricant de puces se préparait à affronter ses rivaux Nvidia et AMD de front avec des moteurs de calcul hybrides, qu'Intel appelle XPU, AMD appelle APU, et Nvidia n'en a pas vraiment si vous voulez être strict sur ce que sont ses "superpuces" et ce qu'elles ne sont pas.
Comme nous l'avons souligné à l'époque, cette approche "Aurora dans un socket" consistant à placer un mélange variable de chiplets CPU et GPU dans un socket Xeon SP avec littéralement la même mémoire principale et un lien à très faible latence entre les chiplets permet une plus complexe L'inférence IA que l'unité mathématique matricielle AMX dans un Xeon SP pourrait gérer aussi bien plus de traitement en virgule flottante HPC que ce qui est possible dans une unité vectorielle AVX-512 sans obliger les clients à recourir à un GPU discret à latence plus élevée dans la gamme Max Series ou même un GPU discret de Nvidia ou AMD.
Lorsqu'il a été annoncé par Raja Koduri, qui était directeur général de l'activité Accelerated Computing Systems and Graphics chez Intel - qui a été interrompue à la suite du départ de Koduri d'Intel en mars de cette année - Intel promettait que Falcon Shores offrirait plus de 5 fois mieux des performances par watt, une densité de calcul plus de 5 fois plus élevée dans un socket X86 et une bande passante et une capacité de mémoire plus de 5 fois plus élevées avec ce qu'il a appelé "mémoire partagée à bande passante extrême". Nous supposons que ces chiffres ont été comparés à un socket de serveur Xeon SP "Ice Lake", et les deux étaient les meilleurs éléments à ce sujet.
Falcon Shores était programmé pour 2024 et largement censé se connecter directement à la même plate-forme de serveur "Mountain Stream" utilisée par les futurs SP Xeon "Granite Rapids". Et nous avons supposé qu'Intel pourrait faire quelque chose de fou, comme donner au GPU une couche d'émulation qui le ferait ressembler à une grosse unité mathématique vectorielle AVX-512 pour simplifier la programmation. (Ou plus probablement une unité AMX, maintenant que nous y pensons un peu plus.)
En mars de cette année, alors que Koduri quittait Intel, la société a commencé à pédaler non seulement en offrant ce qui ressemblait à cinq mélanges de puces CPU-GPU différents à l'intérieur d'un socket Xeon SP, mais a également tué le kick "Rialto Bridge" au GPU "Ponte Vecchio" Max Series qui effectuera la majeure partie du pic de traitement de 2 exaflops dans le supercalculateur "Aurora" du Laboratoire national d'Argonne. Il y avait des rumeurs à l'époque selon lesquelles les premiers appareils Falcon Shores sortiraient en 2025, et uniquement avec des puces GPU dessus, faisant de l'appareil essentiellement un remplacement discret du GPU pour Ponte Vecchio au lieu du pont du Rialto. Le pont du Rialto a été vidé parce qu'Intel voulait passer à une cadence GPU de deux ans sur ses feuilles de route – et raisonnablement parce que c'est ce que font Nvidia et AMD.
Lors de la récente conférence sur le supercalcul ISC23 à Hambourg, Intel a clarifié ses intentions concernant Falcon Shores, confirmant que non seulement cet appareil serait un moteur de calcul uniquement GPU, mais que le temps des XPU hybrides n'était pas encore venu.
"Mon effort et mon accent antérieurs sur l'intégration du CPU et du GPU dans un XPU étaient prématurés", a expliqué Jeff McVeigh, directeur général du Super Compute Group, lors des briefings de l'événement ISC23. Et franchement, McVeigh assume probablement la responsabilité de quelque chose qui était vraiment une décision prise par Koduri et peut-être même avec Jim Keller dans le mélange, qui est parti pour devenir directeur général et maintenant directeur de la technologie de la startup AI Tenstorrent il y a plus de deux ans.
"Et la raison en est", a poursuivi McVeigh dans son explication, "nous avons l'impression d'être sur un marché beaucoup plus dynamique que nous ne le pensions il y a à peine un an - toute l'innovation autour des grands modèles de langage de l'IA générative. Bien que cela ait été en grande partie dans l'espace commercial, nous constatons que cela est également beaucoup plus largement adopté dans les efforts scientifiques. Et lorsque vous êtes sur ce marché dynamique, où les charges de travail évoluent rapidement, vous ne voulez vraiment pas vous forcer à emprunter la voie d'un CPU fixe au rapport GPU.Vous ne voulez pas fixer les fournisseurs ou même les architectures utilisées entre X86 et Arm - lesquels sont les meilleurs pour cela permettent une flexibilité, permettent un bon support logiciel entre eux - par rapport à lorsque vous êtes dans un marché mature. Lorsque les charges de travail sont fixes, lorsque vous les connaissez parfaitement, qu'elles ne vont pas changer radicalement, l'intégration est excellente. Nous avons fait de l'intégration de très nombreuses fois. Cela réduit les coûts, réduit puissance. Mais vous êtes fixe. Vous êtes fixé avec les fournisseurs pour ces deux composants, vous êtes fixé avec la façon dont ils sont configurés. Et nous avons juste l'impression que notre véritable prise en compte de la situation actuelle du marché n'est pas le moment de s'intégrer."
Étant donné que Nvidia est sur le point de vendre un nombre assez élevé de superpuces CPU "Grace" et GPU "Hopper" et qu'AMD a au moins un gros client (Lawrence Livermore National Laboratory) qui achète beaucoup de son calcul hybride CPU-GPU "Antares" Instinct MI300A moteurs, nous sommes certains que Nvidia et AMD seraient en total désaccord avec cette évaluation.
Peut-être qu'une telle intégration XPU n'est pas bonne pour Intel, qui doit réduire les coûts et se concentrer sur la rentabilité de son marché central des processeurs de serveur comme il n'a pas eu à se concentrer depuis la débâcle Itanium de la fin des années 1990 et du début des années 2000. Ou encore plus précisément, peut-être pas pour les cœurs de processeur Intel et les cœurs de processeur graphique Intel. Peut-être que les cœurs de processeur Intel et les cœurs de GPU Nvidia seraient plus acceptables pour le marché ? Jusqu'à présent, Nvidia n'avait pas d'activité de processeur de serveur, alors peut-être que le temps est passé pour ce partenariat potentiel, qui aurait pu voir des ports NVLink ajoutés à "Sapphire Rapids" et un complexe HBM3 géant.
Quoi qu'il en soit, ce n'est pas la première fois qu'Intel envisage une conception "frankenchip" avec un calcul auxiliaire en dehors des cœurs X86 dans ses puces de serveur Xeon. Et ce n'est pas non plus la première fois qu'il renonce à ces efforts.
Intel a divulgué qu'un dispositif hybride CPU-FPGA était en cours de développement en juin 2014 et présentait un prototype hybride Broadwell-Arria 10 GX à 15 cœurs lors de l'Open Compute Summit en mars 2016. En mai 2018, lorsque le processeur hybride -Le produit FPGA a été officiellement lancé, le côté CPU a été mis à niveau vers un chiplet Skylake à 20 cœurs et l'Arria 10 GX était le côté FPGA du package. Intel a, bien sûr, vendu des processeurs Intel Xeon E3 avec des CPU et des GPU sur une seule matrice pendant de très nombreuses années, mais parle rarement des capacités mathématiques latentes - et pas seulement peu coûteuses mais essentiellement gratuites - inhérentes à ce GPU intégré. (Nous le rappelons fréquemment aux gens, comme nous l'avons fait ici.) Intel a cessé de parler de la conception hybride CPU-FPGA il y a de nombreuses années, et n'a jamais parlé de ses possibilités CPU-GPU bas de gamme, encore moins de la façon dont il pourrait faire quelque chose comme le Conçu à l'origine, Falcon Shores était prévu pour 2024 aux côtés des Granite Rapids Xeon SP.
Désormais, le GPU multi-puces Falcon Shores est prévu pour 2025, associé au kicker Xeon SP "Clearwater Forest" à Granite Rapids.
En parlant de frankenchips, McVeigh a dit quelque chose de très intéressant dans sa présentation de la feuille de route lors du briefing ISC23. Tout d'abord, la feuille de route :
Depuis mai 2022, Intel expédie les moteurs mathématiques matriciels Gaudi2 issus de son acquisition de Habana Labs pour 2 milliards de dollars en décembre 2019. Et le suivi de Gaudi3, dont nous ne savons presque rien et qui a été enregistré en mars de cette année, semble arriver début 2024.
Après cela et au moment où le GPU multi-puces Falcon Shores atteint la feuille de route en 2025, la ligne séparant Gaudi des GPU Ponte Vecchio et Falcon Shores disparaît. Si vous avez un NNP avec des quantités massives de calculs matriciels de précision mixtes et un GPU avec des quantités massives de calculs matriciels de précision mixtes, vous n'avez peut-être pas besoin d'un Gaudi4 si vous pouvez compter sur un Falcon Shores qui pourrait avoir un punch équivalent. Surtout si vous devez réduire les coûts comme le fait Intel pour atteindre ses objectifs de réduction de 3 milliards de dollars en 2023 et de réduction supplémentaire de 5 à 7 milliards de dollars en 2024 et 2025 inclus.
McVeigh a déclaré que Falcon Shores serait destiné à la fois aux charges de travail HPC et AI, serait mis à niveau vers la mémoire HBM3 et "réunirait le meilleur de nos produits Gaudi, qui comprend la commutation Ethernet standard" et "des E/S conçues pour l'échelle".
Cette E/S semble être CXL sur PCI-Express reliant les processeurs aux GPU Falcon Shores, mais utilisera une version améliorée de la structure Ethernet créée par Habana Labs pour mailler les GPU ensemble, si nous lisons correctement. (Nous sommes perplexes quant à la raison pour laquelle il ne s'agira pas uniquement de commutation PCI-Express 6.0, mais encore une fois, cela sera limité à quelques racks en raison de la longueur des câbles PCI-Express et du nombre relativement faible de ports sur PCI-Express. )
La puce Gaudi1 pourrait évoluer jusqu'à 128 appareils interconnectés avec cette structure Ethernet exécutant RoCE. Chaque Gaudi1 avait dix ports Ethernet 100 Gb/sec, et vous pouviez mettre quatre ou huit appareils dans un nœud et passer à 32 nœuds ou 16 nœuds pour atteindre 128 nœuds entièrement interconnectés. L'appareil Gaudi2 s'adapte à 24 ports Ethernet intégrés fonctionnant à 100 Gb/s, qui connectent huit appareils les uns aux autres dans une topologie non bloquante tout-à-tout :
Pour créer le système Gaudi2 à huit voies, 21 des 24 ports de chaque appareil sont utilisés pour établir ce lien complet entre les moteurs matriciels. Trois ports de chaque appareil sont regroupés de manière échelonnée pour un total de six ports QSFP-DD sortant du châssis Gaudi2, fournissant l'interconnexion pour évoluer sur 16 ou 32 boîtiers Gaudi, ce qui, comme nous l'avons dit, se fait avec des commutateurs Ethernet réguliers. .
Il n'est pas difficile d'imaginer que cette structure Ethernet Gaudi soit mise à niveau vers des ports de 400 Gb/s ou peut-être même de 800 Gb/s provenant du GPU Falcon Shores et utilisant des commutateurs Ethernet tout aussi rapides pour relier encore plus d'appareils. Dommage qu'Intel n'ait plus d'activité de commutation Ethernet, car il a mis sous cocon sa gamme Tofino issue de son acquisition de Barefoot Networks. Les clients devront choisir la commutation Ethernet basée sur le silicium Broadcom, Nvidia, Marvell ou Cisco Systems.
Il semble également qu'Intel va prendre les tableaux systoliques - ce que nous appelons les moteurs mathématiques matriciels - de l'appareil Gaudi et les utiliser à la place des moteurs mathématiques matriciels Xe utilisés sur la conception Ponte Vecchio. Alors, oui, ne comptez pas sur le fait que Gaudi 4 soit un produit distinct.
Voilà pour cette expérience de 2,35 milliards de dollars dans les NNP qui est venue des acquisitions de Nervana Systems et Habana Labs. Le futur NNP est un GPU chez Intel. Et les seules entreprises qui achèteront Gaudi2 et Gaudi3 sont celles qui recherchent désespérément des capacités mathématiques matricielles et qui sont également engagées dans les futurs GPU Falcon Shores d'Intel.
Avec les faits saillants, les analyses et les histoires de la semaine directement de nous dans votre boîte de réception, sans rien entre les deux.Inscrivez-vous maintenant