banner
Maison / Blog / Le battage médiatique de l'IA fera grimper les prix des GPU dans les centres de données
Blog

Le battage médiatique de l'IA fera grimper les prix des GPU dans les centres de données

Mar 06, 2023Mar 06, 2023

MIS À JOURComme de nombreux constructeurs de systèmes HPC et IA, nous sommes impatients de voir à quoi pourrait ressembler le système sur puce hybride CPU-GPU "Antares" Instinct MI300A d'AMD en termes de performances et de prix.

Et avec la conférence sur le supercalcul ISC 2023 qui arrive dans quelques semaines, et Bronis de Supinski, directeur de la technologie au Lawrence Livermore National Laboratory, donne une conférence lors de l'événement sur le futur système exascale "El Capitan" qui sera la machine phare pour la variante MI300A des GPU Antares, c'est dans notre esprit.

Donc, juste pour le plaisir, nous avons sorti la feuille de calcul Excel de confiance et essayé d'estimer quelles pourraient être les alimentations et les vitesses des GPU MI300 et MI300A, ce dernier étant au cœur du système El Capitan. Oui, c'est peut-être de la folie, étant donné qu'AMD parlera probablement un peu plus de la série de GPU MI300 à l'ISC 2023 et au-delà, et nous finirons par savoir précisément comment ce moteur de calcul est architecturé. Mais un certain nombre de personnes continuent de nous demander si la série MI300 peut être compétitive avec les accélérateurs GPU Nvidia "Hopper" H100 et, peut-être plus important encore, compétitive avec la combinaison du processeur "Grace" Arm à 72 cœurs étroitement lié au Hopper. GPU H100 pour créer un complexe combiné CPU-GPU hybride Grace-Hopper qui ira de pair avec le MI300A qui va être déployé à El Capitan et, selon nous, d'autres machines hybrides CPU-GPU exécutant des charges de travail HPC et AI cote à cote.

Et compte tenu de la demande intense de calcul GPU, entraînée par une explosion de la formation à l'IA pour les applications d'IA génératives basées sur de grands modèles de langage, et au désir d'AMD de jouer davantage dans la formation à l'IA avec ses GPU, nous pensons que la demande dépassera celle de Nvidia. approvisionnement, ce qui signifie que malgré l'énorme avantage que la pile logicielle Nvidia AI a sur AMD, les GPU de ce dernier vont obtenir des gains d'approvisionnement en IA. Les GPU "Aldebaran" précédents ont déjà remporté d'impressionnantes conceptions HPC pour AMD, notamment dans le système exascale "Frontier" du laboratoire national d'Oak Ridge, avec quatre de ces GPU à double puce attachés à un processeur Epyc "Trento" personnalisé pour créer un moteur de calcul hybride plus faiblement couplé. (Il y en a d'autres.) Et nous pensons que la demande intense de GPU Nvidia pour les charges de travail d'IA va en fait laisser une ouverture à AMD pour remporter des contrats, car la demande dépasse l'offre.

Les gens ne seront pas plus patients pour ajouter l'IA générative à leurs charges de travail aujourd'hui qu'ils ne l'étaient à la fin des années 1990 et au début des années 2000 pour ajouter une infrastructure Web afin de moderniser leurs applications afin de déployer des interfaces pour eux sur Internet. La différence cette fois-ci est que le centre de données ne se transforme pas en un substrat de calcul X86 à usage général, mais devient plutôt de plus en plus un écosystème d'architectures concurrentes et complémentaires qui sont tissées ensemble pour fournir le meilleur rapport qualité-prix possible. sur une plus grande variété de charges de travail.

Nous ne savons pas encore grand-chose sur la série MI300, mais en janvier, AMD a parlé un peu des appareils, que nous avons couverts ici. Nous avons une image de l'un des appareils, et nous savons que l'un d'eux aura 8 fois les performances de l'IA et 5 fois les performances de l'IA par watt de l'accélérateur GPU MI250X existant utilisé dans le système Frontier. Nous savons que l'une des séries MI300 compte 146 milliards de transistors sur ses neuf puces. Nous pensons qu'une grande partie de ce nombre de transistors est implémentée dans quatre tuiles de 6 nanomètres qui interconnectent les éléments de calcul CPU et GPU sur lesquels Infinity Cache est également gravé. Il est difficile de dire combien de transistors ce cache utilise, mais nous avons hâte de le découvrir.

Soit dit en passant, nous pensons que le MI300A est appelé ainsi pour désigner qu'il s'agit d'une version APU - c'est-à-dire une combinaison de cœurs CPU et GPU sur un seul package - du moteur de calcul parallèle phare d'AMD. Cela implique qu'il y aura des versions non-APU, uniquement GPU du GPU Antares, peut-être avec un maximum de huit puces GPU chevauchant ces quatre puces d'interconnexion et de cache, illustrées ci-dessous dans ce que nous pensons être le MI300A :

Pour être très précis dans le langage d'AMD du début de cette année, ce nombre 8X et 5X était basé sur des tests pour le GPU MI250X et des performances modélisées pour les parties GPU du complexe MI300A. Et pour être très précis, voici ce qu'AMD a déclaré : "Mesures d'AMD Performance Labs le 4 juin 2022, sur les spécifications et/ou l'estimation actuelles des performances en virgule flottante FP8 fournies estimées avec la parcimonie de structure prise en charge pour AMD Instinct MI300 contre MI250X FP16 ( 306,4 TFLOPS livrés estimés sur la base de 80 % des performances théoriques maximales en virgule flottante). Performances du MI300 basées sur des estimations et des attentes préliminaires. Les performances finales peuvent varier."

Et pour être encore plus précis, voici les notes des trois affirmations d'AMD concernant la série MI300 à ce jour :

Nous nous demandons ce qui est arrivé au MI300-002, nous l'avons cherché sur Internet et nous ne l'avons pas trouvé.

Sur la base de ces données ci-dessus et du moteur de conjecture coincé dans nos lobes cérébraux, voici notre tableau estimant à quoi pourraient ressembler les alimentations et les vitesses de ce à quoi pourraient ressembler les MI300 et MI300A compte tenu de ce qu'AMD a dit jusqu'à présent, avec une bonne quantité de devinettes montrées dans gras italique rouge comme d'habitude.

Dans une version antérieure de cette histoire, nous avons supposé que tous les commentaires d'AMD concernaient le MI300A, mais certains d'entre eux concernaient le MI300. Nous avons donc fait de notre mieux pour voir à quoi pourraient ressembler ces deux complexes de puces. Nous ne donnons aucune garantie et proposons cela comme l'expérience de pensée qu'il est.

Nous avions trop de processeurs de streaming et d'unités de calcul dans notre tableau précédent, mais nous pensons que c'est correct. Désolé pour ça. Nous avons ajouté le traitement de la matrice de parcimonie à la fin, mais nous avons oublié de supprimer le facteur 2X pour ce traitement.

Nous pensons que le MI300 a huit tuiles GPU pour un total de 440 unités de calcul et 28 160 processeurs de streaming, produisant un pic de 3 064 téraflops sur FP8 et un pic de 3 064 téraops sur le traitement INT8 couramment utilisé pour l'inférence IA et, pour certaines applications avec prise en charge FP8, également pour l'IA entraînement. Nous pensons que cette puce fonctionne à la même vitesse d'horloge de 1,7 GHz que le MI250X qu'elle remplace, et qu'elle aura 2X la capacité de traitement vectorielle FP64 et FP32 du MI250X.

Avec le MI300A, deux des puces GPU sont retirées, réduisant les unités de calcul à 330 et les processeurs de streaming à 21 120. Mais, parce que nous pensons que Lawrence Livermore était prêt à sacrifier un peu de chaleur pour obtenir le CPU et le GPU sur la même mémoire à large bande passante, nous pensons qu'AMD va augmenter la vitesse d'horloge sur ces six GPU pour pousser les performances un peu au-delà de cela dans le MI300. Nos calculs suggèrent que 2,32 GHz feront l'affaire, offrant des performances 8X et 5X les performances par watt dont AMD a parlé dans ses revendications.

Tout comme Nvidia a multiplié les performances sur les unités mathématiques matricielles des GPU H100 par rapport aux unités vectorielles, nous pensons qu'AMD fera la même chose avec le moteur de calcul hybride MI300A. Ainsi, les unités vectorielles pourraient ne voir qu'une amélioration de 2X. C'est une autre façon de dire que de nombreuses charges de travail HPC n'accéléreront pas autant que les charges de travail de formation à l'IA, à moins et jusqu'à ce qu'elles soient modifiées pour s'exécuter sur les unités mathématiques matricielles.

Maintenant, parlons argent.

Dans notre analyse en décembre 2021, lorsque les MI250X ont été expédiés pour la première fois à Oak Ridge pour construire la machine Frontier, nous avons estimé que l'un de ces moteurs GPU pourrait avoir un prix catalogue d'environ 14 500 $, soit quelques milliers de plus que le Accélérateur GPU Nvidia "Ampere" A100 SXM4, qui se vendait 12 000 $ à l'époque. À la suite de l'annonce du H100 en mars 2022, nous avons estimé qu'il serait possible de facturer entre 19 000 $ et 30 000 $ pour un H100 SXM5 haut de gamme (que vous ne pouvez pas acheter séparément d'une carte système HGX), avec le Les versions PCI-Express des GPU H100 valent peut-être entre 15 000 $ et 24 000 $. À l'époque, le prix de l'A100 SXM4 était passé à environ 15 000 $ en raison de la demande croissante. Et il y a seulement quelques semaines, les versions PCI-Express du H100 étaient vendues aux enchères sur eBay pour plus de 40 000 $ pièce. Ce qui est fou.

La situation est pire que le marché des voitures d'occasion ici aux États-Unis, et c'est une sorte d'inflation qui vient d'une trop grande demande et d'une offre trop faible. Une situation que les vendeurs adorent quand ils savent qu'ils ne peuvent de toute façon pas fabriquer suffisamment d'unités. Les hyperscalers et les constructeurs de cloud rationnent l'accès aux GPU entre leurs propres développeurs, et nous ne serions pas surpris de voir des augmentations de prix pour la capacité GPU dans le cloud.

En ce qui concerne les performances FP8 avec parcimonie activée, le MI300A fournira environ 3,1 pétaflops de performances théoriques de pointe, mais contre 128 Go de mémoire HBM3 avec peut-être environ 5,4 To/sec de bande passante. L'unité Nvidia H100 SXM5 dispose de 80 Go de mémoire HBM3 avec 3 To/sec de bande passante, et est évaluée à 4 pétaflops de performances de pointe avec parcimonie à la résolution et au traitement des données FP8. L'appareil AMD a 25% de performances de pointe en moins, mais il a 60% de capacité de mémoire en plus et peut-être 80% de bande passante mémoire en plus si toutes ces huit piles HBM3 sur l'appareil peuvent être entièrement remplies. (Nous l'espérons bien sûr.) Nous pensons que de nombreux magasins d'IA iront très bien en sacrifiant un peu de performances de pointe pour plus de bande passante et de capacité sur la mémoire, ce qui contribue à améliorer les performances réelles de l'entraînement en IA.

Ce que nous pouvons dire avec certitude, c'est qu'El Capitan est en première ligne pour les moteurs de calcul MI300A, et pour franchir le pic de 2,1 exaflops à virgule flottante double précision plain vanilla 64 bits, il faudra 28 600 sockets, et dans ce cas, un socket est un nœud.

La division Cray de Hewlett Packard Enterprise construit la machine El Capitan et aime mettre de nombreux moteurs de calcul sur un nœud. La lame du système Frontier, par exemple, possède une paire de nœuds, chacun avec un processeur Trento et quatre GPU MI250X, pour un total de dix appareils et environ 5 300 watts. Avec les cartes d'interface réseau Slingshot 11, appelez cela peut-être 6 000 watts par lame juste pour le plaisir d'argumenter. S'il y a huit MI300A sur une lame à 850 watts, cela représenterait environ 6 800 watts rien que pour les moteurs de calcul. Toujours dans les spécifications de refroidissement des cadres "Shasta" Cray EX, c'est notre supposition. Comme il s'agit d'une machine refroidie à l'eau, nous pensons que huit MI300A peuvent tenir sur la lame avec leurs cartes d'interface réseau Slingshot 11. Nous avons hâte de le découvrir.

Avec huit appareils MI300A par lame et 64 lames par armoire, comme indiqué ci-dessus dans la vue éclatée Cray EX, cela représente 56 armoires (arrondi). Cray a toujours aimé vendre des machines de classe de capacité dans la gamme de 100 armoires et dispose de machines pouvant évoluer jusqu'à 200 armoires afin que les clients aient l'impression d'avoir une marge de manœuvre, y compris le stockage. Si El Capitan arrive à un pic de 2,3 exaflops, ce sera 62 armoires, et 2,5 exaflops seront 67 armoires. Avec le stockage, on soupçonne fortement qu'El Capitan sera aux alentours de 100 armoires.

Le système "Sierra" actuel, qui approche maintenant de cinq ans car El Capitan arrive sur le marché environ un an plus tard que prévu (mais sans doute toujours dans les limites de son budget de 600 millions de dollars) compte 4 320 nœuds, chacun avec deux processeurs Power9 d'IBM et quatre Accélérateurs GPU "Volta" V100 de Nvidia. Cela représente un total de 17 280 GPU dans Sierra, et si nos suppositions sur les performances FP64 du MI300A sont correctes - et nous sommes les premiers à admettre que ce n'est qu'une intuition - alors ce n'est que 65% de sockets GPU en plus à El Capitan qu'il n'y en avait dans Sierra. Mais, il y a six GPU logiques dans chaque socket El Capitan, donc cela ressemble plus à 171 600 GPU pour fournir 2,1 exaflops. Cela représenterait 16,9 fois plus de performances FP64 brutes à une augmentation de prix de 4,8 fois sur les deux systèmes, grâce à une augmentation de 9,9 fois de la simultanéité du GPU. El Capitan doit fournir au moins 10 fois plus de performances que Sierra et le faire dans une enveloppe thermique inférieure à 40 mégawatts. Si nous avons raison sur tout cela, alors un El Capitan de 2,1 exaflops arriverait à environ 24,3 mégawatts uniquement pour les moteurs de calcul.

Et pour vérifier le prix de tout cela, si 85% du coût de la machine El Capitan sont les moteurs de calcul CPU-GPU, et qu'il y en a 28 600, alors cela représente environ 17 800 $ pour eux. Et il est impossible que les hyperscalers et les constructeurs de cloud les paient moins que ne le font les laboratoires nationaux américains qui parrainent essentiellement l'incursion d'AMD dans les échelons supérieurs du HPC. (Cela fait beaucoup de "si" et nous le savons bien.)

Dans le passé, nous déterminerions en fait le prix catalogue d'un GPU à partir des offres de supercalcul en inversant la remise importante du laboratoire national HPC. Avec les accélérateurs Volta V100 utilisés dans Sierra, par exemple, les GPU coûtaient environ 7 500 $ mais étaient vendus à Lawrence Livermore et Oak Ridge pour environ 4 000 $ chacun. Et donc le prix catalogue du MI300A, si cet ancien niveau de remise prévalait, pourrait être supérieur à 33 500 $. Nous pensons que la remise est moins importante car AMD a ajouté beaucoup plus de calcul au moteur MI300A et le prix était également beaucoup plus bas par unité – le prix catalogue ressemblait plus au prix public car AMD doit être agressif pour déplacer Nvidia.

Rappelez-vous que lorsque l'accord initial avec El Capitan a été annoncé en août 2019 pour une livraison fin 2022 avec une acceptation fin 2023, il a été spécifié comme une machine avec 1,5 exaflops de performances soutenues et environ 30 mégawatts de consommation d'énergie juste pour faire fonctionner le système.

Tout cela nous laisse avec trois questions. Un : combien d'appareils MI300A AMD peut-il fabriquer ? Si c'est beaucoup plus que ce qui est prévu pour El Capitan, alors il peut fixer leur prix et les vendre tous. Et deux : AMD va-t-il les vendre à un prix agressif ou pousser pour le prix que le marché peut supporter ?

Il n'est pas difficile de répondre à la deuxième question, n'est-ce pas? Pas dans ce marché haussier des GPU où l'IA sera absolument à l'abri de la récession. L'IA pourrait même accélérer la récession, si elle se produisait, si elle réussissait de plus en plus à remplacer les gens. . . . Jusqu'à présent, ni une véritable récession ni une accélération de l'IA ne se sont produites.

La troisième question est la suivante : le MI300 aura-t-il essentiellement le même prix que le MI300A ? C'est fort probable.

Avec les faits saillants, les analyses et les histoires de la semaine directement de nous dans votre boîte de réception, sans rien entre les deux.Inscrivez-vous maintenant

MIS À JOUR