Indiscrets pour ouvrir le couvercle du lac Cascade multipuce d'Intel

Imaginez une seconde que vous êtes Intel.

Les quelques fabricants de processeurs de serveur qui restent sur le marché - AMD, IBM, Marvell et Ampere - ont plus de contrôleurs de mémoire sur leurs sockets que vous. Ils travaillent tous sur des puces de 7 nanomètres qui vont entasser beaucoup de cœurs sur le die. Votre processus de 10 nanomètres pour graver les puces, qui est analogue à la technologie de 7 nanomètres proposée par Taiwan Semiconductor Manufacturing Corp et utilisé par trois de ces fournisseurs (pas IBM, qui a fait appel à Samsung), est en retard et a renversé du café sur votre feuille de route sur le chemin à travers le pays des lacs. Mais, l'activité du Data Center Group est en plein essor, même si les hyperscalers et les constructeurs de cloud ont freiné au quatrième trimestre 2018. Et il reste encore un long chemin jusqu'au premier semestre 2020, lorsque les SP Xeons "Ice Lake" seront lancés. monter en puissance.

Que fais-tu?

Vous en tirez le meilleur parti. Vous ajustez l'architecture Skylake de plusieurs façons, et en succession rapide, pour que les clients restent en mouvement. C'est précisément ce qu'Intel a fait avec ses puces Cascade Lake aujourd'hui, que nous avons couvert en détail ici. Intel a utilisé un processus raffiné de 14 nanomètres pour extraire un peu plus de vitesse d'horloge des cœurs Skylake, a ajouté de nouvelles instructions DL Boost pour accélérer l'inférence d'apprentissage automatique, a corrigé une certaine retenue de sécurité des vulnérabilités d'exécution spéculative Spectre/Meltdown/Foreshadow, et a secoué la pile SKU, il y avait donc quelques cœurs supplémentaires dans un Cascade Lake Xeon SP à un prix donné pour les puces Skylake Xeon SP originales lancées il y a près de deux ans.

Mais il n'y a qu'un seul problème avec cette stratégie. Intel ne parle pas de leadership en matière de performances en faisant exactement ce qui est décrit ci-dessus. Intel a besoin de quelque chose de plus. Tout comme AMD l'a fait avec les Opteron 6100 il y a une dizaine d'années quand Intel arrivait en force avec les Xeons "Nehalem" qui sont l'ancêtre des Cascade Lakes actuels. AMD a mis deux puces à six cœurs sur un dé et avait un chipset qui évoluait à huit sockets, et a créé un serveur physique à quatre sockets sur huit processeurs logiquement liés via son interconnexion HyperTransport NUMA.

AMD a doublé les puces dans un socket pour faire une déclaration de performances à l'époque, et Intel le fait maintenant. Avec le processeur Cascade Lake-AP, Intel couple de manière croisée quatre puces Cascade Lake à l'aide d'UltraPath Interconnect, sa propre colle NUMA, et les conditionne de manière à ce que cette machine logique à quatre sockets ressemble à un serveur physique à deux sockets avec des puces monstrueuses. En entassant jusqu'à 56 cœurs sur un seul boîtier monté en surface BGA (ball grid array), Intel peut toujours parler de leadership en matière de performances et peut-être même d'un rapport prix/performances décent dans une machine à deux sockets avant le lancement du processeur de serveur Epyc "Rome" d'AMD, qui est attendu en juin si le scuttlebutt a raison.

Avec la série de processeurs Xeon SP 9200 Platinum, comme les puces Cascade Lake-AP sont officiellement connues, Intel acquiert une petite expérience dans la conception et la fabrication de modules multipuces, ce qui est bon et qui est un aperçu, peut-être, de la façon dont les choses finiront par faire dans un avenir pas trop lointain. Fabriquer des processeurs monolithiques massifs est bien plus coûteux que d'en fabriquer beaucoup plus petits, et tout comme le monde a dû s'habituer à la programmation pour des systèmes distribués constitués de plusieurs serveurs, les compilateurs et les programmeurs vont devoir s'habituer à travailler avec des systèmes distribués. à l'intérieur d'un seul serveur.

Il ne fait aucun doute dans l'esprit de quiconque que le futur CPU ne sera pas seulement un méli-mélo de puces, mais des puces gravées avec les processus les plus optimaux disponibles pour chaque fonction. Il est fort probable que les circuits d'E / S et de communication ne descendent jamais en dessous de 16 nanomètres (14 nanomètres dans la manière Intel de compter les tailles de grille de transistor), et que les cœurs du processeur continuent de rétrécir autant que possible, et que ces composants vont être constitué de puces séparées recousues avec divers types d'interconnexions et de méthodologies de conditionnement. Cela ne nous surprendrait pas du tout si les puces Ice Lake Xeon SP le faisaient pour les vrais, et pas seulement de la manière précipitée qu'Intel a prise avec les puces Cascade Lake-AP. Peut-être qu'Intel ne croyait pas que TSMC pouvait assembler ses 7 nanomètres et donc AMD n'avait aucune chance avec les processeurs Rome Epyc ? C'est dur à dire.

Mais pour le moment, rien n'indique que TSMC ne sera pas en mesure de fabriquer des puces pour les nombreux fournisseurs qui se sont alignés pour utiliser ses fabs de 7 nanomètres, et AMD semble avoir un peu d'avance sur Rome. Ice Lake – certainement en termes de délai de mise sur le marché, et peut-être en termes de nombre de cœurs et tout au long. Il faudra voir.

Pensez donc au Cascade Lake-AP comme un aperçu de l'avenir, ou du moins un où la densité de calcul est importante et où la capacité de fabriquer des modules multipuces à un prix abordable est encore plus importante.

Il existe quatre puces de la série Xeon SP 9200, que nous avons comparées au reste de la gamme Cascade Lake ici. Nous vous avions déjà parlé d'un module à deux puces basé sur des puces Cascade Lake à 24 cœurs en novembre dernier, et nous nous attendions à ce que la puce brûle entre 275 watts et 350 watts, selon ce qu'Intel a fait aux vitesses d'horloge des processeurs. Il s'avère que les vitesses d'horloge sont un peu plus élevées que ce à quoi beaucoup s'attendaient sur cette partie à 48 cœurs, qui s'appelle désormais le Xeon SP-9242 Platinum, à 2,3 GHz de base et une vitesse Turbo Boost de 3,8 GHz. Les puces Cascade Lake-AP du bac inférieur, le Xeon SP-9221 et le Xeon SP-9222, brûlent toutes deux 250 watts et ont des vitesses d'horloge de base de 2,1 GHz et 2,3 GHz, respectivement, avec un turbo jusqu'à 3,7 GHz. Il y a quatre cœurs de plus et donc huit threads de plus dans ces 32 pièces Cascade Lake-AP de cœur, et cela peut être important pour certaines charges de travail, mais un Xeon SP-8180 dans la famille Skylake ou un Xeon SP-8280 dans la plaine vanille Cascade La famille Lake vous donnera 28 cœurs et 56 threads, ce qui est assez proche. Et nous pensons que la différence de prix par cœur est un peu plus élevée sur les variantes AP que sur les SKU standard avec un peu moins de cœurs. (Encore une fois, rien n'est gratuit en matière de puces, à moins qu'un concurrent ne tente de graisser les patins de l'entreprise et de réduire les frictions, comme AMD le fait certainement avec ses puces Epyc.)

Le bac supérieur Xeon SP-9282 possède deux puces Cascade Lake à 28 cœurs cohabitant à l'intérieur d'un boîtier BGA. Il fonctionne à une base de 2,6 GHz et des turbos jusqu'à 3,8 GHz quand il le peut, et il consomme 400 watts. Nous pensons que c'est la puce dont tout le monde parlait lorsque nous avons entendu des rumeurs sur une variante Cascade Lake-AP coûtant plus de 20 000 $ la pop. Intel ne fournit pas de prix catalogue pour les modèles Xeon SP-9200 car ils ne sont disponibles que dans un système complet conçu par Intel, y compris les cartes mères maison. Il s'agit d'un type de machine tellement différent qu'il mérite un tel traitement spécial, explique Kartik Ananth, l'ingénieur principal principal d'Intel en charge du nœud de serveur S9200WK et du boîtier du châssis de serveur FC2000 qui l'utilise, à The Next Platform. (Nvidia adopte la même approche avec l'interconnexion NVSwitch et les cartes système dans ses composants CPU-GPU hybrides DGX-2, qui ne sont disponibles que chez Nvidia lui-même.)

Avoir une enveloppe thermique de 250 watts n'est pas si grave - les accélérateurs sont dans cette gamme depuis une décennie, mais 350 watts l'étirent un peu et il n'est pas surprenant d'apprendre que le Cascade Lake-AP de 400 watts n'est que disponible en tant que processeur refroidi par liquide. En plaçant deux d'entre eux sur un seul traîneau de calcul et quatre d'entre eux dans un boîtier 2U, il est assez dense en termes de calcul et de thermique. Cela représente 3 200 watts et 448 cœurs dans la même taille qu'un boîtier 2U normal qui contient souvent un ordre de grandeur de cœurs en moins dans le centre de données de l'entreprise. Si vous pouviez obtenir la pleine puissance d'un rack de ceux-ci, cela pourrait prendre entre 64 kilowatts et 122 kilowatts pour faire l'affaire, mais vous auriez 8 960 cœurs par rack ; cela pourrait coûter de l'ordre de 2 millions de dollars avec des configurations de mémoire modestes et plus de 3 millions de dollars pour une configuration robuste. (C'est une supposition éduquée, mais certes sauvage.)

Voici un schéma fonctionnel montrant comment les Xeon SP-9200 sont logiquement liés dans un serveur à deux sockets :

Le réseau de grilles de balles du Cascade Lake-AP contient 5 903 balles, et il y a un dissipateur de chaleur géant qui peut évacuer la chaleur de l'appareil. Il y a six canaux de mémoire sur chaque puce Cascade Lake dans le BGA, pour un total de 12 canaux de mémoire par socket, donc Intel est en quelque sorte en train de gagner la bataille du canal mémoire et de la bande passante mémoire au niveau "socket" à ce stade. Mais deux choses à considérer. Tout d'abord, vous ne pouvez avoir qu'un seul module DIMM DDR4 par canal pour exécuter la mémoire rapide de 2,93 GHz prise en charge par l'architecture Cascade Lake, et le fait de doubler ces puces et ces contrôleurs dans le socket ne modifie pas d'un tout petit peu la bande passante de la mémoire par équation de cœur. Si quoi que ce soit, nous avons besoin de plus de bande passante par cœur, et cela n'accomplit pas cela. D'autres architectures de CPU doivent faire une affaire similaire car elles ajoutent des cœurs mais ne veulent pas ajouter de broches d'alimentation pour piloter plus de contrôleurs de mémoire, qui consomment beaucoup d'énergie et génèrent beaucoup de chaleur.

Chaque chiplet Cascade Lake-AP – peut-on appeler une telle bête un chiplet ? – a trois liaisons UPI, tout comme les autres parties de Cascade Lake, et elles fonctionnent à la vitesse maximale de 10,4 GT/sec. Les liaisons sont couplées de manière croisée de sorte qu'une voie est utilisée pour relier chaque puce à l'autre dans chaque boîtier BGA et les quatre autres sont utilisées pour créer la liaison NUMA entre les deux sockets logiques. La topologie ci-dessus n'est pas différente de celle que vous auriez en utilisant des liens UPI dans un serveur à quatre sockets. Ananth dit qu'il faut environ 70 nanosecondes pour accéder à la mémoire attachée à un processeur à l'intérieur du BGA à partir de l'autre, mais il faut environ 130 nanosecondes pour passer à l'autre package BGA à la mode NUMA. Le type d'impact sur les performances que cela pourrait avoir n'est pas clair, mais d'une manière générale, les chiffres semblent correspondre à ce que vous attendez, avec deux fois plus de processeurs utilisant deux fois plus de bande passante. Voici comment un Skylake Xeon SP-8180 se compare à un Cascade Lake-AP Xeon SP-9282 :

Voici une analyse détaillée des tests de bande passante mémoire, car il s'agit d'un aspect clé de l'argumentaire de vente Cascade Lake-AP : le graphique ci-dessous montre l'interaction de la bande passante sur le test de mémoire STREAM avec le nombre de cœurs dans un Cascade Lake Système AP :

Soit dit en passant, les processeurs Xeon SP-9200 Platinum ne prennent pas en charge les modules de mémoire persistante Optane 3D XPoint, qui sont présentés comme une extension de mémoire dans la plate-forme de serveur "Purley" standard utilisant des processeurs Cascade Lake standard. En fait, ces processeurs ne prennent en charge qu'un maximum de 768 Go par socket, pas même la plus grande capacité de mémoire DDR4 de certains des autres processeurs des séries Platinum et Gold des familles Skylake et Cascade Lake. Nous avons vu des présentations plus tôt cette année qui suggéraient que certains clients pourraient vouloir utiliser huit des douze canaux dans un socket pour la mémoire DDR4 et les quatre autres pour les PMM Optane, mais apparemment, cela doit être un SKU personnalisé. À notre connaissance, il n'y a aucune raison technique pour laquelle les processeurs Cascade Lake-AP ne peuvent pas prendre en charge les PMM Optane.

Il est intéressant pour nous que cela ne soit pas présenté comme un SKU de moteur de recherche, étant donné que ceux qui exécutent des moteurs de recherche aiment généralement obtenir autant de cœurs que possible dans une seule image système. (Il existe un moteur de recherche spécial SKU, comme nous l'avons souligné dans notre couverture des puces génériques Cascade Lake, mais nous pensons qu'il coûte un dixième du prix de la puce supérieure doublée et n'a qu'un tiers des cœurs.

On ne sait pas encore qui vendra des serveurs basés sur les processeurs Xeon SP 9200, mais cette machine est la conception d'Intel et les OEM et ODM doivent à peu près la prendre telle quelle, et sans avoir d'espace pour prendre en charge leur entreprise locale. BMC de qualité. Nous pouvons voir certains OEM faire des engagements personnalisés, mais nous ne nous attendons pas à beaucoup d'action ici. C'est peut-être là que les ODM font la vente, et en particulier en Chine où les machines à quatre sockets sont populaires parmi les hyperscalers et les constructeurs de cloud. Ce n'est cependant pas plus compact qu'un serveur 2U à quatre sockets, disponible depuis de nombreuses années. Tout dépendra des prix et de qui donnera à Intel le droit de se vanter d'ici à Ice Lake.

Quoi qu'il en soit, voici les spécifications techniques du boîtier S9200WK :

Et voici les spécifications des traîneaux qui entrent dans l'enceinte :

La densité de calcul dépend de la quantité d'interconnexion périphérique et de stockage local que vous souhaitez sur les nœuds et si vous avez ou non les parties de 400 watts. Vraisemblablement, si vous voulez un refroidissement liquide sur les pièces de 250 watts ou 350 watts, juste pour être efficace, vous pouvez le faire.

Voici la chose, cependant. Si le logiciel est tarifé par socket et si un fournisseur de logiciels commercial traite la machine Cascade Lake-AP comme un serveur à deux sockets alors que, logiquement, il s'agit vraiment d'un serveur à quatre sockets, alors c'est parfait. Cela réduira certainement les factures VMware et Red Hat, et cela devrait être de moitié pour les choses avec une tarification basée sur les sockets. Mais si le logiciel est tarifé par cœur, le passage aux processeurs AP ne sert à rien du tout, et sur le code local, cela ne fait aucune différence.

Avec les faits saillants, les analyses et les histoires de la semaine directement de nous dans votre boîte de réception, sans rien entre les deux.Inscrivez-vous maintenant