1400 RISC - Machine de découpe Weifang Co., Ltd

Untether AI au Canada a développé un appareil d'IA avec plus de 1400 processeurs RISC-V appelé Boqueria pour le calcul « en mémoire ».

Boqueria, discuté lors de la conférence HotChips aujourd'hui, est construit sur le processus 7 nm de TSMC avec 238 Mo de SRAM. L'appareil a une performance de 2 PetaFlops pour les types de données AI FP8 8 bits avec une puissance de 30 TFLOPs/W qui vient du maintien du traitement plus près des cœurs AI avec 729 banques de mémoire RISC-V doubles.

Étant donné que le calcul en mémoire est nettement plus économe en énergie que les architectures von Neumann traditionnelles, davantage de TFlops peuvent être effectués pour une enveloppe de puissance donnée. Avec l'introduction des appareils runAI en 2020, Untether AI a vu un niveau d'efficacité énergétique à 8 TOPs/W pour le type de données INT8.

L'architecture speedAI utilisée dans Boqueria améliore cela, fournissant 30 TFlops/W. Cette efficacité énergétique est le produit de l'architecture de calcul en mémoire de deuxième génération, de plus de 1 400 processeurs RISC-V optimisés avec des instructions personnalisées, d'un flux de données économe en énergie et de l'adoption d'un nouveau type de données FP8, qui contribuent tous à une efficacité quadruple par rapport à la appareil runAI de génération précédente.

Chaque banque de mémoire de l'architecture speedAI dispose de 512 éléments de traitement avec une connexion directe à la SRAM dédiée. Ces éléments de traitement prennent en charge les types de données INT4, FP8, INT8 et BF16, ainsi que des circuits de détection de zéro pour la conservation de l'énergie et la prise en charge de la parcimonie structurée 2:1.

Disposé en 8 rangées de 64 éléments de traitement, chaque rangée a son propre contrôleur de rangée dédié et une fonctionnalité de réduction câblée pour permettre une flexibilité dans la programmation et un calcul efficace des fonctions de réseau de transformateur telles que Softmax et LayerNorm. Les lignes sont gérées par deux processeurs RISC-V avec plus de 20 instructions personnalisées conçues pour l'accélération de l'inférence. La flexibilité de la banque de mémoire lui permet de s'adapter à une variété d'architectures de réseaux neuronaux, y compris les réseaux convolutifs, de transformateur et de recommandation ainsi que les modèles d'algèbre linéaire

Le premier membre de la famille, le speedAI240, fournit 2 PetaFlops de performance FP8 et 1 PetaFlop de performance BF16. Cela se traduit par des performances plus élevées, par exemple en exécutant le framework BERT à plus de 750 requêtes par seconde par watt (qps/w), 15 fois plus que l'état de l'art actuel des principaux GPU.

Les recherches d'Untether AI ont déterminé que deux formats FP8 différents offraient le meilleur mélange de précision, de portée et d'efficacité. Une version à 4 mantisses (FP8p pour "précision") et une version à 3 mantisses (FP8r pour "gamme") ont fourni la meilleure précision et le meilleur débit pour l'inférence sur une variété de réseaux différents. Pour les réseaux convolutionnels comme ResNet-50 et les réseaux de transformateurs comme BERT-Base, la mise en œuvre de FP8 par Untether AI entraîne moins de 1/10e de 1 % de perte de précision par rapport à l'utilisation des types de données BF16, avec une multiplication par quatre du débit et de l'efficacité énergétique. .

L'appareil speedAI240 est conçu pour s'adapter aux grands modèles. L'architecture de la mémoire est à plusieurs niveaux, avec 238 Mo de SRAM dédiés aux éléments de traitement offrant 1 pétaoctet/s de bande passante mémoire, quatre blocs-notes de 1 Mo et deux ports larges de 64 bits de LPDDR5, fournissant jusqu'à 32 Go de DRAM externe.

Il existe 16 voies PCIe Gen5 pour la connectivité hôte à 63 Go/s avec trois ports PCIe Gen5 x8 pour la connectivité puce à puce et carte à carte, chacun fournissant 31,5 Go/s.

« Les mérites du calcul en mémoire ont été prouvés avec le dispositif runAI de première génération, et l'architecture speedAI de deuxième génération améliore l'efficacité énergétique, le débit, la précision et l'évolutivité de notre offre », a déclaré Arun Iyengar, PDG d'Untether AI. "Les appareils speedAI offrent une capacité inégalée par toute autre offre d'inférence sur le marché."

Untether AI dispose d'un kit de développement logiciel (SDK) appelé imAIgine qui fournit un chemin vers l'exécution de réseaux à hautes performances, avec quantification par bouton-poussoir, optimisation, allocation physique et partitionnement multi-puces. Le SDK imAIgine fournit également une boîte à outils de visualisation complète, un simulateur de cycle précis et une API d'exécution facilement intégrée et est disponible dès maintenant.

Les appareils speedAI seront proposés sous forme de puces autonomes ainsi qu'une variété de cartes de facteur de forme m.2 et PCI-Express. L'échantillonnage des appareils et des cartes speedAI240 pour les clients à accès anticipé devrait commencer au premier semestre 2023.