La puce d'intelligence artificielle Blackwell de Nvidia connaît des problèmes de surchauffe
Paul Grieselhuber
Nvidia's Blackwell AI chip, introduit en mars 2024 et célébré comme un saut révolutionnaire dans le matériel d'IA, est confronté à des défis critiques. Des rapports révèlent des problèmes de surchauffe lorsque plusieurs puces sont connectées dans des racks de serveurs, ce qui oblige Nvidia à demander des modifications aux principaux fournisseurs de cloud comme Meta, Google et Microsoft.
La puce Blackwell, en particulier sa variante GB200, devait offrir des performances sans précédent. En combinant deux GPU avec un seul processeur Grace, elle promettait une puissance de traitement jusqu'à 30 fois supérieure à celle des architectures existantes pour les grands modèles de langage. Ce saut de vitesse spectaculaire positionne Blackwell comme la pierre angulaire de l'infrastructure d'IA de la prochaine génération, permettant une formation et un déploiement plus rapides des modèles d'IA.
Cependant, des problèmes de surchauffe dans les configurations de serveurs conçues pour contenir jusqu'à 72 GPU ont perturbé ces plans, retardant les déploiements initialement prévus pour le deuxième trimestre 2024. Pour les fournisseurs de services cloud qui comptent sur Blackwell pour faire progresser leurs capacités d'IA, ces retards ont suscité des inquiétudes quant à l'évolutivité et aux délais opérationnels.
Nvidia affirme cependant que de telles itérations techniques sont typiques des premières phases de déploiement. Malgré cette assurance, les difficultés ont eu un impact tangible : L'action de Nvidia a chuté de 3 % à la suite de la nouvelle. La capacité à résoudre ces problèmes thermiques déterminera si Blackwell remplit sa promesse de remodeler l'infrastructure de l'IA et de maintenir la domination de Nvidia dans le secteur.
La puce Blackwell de Nvidia représente une étape technologique majeure, mais ses défis soulignent la complexité de repousser les limites de l'innovation. Pour les géants du cloud et l'industrie de l'IA, les enjeux restent élevés dans l'attente d'un éventuel déploiement de la puce.
Références
- New Nvidia AI chips overheating in servers, the Information reports (Les nouvelles puces d'IA de Nvidia surchauffent dans les serveurs, rapporte The Information). Reuters (2024). Available online. Consulté : 18 novembre 2024.
- Blackwell est la clé de la prochaine phase de croissance de Nvidia. La nouvelle puce d'intelligence artificielle aurait connu un problème de surchauffe. Business Insider (2024). Available online. Consulté : 18 novembre 2024.
- Blackwell de Nvidia : Une nouvelle centrale d'IA. The Verge (2024). Available online. Consulté : 18 novembre 2024.
- Les puces d'IA Blackwell de Nvidia surchauffent dans les serveurs. Yahoo News (2024). Available online. Consulté : 18 novembre 2024.