在全球对高性能AI计算解决方案需求激增的背景下,Nvidia的首席执行官黄仁勋(Jensen Huang)近日确认,公司的最新Blackwell AI芯片已成功修复了一项设计缺陷。此缺陷导致了生产延迟,但在长期合作伙伴台积电(TSMC)的帮助下,Nvidia迅速解决了这一问题。
据香港IDC新天域互联了解,Blackwell芯片于3月正式发布,原计划在第二季度发货。然而,黄仁勋在接受采访时坦承:“我们在Blackwell上存在设计缺陷,虽然芯片功能正常,但导致了低良率,这完全是Nvidia的责任。”这个问题不仅影响了Nvidia的生产进度,还可能对Meta、谷歌和微软等主要客户造成影响。
根据黄仁勋的说法,Blackwell项目的复杂性可能是导致缺陷的原因之一。他指出:“为了让Blackwell计算机正常工作,我们设计了七种不同类型的芯片,并需要同时投入生产。”这种复杂的设计要求使得产品的顺利交付变得更加困难。
此次设计缺陷主要源于Blackwell B100和B200 GPU使用的复杂封装技术。Nvidia采用了台积电的CoWoS-L封装技术,该技术通过使用局部硅互连桥实现约10 TB/s的数据传输速率。问题出现在不同组件间的热膨胀特性不匹配,导致系统变形和故障。
为了解决这一问题,Nvidia对GPU硅片的顶部金属层和凸点进行了修改,从而提升了生产良率。虽然具体的修复细节未公开,但Nvidia确认需要新掩模来支持这一改进。值得注意的是,这一技术问题的解决速度相当快,黄仁勋表示:“台积电帮助我们迅速恢复了良率,并以惊人的速度重新开始生产Blackwell。”
随着设计缺陷的解决,Blackwell GPU的量产预计将在10月底开始,发货则计划在2025年早期进行。尽管经历了生产延迟,市场对Blackwell芯片的需求依然强劲。黄仁勋曾形容需求“疯狂”,客户们急于抢占新技术的先机。
例如,谷歌已经下单超过40万颗GB200芯片,交易金额超过100亿美元;Meta也下了同样金额的订单,而微软计划在2025年第一季度收到55,000至65,000颗GB200 GPU,以支持OpenAI的需求。
Nvidia的Blackwell芯片在解决设计缺陷后,预计将为公司在AI计算市场的领先地位提供强有力的支持。随着高性能计算技术的不断演进,Nvidia正朝着满足客户需求和推动行业发展的目标稳步前行。这一进程不仅展现了Nvidia在技术创新方面的能力,也反映了其在快速变化的市场环境中灵活应对挑战的决心。