英伟达与AI算力能耗之困
中国战略新兴产业融媒体记者 赵涵
万众瞩目的英伟达GPU技术大会(GTC)如期举行,备受期待的最新AI芯片也被如期推出。这不仅是英伟达 GTC 五年以来首次回归线下活动,也被外界普遍看作是 2024 年开年最重要的一场AI峰会。
英伟达发布史上最强AI芯片
将深度学习应用到许多领域的科技公司,几乎每一个都是在英伟达的平台上构建的。一位华尔街分析师对此表示:“人工智能领域正在进行一场战争,而英伟达是唯一的军火商。”华尔街的追捧在2023-2024年之间上升到极致。短短八九个月,英伟达的市值从万亿美元飙升到两万亿美元。目前,英伟达已经成为全球市值第三大的公司,仅次于微软和苹果。
当地时间3月18日,英伟达CEO黄仁勋发表主题演讲《见证AI的变革时刻》。在两个小时的演讲中,黄仁勋围绕五大板块,介绍了英伟达的最新研发进展:新的产业发展、Blackwell平台、创新软件NIMs、AI平台NEMO和AI工坊(AI foundry)服务,以及仿真平台Omniverse和适用于自主移动机器人的Isaac Robotics平台。
对于最新一代AI芯片Blackwell GPU的亮相,黄仁勋一边说着“Hopper很棒,但我们需要更大的GPU”,一边在现场展示了英伟达的首款Blackwell芯片,这款芯片被命名为B200,计划于今年晚些时候上市。
英伟达目前按照平均两年一次的更新频率升级GPU架构,对产品性能进行大幅提升。英伟达于2022年发布了基于Hopper架构的H100加速卡,而现在推出基于Blackwell的加速卡在性能上也得到了全面提升,更擅长处理AI相关任务。
>>左边B200,右边H100。英伟达直播截图
从外观来看,Blackwell GPU的体积明显大于H100,采用台积电的4纳米(4NP)工艺蚀刻而成,整合了两个独立制造的裸晶(Die),共有2080亿个晶体管。英伟达使用传输速度达到10 TB每秒的NVLink 5.0技术来连接每块裸晶。
据黄仁勋介绍,一个B200 GPU能够从其2080亿个晶体管中提供高达20 petaflops(每秒千万亿次浮点运算)的FP4八精度浮点运算能力。相比之下,英伟达H100芯片所包含的晶体管数量为800亿个,提供4 petaflops的FP4八精度浮点运算能力。
>>AI芯片技术的发展图。英伟达直播截图
黄仁勋自豪地晒出了AI芯片技术的发展图,并表示:“在过去,计算能力平均每十年性能提升100倍。而在过去的八年中,我们已经将性能提升了1000倍,距离十年还有两年。”
黄仁勋表示,Blackwell带来了“令人难以置信的兴奋”:“我们将会把Blackwell推广给全球的AI公司,现在有很多这样的公司都在不同领域做着令人惊奇的工作……全球各地都在签约启动Blackwell,这款Blackwell将成为我们历史上最成功的产品发布。”
在这场发布会上,黄仁勋还有一句话值得留意:“Blackwell 不仅是一款芯片,也是一个平台的名称。”英伟达从芯片供应商转向平台供应商的背后,其实和英伟达的竞争对手有关,甚至许多旧日客户也变成了对手。英伟达正尽全力守住自己的市场地位。
目前,一些人工智能平台如微软、谷歌、Meta等,出于规模和成本的考虑,正在考虑自己开发芯片。例如谷歌研发的TPU已经更新到第五代,这款芯片为机器学习量身定制,其推理性能提升2.5倍,成本降低50%。再比如微软于2013年11月推出两款芯片(Azure Maia 100人工智能加速器和Azure Cobalt 100中央处理器),针对人工智能、生成式人工智能和云计算进行了优化,将在人工智能图形处理部分与英伟达直接竞争,而这些公司,正是英伟达一直以来的主要GPU芯片客户。
此外,一些英伟达的老对手也在发力AI芯片。AMD于2023年12月,推出AI芯片MI300X,正式与英伟达叫板。
人工智能时代的“算力焦虑”
此次英伟达更大算力GPU的推出,也显示出算力需求持续暴增,算力基础设施产业链有望持续受益。
AI应用侧快速发展带来长期、海量的计算需求,其中,高算力的技术基础设施能够加快数据处理和分析的速度,推动复杂算法模型的应用和优化,为人工智能的创新提供更广阔的空间。
过去几十年,在摩尔定律推动下,芯片算力以每18个月增加一倍的速度快速前进。即便如此,近年来,由于人工智能技术不断突破并在更大范围普及,催生了算力需求的爆发式增长,而算力供给短期难以跟上需求节奏,产生了“算力焦虑”。
人工智能发展消耗算力的根本原因在于,它改变了解决问题的基本范式。计算机不能自主产生知识,但可以通过大量的计算来获得数据背后的统计规律。机器对已有数据、知识进行学习,通过大量训练样本,不断修正模型,利用模型在相似情景下作出决定或预测。像ChatGPT这样的工具,都是以大数据+大计算量为基础。也就是说,只要算力足够强大,很多问题都可以转化为计算问题。以前我们认为机器难以解决的很多问题,比如自动驾驶、语音图像识别、内容创作等,现在靠人工智能,依托强大算力,都可以实现。
根据OpenAI发布的报告,自2012年以来AI训练任务所运用的算力每3-4个月就会翻一番;2012-2018年,AI算力需求增长了30万倍。另有研究预测,从2018年到2030年,智能出行对算力的需求将增长390倍,智慧工厂的算力需求将增长110倍。如今,人工智能的发展日新月异,每一次技术突破都需要充足的算力资源作为能量补给,大模型的快速迭代引起算力需求激增,算力供给难以追上算力需求的增长速度,“算力焦虑”成为眼下人工智能发展面临的一大难题。
从国家层面来看,算力已成为衡量国力的重要体现,正在被当作国家科技竞争的关键因素。全球范围内的各国都在制定各自的人工智能战略和政策,以推动AI产业发展。这些战略中,加强AI基础设施的建设被普遍视为关键的组成部分,包括计算资源、数据资源、人才资源等。在此背景下,人工智能产业发展受到国家层面的重视,相关政策利好频现。
今年《政府工作报告》中也出现了对算力的表述,即“适度超前建设数字基础设施,加快形成全国一体化算力体系。”这也是“一体化算力体系”首次写进《政府工作报告》,凸显了我国对算力网络建设的重视与支持。
工信部部长金壮龙也在今年全国两会“部长通道”上明确表示,我国要巩固提升信息通信业的竞争优势和领先地位,适度超前建设算力信息设施。适度超前建设数字基础设施 ,加快形成全国一体化算力体系,是加快发展新质生产力的重要抓手,将为科技创新和数字经济发展提供坚实的基础。
去年底,国家发展改革委等五部门发布《关于深入实施“东数西算”工程加快构建全国一体化算力网的实施意见》,着眼于通用算力、智能算力、超级算力一体化布局,东中西部算力一体化协同,算力与数据、算法一体化应用,算力与绿色电力一体化融合,算力发展与安全保障一体化推进等五个“一体化”,提出到2025年底,用户使用各类算力的易用性明显提高、成本明显降低,国家枢纽节点间网络传输费用大幅降低,综合算力基础设施体系初步成形。
中国联通研究院副院长、首席科学家唐雄燕表示,适度超前建设意味着预先规划并部署相应的基础设施,以满足未来可能出现的庞大计算需求。可以促进科技创新和产业升级,抢占技术高地,引导和支持新技术、新业态、新模式的发展。
AI能耗难题
记者注意到,这次发布的芯片特别提到了功耗问题。
一个GB200加速卡结合了两个B200 GPU和一个独立的Grace CPU,相比于H100,它可以“将成本和能源消耗降至1/25”。这就意味着,以前训练一个拥有1.8万亿参数的模型需要8000个Hopper GPU 和15兆瓦的功耗。黄仁勋还表示,同样的工作只需要2000个Blackwell GPU就能完成,功耗仅为4兆瓦。
AI背后是什么?是算力。而算力背后又是什么?是能耗。
随着算力、性能的不断提升,人工智能飞速发展的背后,能源和水资源的消耗问题也日益凸显,成为了业内关注的焦点。
近期,黄仁勋在一次公开演讲中指出,AI未来发展与光伏和储能紧密相连。他强调,不应仅仅关注计算力,而是需要更全面地考虑能源消耗问题。黄仁勋表示,“我们不能只想着算力,如果只考虑计算机,我们需要烧掉14个地球的能源。”
无独有偶。OpenAI的创始人山姆·奥特曼也提出了类似的看法。奥特曼表示,“未来AI的技术取决于能源,我们需要更多的光伏和储能”。据《纽约客》报道,ChatGPT每日耗电量或超过50万千瓦时,相当于美国家庭平均用电量的1.7万倍,以响应用户的约2亿个请求。
与此同时,特斯拉CEO马斯克预计,两年内将由“缺硅”变为“缺电”,而这可能阻碍AI的发展。此前,马斯克多次强调解决日益增长的电力需求的紧迫性。他认为,需要加快项目进度,以跟上不断增长的电力需求。
2023年10月,阿姆斯特丹自由大学商业与经济学院的博士候选人德弗里斯(Alex de Vries) 发表在《焦耳》杂志上的一项研究表明,人工智能(AI)对环境的影响可能比之前认为的要大。研究发现,随着人工智能崛起,到了2027年,AI服务器所消耗的用电量将等同于荷兰全国的能源需求量,这可能会破坏全球减少碳排放的努力。
AI大模型席卷了整个科技领域,在办公、医疗、金融、教育等行业中,基于AI大模型的新型应用也层出不穷,给社会经济发展带来了新的助力。但是不可否认的是,就像AI给人类社会带来效率提升的同时也带来治理和道德危机一样,人工智能的发展也许需要耗费大量能源和水资源,甚至可能引发新一轮的能源危机。如何构建可持续的AI系统,降低能耗、提高效率,已成为AI领域亟待解决的挑战之一。