李开复谈中国AI优势,制造实惠推理引擎或成国内大模型最大竞争利器
创始人
2024-10-21 17:41:30

编辑|星奈

来源|金融时报

与西方同行相比,中国大模型公司面临着尖端芯片获取、资金投入等方面的窒碍,但是他们正在通过降低成本来打造具有国际竞争力的模型。

在头部的初创企业中,如零一万物(01.ai)和DeepSeek选择使用优质但较小数据集来训练AI模型、招聘一批二十多岁的技术狂人,不但能做独树一帜的科研,而且成本也较低。

科技巨头中,如阿里巴巴、百度和字节跳动,也燃起了大模型价格战,将调用大语言模型生成回答这段技术所需的“推理”成本降低了 90% 以上,仅为美国同行的价格的极小一部分。

国际情势下,中国公司还必须应对华盛顿对华禁止出口最尖端的英伟达 AI 芯片,因为这些芯片被认为是美国至今领跑全球 AI 大模型技术的关键。

位于北京的零一万物是由前谷歌中国总裁李开复领导。他表示,零一万物在较小的数据集上训练出了对算力要求较低的模型,并且创造了模基共建的方法,结合了硬件、芯片、内存、AI基础软件的垂直整合和优化,打造了Yi-Lightning(闪电模型)。该模型比OpenAI GPT4o便宜31倍的推理成本。

本周,在由加州大学伯克利分校 SkyLab 和 LMSYS 的研究人员所发布的大模型排名中,零一万物凭借 Yi-Lightning 模型与发布Grok-2、与马斯克创办的xAI并列为全球排名第三的大模型公司,仅次于 OpenAI 和谷歌的最新模型。

LMSYS是基于用户提出真实问题,然后针对不同模型的回答给出盲测投票,最终汇总成为对各个模型的评分。OpenAI、谷歌都在这里发布所有的模型,并接受LMSYS的排名。包括字节跳动、阿里巴巴和 DeepSeek 等其他中国大模型玩家,也悄悄爬上了 LLM 排名榜。

李开复告诉金融时报:“中国的优势在于制造真正实惠的推理引擎,这是AI应用蓬勃发展最重要的一件事。”

零一万物 Yi-Lightning 的推理成本是每百万个 token 收取 14 美分(0.99 元人民币),而 OpenAI 的较小模型 o1-mini 每百万个 token 则需要 26 美分。与此同时,OpenAI 的更大尺寸的模型 GPT-4o 的推理成本为每百万个 token 4.40美元。AI 大模型生成回答所用的 token 数量取决于查询的复杂度。

李开复还表示,Yi-Lightning 模型的“预训练”成本为 300 万美元,这指的是模型关键训练阶段的成本,之后可以根据不同的应用场景进行微调或定制。这预训练成本仅为 OpenAI 训练GPT-4的3%,而且Yi-Lightning性能还超越了GPT-4。他补充说,零一万物的科研北极星不是“无论多贵多大,打造世界第一模型”,而是要打造一个世界第一梯队的模型、但是成本超低,能打造出高性价比模型,让开发者构建应用而不被推理成本压垮。

包括零一万物、DeepSeek、MiniMax 和阶跃星辰在内的许多中国大模型公司,都采用了所谓的“混合专家”模型架构,一种被美国研究人员率先提出的模型架构。

与 “从互联网和其他来源抓取数据构建起庞大数据库上,并一次性地训练一个庞大的‘稠密模型’”不同,“混合专家”模型选择将多个对不同领域可称为“专家”的神经网络集合到一起。

研究人员认为,混合专家模型架构是以较少的算力,达到与稠密模型相同智能水平的关键技术。但这种方法训练失败的可能性更大,因为在模型训练过程中需要同时协调多个“专家”模型,而非集中关注单个模型的训练。因此不少美国公司(如meta的Llama)就没有开发出来,而中国公司似乎掌握了“混合专家”模型架构。尤其是零一万物和Deepseek,做出了世界最快的混合专家模型。

鉴于获取尖端AI 芯片供给的禁令和难度,中国 AI 领域的玩家在过去一年中一直在竞相开发高质量数据集来训练这些“专家”,使得自家模型具备与竞争对手不同的特色。

李开复表示,零一万物采用了远远优于传统网络抓取方法的数据收集方法,包括扫描书籍,爬取深网区的数据,使用新颖的合成数据技术等。

“工程师在数据标注和排序方面需要做很多不为人知的艰苦工作,”但他补充说,中国拥有大量技术厉害且刻苦耐劳的工程人才,在这方面比美国更有优势。

“中国的优势不一定能在预算不封顶的情况下做出前所未有的突破性研究,但肯定能更好、更快、更可靠和更低成本地实现落地”,李开复说。

Chinese AI groups get creative to drive down cost of models,https://www.ft.com/content/0a6da1bb-2bda-40f3-9645-97877eb0947c

来源:https://www.top168.com/news/show-190221.html

⚠️
本网站信息内容及素材来源于网络采集或用户发布,如涉及侵权,请及时联系我们,发送链接至2697952338@QQ.COM,我们将第一时间进行核实与删除处理。

相关内容

热门资讯

三星电子:全球半导体与消费电子... 一、公司概况三星电子(Samsung Electronics)成立于1969年1月,注册地为韩国京畿...
Vention推出集成化输送平... 自动化平台及硬件生态系统供应商Vention近日宣布扩展其输送机生态系统,推出一套面向装配线、仓储物...
vivo S60系列新机首发亮... IT之家 5 月 19 日消息,同样是在今天,vivo S60 系列新机首发亮相,并官宣将在 5 月...
阿里AI亮明账,腾讯AI蓄暗线 文 | 新博弈,作者丨王也 2026年5月13日,互联网领域最具分量的两家企业同日发布财报。 阿里...
微软全面深度解析:从操作系统霸... 公司概况微软公司(Microsoft Corporation)由比尔·盖茨(Bill Gates)和...
对话清华易鑫教授:比“剪刀手”... 清华大学网络科学与网络空间研究院副教授、博士生导师易鑫 出品|搜狐科技 作者|张雅婷 编辑|杨锦 近...
国际首创,成功下线!我国团队破... 5月18日,由大连理工大学高性能精密成形团队研发的火箭贮箱光板整体箱底在天津永兴科技有限公司成功批产...
涓扮敯姹借溅鍏ㄩ潰瑙f瀽锛氫粠... 鍏徃姒傚喌涓扮敯姹借溅鍏徃锛圱oyota Motor Corporation锛夋垚绔嬩簬1937...
星巴克深度解析:从西雅图街角咖... 公司概况星巴克(Starbucks Corporation)成立于1971年,注册地位于美国华盛顿州...
vivo S60搭载蓝河流畅引... IT之家 5 月 19 日消息,vivo OS 产品总监 @vivo百奇Bucky 昨晚发文预热 S...