刚刚Gemini上新模型,全球只有7人比它会编程,谷歌姚顺宇参与
创始人
2026-02-13 14:02:03

编辑|泽南

从此以后,AI 不再是工具,要尊称为「硅基博学家」了。

北京时间周五凌晨,谷歌发布了 Gemini 3 Deep Think 的重大升级,作为专门用于复杂任务的推理模式,Deep Think 代表 AI 前沿的最强智能水平,旨在解决科学、工程领域的诸多挑战。

去年 9 月加入 Google DeepMind 的清华物理系传奇姚顺宇(Shunyu Yao)也是这次 Deep Think 新模型的参与者。

去年,谷歌展示了专门开发的 Deep Think 版本能够成功应对一些最棘手的推理挑战,并在数学和编程世界锦标赛上取得了金牌成绩。最近,Deep Think 又使专门开发的智能体能够进行研究级别的数学探索。

更新后的深度思考模式继续拓展智能的边界,在最严格的学术基准测试中取得了新的高度,其中包括:

  • 在「人类的最后考试」(一项旨在测试现代前沿模型极限的基准测试)中,该模型取得了新的 SOTA(48.4%,不使用任何工具)。
  • 在 ARC-AGI-2 测试中取得了前所未有的 84.6% 的成绩,并经 ARC Prize 基金会验证。
  • 在 Codeforces 上取得了惊人的 3455 Elo 分数,Codeforces 是一个包含各种竞技编程挑战的基准测试平台。
  • 在 2025 年国际数学奥林匹克竞赛中取得金牌水平。

新版 Gemini 3 Deep Think 在 ARC-AGI-1 上的成绩是 96.0%,每任务花费 7.17 美元;在 ARC-AGI-2 上已经达到了 84.6% 的分数,每任务成本为 13.62 美元。

大约 14 个月前,OpenAI 模型 o3-preview 的「高计算」版本在 ARC-AGI-1 测试中达到了约 88% 的分数,每个任务的成本约为 2000 至 3000 美元。而 Gemini 3 Deep Think 的每任务成本仅为 7.17 美元,成本降低了约 280 至 420 倍。

这意味着我们现在需要再次为 AI 准备更复杂的测试题了。

除了数学和编程竞赛之外,Gemini 3 Deep Think 现在在化学和物理等广泛的科学领域也表现出色。更新后的 Deep Think 模式在 2025 年国际物理奥林匹克竞赛和化学奥林匹克竞赛的笔试部分取得了金牌级别的成绩。它还展现了在高等理论物理方面的能力,在 CMT-Benchmark 测试中取得了 50.5% 的分数。

还有这个在 Codeforces 上获得的 3455 分,Gemini 3 Deep Think 已经相当于世界排名第八的顶尖竞技程序员的水平。之前的最佳成绩是来自一年多以前 OpenAI o3 的 2727 分,排名第 175。

地球上只有 7 个人能在编程比赛中击败 Gemini 3 Deep Think。

对于 AI 和整个科技领域而言,这是一个以往难以想象的成果。

谷歌与科学家和研究人员紧密合作,对 Gemini 3 Deep Think 进行了升级。Deep Think 将深厚的科学知识与日常工程实践相结合,超越了抽象理论,推动了实际应用。

借助更新后的 Deep Think,你可以将草图转化为可 3D 打印的实体模型。Deep Think 会分析图纸,对复杂形状进行建模,并生成用于 3D 打印的实体文件。

谷歌展示了一些早期测试用户使用最新版 Deep Think 的成果:

罗格斯大学的数学家 Lisa Carbone 致力于研究高能物理学界所需的数学结构,以弥合爱因斯坦引力理论和量子力学之间的鸿沟。由于该领域缺乏大量的训练数据,她利用 Deep Think 技术审阅了一篇高度专业的数学论文。Deep Think 成功地识别出了一个细微的逻辑缺陷,而这个缺陷此前在人工同行评审中均未被发现。

在杜克大学,Haozhe "Harry" Wang 带领的实验室利用 Deep Think 技术优化了复杂晶体生长的制备方法,以期发现新的半导体材料。Deep Think 成功设计了一种能够生长厚度大于 100 微米薄膜的工艺,达到了以往方法难以企及的精确目标。

或许随着更多人的使用,我们不久之后能够基于 Gemini 3 Deep Think 实现更多科研突破。

全新 Deep Think 现已在 Gemini 应用中上线,目前 Google AI Ultra 订阅用户可以使用。此外,谷歌首次通过 Gemini API 向部分研究人员、工程师和企业开放 Deep Think 的使用权限。

参考内容:

https://blog.google/innovation-and-ai/models-and-research/gemini-models/gemini-3-deep-think/

https://x.com/shaneguML/status/2021999801911718029

⚠️
本网站信息内容及素材来源于网络采集或用户发布,如涉及侵权,请及时联系我们,发送链接至2697952338@QQ.COM,我们将第一时间进行核实与删除处理。

相关内容

热门资讯

中优智控取得一种稳定高速交换机... 国家知识产权局信息显示,中优智控自动化(上海)有限公司取得一项名为“一种稳定高速交换机”的专利,授权...
公牛集团获得实用新型专利授权:... 证券之星消息,根据天眼查APP数据显示公牛集团(603195)新获得一项实用新型专利授权,专利名为“...
我国完成首次火箭一级箭体海上打... 据中国载人航天工程办公室消息,北京时间2026年2月11日,在长征十号运载火箭系统低空演示验证与梦舟...
自动驾驶概念股走强 12只概念... 人民财讯2月13日电,工信部日前发布公告,工信部装备工业一司组织全国汽车标准化技术委员会开展了《智能...
电子布连续提价 AI驱动玻纤产... 本报记者 冯雨瑶 2026年开年,一场由“布”引发的涨价潮席卷玻纤产业链。 2月12日,玻纤概念走强...
重磅!获港交所原则性同意 岚图... 2月12日,岚图汽车(07489.HK)完成港股上市的全部前置监管审批流程并更新招股书,上市确定性全...
小罐茶创始人、董事长杜国楹:全... 记者 许碧鑫 2025年,小罐茶提出并启动“三泡茶”产品矩阵战略,即围绕“自己泡、替你泡、不用泡”三...
于东来:胖东来永不上市 来源:南风窗 据大象新闻消息,2月12日晚,于东来在社交媒体发布胖东来的部分战略规划,称胖东来永远...
昆工科技获得实用新型专利授权:... 证券之星消息,根据天眼查APP数据显示昆工科技(920152)新获得一项实用新型专利授权,专利名为“...
真机RL杀疯了!机器人自学20... 新智元报道 编辑:犀牛 【新智元导读】TwinRL用手机扫一遍场景构建数字孪生,让机器人先在数字孪...