顶级AI撞上低级乌龙:连写几十页推导,结果发现题干错了?
创始人
2026-05-06 10:02:46

新智元报道

编辑:倾倾

【新智元导读】Google DeepMind再次血洗数学圈!700个地狱级难题被丢进Gemini的熔炉,结果让数学家集体破防:这哪是证明,这分明是「逻辑拆迁」。DeepMind这一波不仅贴脸爆杀了OpenAI,还砸烂了人类所有的优越感。

几百美金的悬赏,跨越半个世纪的死局。

20世纪最伟大的「题目魔术师」保罗·埃尔德什(PaulErdős)生前留下了几百个悬赏令,金额从50刀涨到5000刀。

50年里,无数数学天才熬秃了头,也没能拿走一分钱。

结果,Google DeepMind带着名为Aletheia(真理女神)的怪兽进场了。

上线仅7天,13道难题应声而碎。

论文链接:https://arxiv.org/abs/2601.22401

但最扎心的真相是:AI并不是比你更聪明,它只是比你更懂「洗稿」。

13/700的真相:AI真的在加速科学吗?

「AI攻克百年数学难题」看起来很像爽文标题,听听就行,别被带了节奏。

数学这行只看硬指标。DeepMind这次祭出的Aletheia,底色根本不是什么「天才数学家」,而是一个冷酷的「顶级逻辑洗煤厂」

这套逻辑极其残酷,带着一股子硅谷大厂KPI导向的血腥味:

初始的流量层里,装着700个埃尔德什猜想。

随后,Gemini开启Deep Think模式,像不要钱一样大规模灌入算力,得出200个候选方案。

然后,这200个候选人经过自然语言验证器,剔除逻辑不通的部分,最后只剩下63个。

最后,经过专家级别的数学推演,得到13个真正具有数学原创意义的答案。

成功证明问题:Erdős problem#1051

700个问题里只解答出13个,转化率还不到2%。

其中,最具代表性的是对「Erdős-1051」猜想中关于无理数分布的证明。

听着很牛X,但DeepMind自己也承认,剩下的68.5%都是学术垃圾。

有些AI给出的证明过程长达几百页,读起来像是东拼西凑的论文。

在整个过程中,Aletheia像一个「自动审稿员」。Gemini负责狂暴输出,而验证器负责冷酷拒绝。

Gemini DeepThink处理数学猜想具体过程:https://www.youtube.com/watch?v=Nmv4YxpbhU8

更讽刺的是,人类数学家复核后发现,这13个所谓的「突破」,很大一部分属于数学界的「低垂果实」——太繁琐所以没人想做。

一位参与评审的组合数学专家曾私下感叹:

AI目前的强项不是创造,而是清扫。

只要算力管够,这种靠暴力逻辑搜集、整理、强行出结果的路径,AI基本无敌。

潜意识剽窃:AI数学家的「洗稿」艺术

在这次DeepMind的成果展示中,出现了一个让学术界集体炸锅的新名词:潜意识剽窃。

简单说,就是AI利用自己几乎无限的硬盘,从某个犄角旮旯翻出一篇冷门论文,然后用现代的逻辑语言把它重新包装了一遍。

最典型的翻车现场是关于Erdős-1089猜想的证明。

当时Aletheia给出了一个极其精妙的推导,精妙到连几个顶尖数学家都差点想给它颁奖。

但随后,有人在数据库的深层挖掘中发现,这个所谓的「原创灵感」,与1981年一篇东欧冷门数学期刊上的论文高度重合。

这就是AI作为一个「黑盒」最让人绝望的本能。

对AI来说,它并没有原创和抄袭的概念。它只是在概率的指引下,把权重最高的Token组合在一起。

AI记住了所有你忘了的东西。当它从千亿级参数中提取出那个冷门关联时,它自己都不知道是在致敬还是在白嫖。

GoogleDeepMind-Aletheia项目详情,在此页面可以找到更多具体输出案例:https://github.com/google-deepmind/superhuman

只要喂的数据够多,AI就能通过变换符号系统、调整推导步长,把一篇旧论文洗得像刚出炉的SCI。

菲尔兹奖得主陶哲轩一语道破:

AI并不是在做数学,它是在对人类过往的智慧进行大规模的归纳整合。

细思极恐。如果连数学这种硬核真理领域,AI都能靠「洗稿」蒙混过关,那我们写的行业报告、架构方案、市场分析,在它眼里算什么?

大师也翻车:被诅咒的Erdős-75号

接下来这个「Erdős-75号灵异事件」,暴露出AI的智商硬伤。

这道题在数学圈臭名昭著,因为它被「诅咒」了。

1995年,埃尔德什在写下这个猜想时,犯了一个低级逻辑错误,这道题题干就是错的,是个伪命题。

魔幻的一幕发生了:Aletheia接手后,不仅没发现题目有问题,反而凭借其狂暴的算力和自我博弈机制,硬生生地输出了一份长达几十页、逻辑闭环的「完美证明」。

这种「逻辑狂奔」暴露了当前AI的致命缺陷:

首先,AI缺乏审美与常识。它只会在符号框架内找最优解,却根本分不清这个框架本身是不是一张废纸。

其次,奖励函数具有盲目性。AI的目标是让验证器闭嘴。只要推导过程符合规则,结论哪怕再荒谬,它也敢一路狂飙到底。

最后发现Bug的,还得是那帮数学家。他们翻出1995年的手稿,一行行对完后得出结论:「这题出错了,AI证的是个寂寞。」

而这一点,恰恰是我们和AI竞争时的最后防线。AI能在几毫秒内跑完几千公里的逻辑马拉松,但它不知道终点线是不是画在悬崖外面。

DeepMind贴脸开大:OpenAI的「数学公关战」破产题

前阵子,OpenAI靠着o1在数学AIME考试里刷屏,宣称AI已经有了类似人类的「慢思考」能力。

但在DeepMind看来,那顶多算是一场极其成功的文献开盒。

为了打脸OpenAI,Google专门在Aletheia的输出分类里设立了一个很损的标签:「已知文献关联」。

它明摆着在讽刺OpenAI:你以为你解决了问题,其实你只是从训练集里翻出了标准答案。

而DeepMind表示,我不仅能证出来,我还能告诉你哪些是人类证过的、哪些是我洗稿洗出来的、哪些才是真正的原创。

这场「数学公关战」撕开了大厂竞争的遮羞布。

OpenAI的数学能力很大程度上依赖于「题海战术」,一旦遇到训练集之外的真命题就容易抓瞎。

而DeepMind走的是「AlphaGo路线」——自我博弈+形式化验证(Lean),宁可转化率只有2%,也要确保这13个成果是硬通货。

DeepMind官方技术文档:Aletheia用于数学的自我对弈与形式化证明

数学界的「扫地僧」陶哲轩一直关注着这场博弈。

他在自己的他在博客里含蓄地表示:相比于追求「看起来正确」的概率模型,他更看好那种能生成「可由计算机验证证明」的系统。

这等于是给DeepMind站了台。

瓶颈位移:从「解题机器」到「审美法官」

折腾了半天,这场13/700的战役到底告诉了我们什么?

是——数学发现的瓶颈,正在从「解题能力」位移到「价值判定」。

这种范式转移,预示了未来所有硬核从业者的两种求生路径:

一种是从「操作员」变成「审美法官」。

既然AI能以极低成本生成海量逻辑证明,人类的价值就不再是去复核每一个符号,而是运用直觉和审美,去判断哪个方向才有真正的科学突破。

另一种形态是逻辑审计员。

面对潜意识剽窃和大师Bug,人类需要利用对历史的精通,去甄别AI到底是真天才,还是个洗稿高手。

AI能在几毫秒内重走完人类几千年的逻辑之路,但它依然读不懂人类在深夜推演失败时,那份撕掉草稿纸的无奈。

逻辑可以代工,但灵魂和审美,AI暂时还没学会怎么洗。

参考资料:

https://arxiv.org/abs/2601.22401

秒追ASI

⚠️
本网站信息内容及素材来源于网络采集或用户发布,如涉及侵权,请及时联系我们,发送链接至2697952338@QQ.COM,我们将第一时间进行核实与删除处理。

相关内容

热门资讯

加大国际市场开拓力度 山东单季...   今年以来,面对复杂多变的外部形势,山东不断引导外贸企业利用自身优势,抢抓行业机遇和国际消费需求,...
创纪录新高!三星Q1营业利润同... 财联社4月30日讯(编辑 刘蕊)本周四,三星电子公布第一季度财报。 财报显示,其第一季度营业利润同比...
AWS业务创15个季度以来最快... 当地时间4月29日,亚马逊在盘后公布了2026年第一季度财报。受AWS增速超预期影响,亚马逊股价盘后...
黄金强势拉升至4580上方!美... 周二(5月5日),黄金(XAU/USD)小幅走高,但随着中东局势再度升级,市场对“更长时间维持高利率...
身亡现场发现遗书,金建希案法官... 5月6日,据新华社,据韩国媒体6日报道,韩国警方在韩国前总统尹锡悦妻子金建希操纵股价案二审法官申宗旿...
价值竞争成核心方向,中国黄金(... 在黄金珠宝行业,行业竞争已经从过去的价格竞争转向了价值竞争。消费者不再只看金价高低,而是更加关注产品...
AI自主炒二手:从议价到送奶茶... 当普通人还在用大模型写周报、薅羊毛时,华尔街的警报已经拉响。 4月24日,老牌电商巨头eBay的股价...
营收突破7亿元,毛利率下行,微... 撰稿 | 贝多 来源 | 贝多商业&贝多财经 又一家苏州企业闯关上市。 5月2日,微康益生菌(苏州)...
直线拉升!大牛股,利好突袭! 芯片行业,有新动态! 就在刚刚,英特尔在美股夜盘交易时段直线拉升,盘中涨幅一度接近4%。截至记者发稿...
亚马逊开放物流网络,传统电商模... 作为全球知名的电商巨头亚马逊的一举一动,一直受到外界的关注。无论是其对于AI等新技术的布局,还是其对...