原创 DeepSeek R1大升级!性能直追o3与Gemini,幻觉率近半削减
创始人
2025-05-31 10:42:01

前言

AI模型卷进深水区:DeepSeek-R1-0528,不再追赶,而是在逼近上限,国产大模型的升级节奏,比我们预想得更凶猛。

就在大家都以为DeepSeek R1只是一个中规中矩的技术形象时,0528小版本的悄然放出,却展现了一个明显不同的走向。

这次它不是拼速度,而是重推理、讲深度,在复杂任务中硬啃思维链条,释放出国产模型真正有望冲击国际顶尖梯队的信号。

我们得先明确一点:DeepSeek-R1-0528不是换底座,它还是那个DeepSeek V3 Base,只是这次它在后训练阶段砸下了更大的算力筹码,代价是昂贵的,但回报也实实在在。

在AIME 2025数学推理测试中,新版准确率从70%跃升至87.5%,这个成绩背后的深意绝不能被表面数字所掩盖——它代表了国产模型第一次在极其严苛的逻辑任务中“站稳了脚”。

更有趣的是,它不是靠“猜得准”,而是实打实把平均解题token长度从12K提升到了23K。

这几乎等于思维深度翻了一倍,意味着模型在每一道题目上的“思考”都更加细致,逻辑链条更长,也更少“跳步”。

这背后不仅是算力的投入,更是训练逻辑的优化成果——DeepSeek没有简单堆砌模型参数,而是围绕“推理路径”做了大量系统性的调整,尤其是对幻觉率、结构写作、工具调用等方面的多维调优。

说到幻觉,这是很多中文大模型目前还无法根治的“老毛病”。

但0528版的R1对幻觉率的抑制已经达到了45%-50%,在资讯改写、摘要总结等场景中,能显著减少不靠谱内容。

这点对内容从业者来说是重大利好——你终于可以更大胆地用模型来协助写作而不怕“瞎编”。

但这次升级最让我感兴趣的,并不是R1模型本身,而是DeepSeek把这个思维链条提取出来,蒸馏进了另一个8B模型——DeepSeek-R1-0528-Qwen3-8B。

我们知道,小模型能不能“学会思考”一直是业内悬而未解的问题。DeepSeek的做法是,把R1的“思维轨迹”作为训练目标,迁移给Qwen3-8B。

这波操作让后者在AIME 2024中表现直逼23B的Qwen3-235B,而本身只有8B体积,这说明什么?说明小模型“不是不能思考”,只是它们以前没有受过“深度思考的熏陶”。

可以预见,这种思维链条的“知识迁移”在未来会成为训练轻量模型的标配,既省资源,又提高了智能密度。

从更高的视角看,DeepSeek-R1-0528代表着国产模型向“解释型AI”迈出关键一步。它不是一个黑箱输出工具,而是在努力让用户“看见”它的逻辑过程。

新版API支持Function Calling和Json Output,同时max_tokens也终于从“输出长度限制”进化成“全流程长度上限”的定义。这些改变看似细节,却意味着模型服务正逐步从“结果导向”向“过程透明”过渡。

重点来了,官方提供的上下文依旧为64K,但R1-0528的开源版本上下文长度已经扩展到128K。

这对需要处理复杂长文档、多轮上下文的任务极具吸引力,也说明DeepSeek开始在“模型体验”层面与国际大厂看齐。

我们得承认,在高端模型上,DeepSeek还未完全与o3、Claude 4并肩;但它的某些指标、特别是在数学和工具调用的表现上,已经实现局部追平。

它没有造出新“巨兽”,却用一次小版本,把国产模型的“推理极限”往前推进了一大截。

结语:

DeepSeek-R1-0528的意义,可能不会立刻显现。

但当我们回顾这段AI演进历史时,也许会发现,正是这种一次次“内功优化式”的小步升级,才构成了国产模型逐步拉近世界第一梯队的阶梯。

不是每次迭代都需要重做地基,关键是你有没有能力让旧体系里生出新火花。

⚠️
本网站信息内容及素材来源于网络采集或用户发布,如涉及侵权,请及时联系我们,发送链接至2697952338@QQ.COM,我们将第一时间进行核实与删除处理。

相关内容

热门资讯

“AI+”,这样赋能制造全流程 来源:滚动播报 (来源:新华日报) (视觉中国供图) □ 本报记者 付奇 李嘉豪 “‘AI+制造’将...
石化机械获得实用新型专利授权:... 证券之星消息,根据天眼查APP数据显示石化机械(000852)新获得一项实用新型专利授权,专利名为“...
29个智能气象站启动业务试运行 本报北京5月15日电 (记者李红梅)记者从中国气象局获悉:北京密云等29个智能气象站已于近日启动业务...
违法违规收集使用个人信息!41... 1、未公开个人信息收集使用规则。涉及20款移动应用如下: 《享充充电》(微信小程序)、《小牛充充充电...
微信鸿蒙版App获8.0.17... IT之家 5 月 16 日消息,微信鸿蒙版 App 已在华为应用市场发布 8.0.17.38(839...
2026年国内高端小程序开发公... 2026年,小程序开发已彻底进入两极分化时代。一边是AI工具让“做个能跑的小程序”变得像写文档一样简...
网传“三大运营商即将免月租”,... 据央视新闻,最近,大家在各大社交平台都可能刷到过这样一条消息——三大运营商即将全面推出免月租、按量计...
岚图汽车卢放:新能源车加速替代... 凤凰网科技讯 (作者/许婧)5月14日,岚图汽车董事长卢放今日发文指出,近期市场释放两个关键信号——...
三大运营商即将免月租?官方回应 据央视新闻5月16日报道,最近,大家在各大社交平台都可能刷到过这样一条消息——三大运营商即将全面推出...
一季度我国银行业保险业总资产保... 国家金融监督管理总局今天发布2026年一季度银行业保险业主要监管指标数据情况。 银行业和保险业总资产...