原创 DeepSeek R1大升级！性能直追o3与Gemini，幻觉率近半削减_资讯

创始人

2025-05-31 10:42:01

前言

AI模型卷进深水区：DeepSeek-R1-0528，不再追赶，而是在逼近上限，国产大模型的升级节奏，比我们预想得更凶猛。

⸻

就在大家都以为DeepSeek R1只是一个中规中矩的技术形象时，0528小版本的悄然放出，却展现了一个明显不同的走向。

这次它不是拼速度，而是重推理、讲深度，在复杂任务中硬啃思维链条，释放出国产模型真正有望冲击国际顶尖梯队的信号。

我们得先明确一点：DeepSeek-R1-0528不是换底座，它还是那个DeepSeek V3 Base，只是这次它在后训练阶段砸下了更大的算力筹码，代价是昂贵的，但回报也实实在在。

在AIME 2025数学推理测试中，新版准确率从70%跃升至87.5%，这个成绩背后的深意绝不能被表面数字所掩盖——它代表了国产模型第一次在极其严苛的逻辑任务中“站稳了脚”。

更有趣的是，它不是靠“猜得准”，而是实打实把平均解题token长度从12K提升到了23K。

这几乎等于思维深度翻了一倍，意味着模型在每一道题目上的“思考”都更加细致，逻辑链条更长，也更少“跳步”。

这背后不仅是算力的投入，更是训练逻辑的优化成果——DeepSeek没有简单堆砌模型参数，而是围绕“推理路径”做了大量系统性的调整，尤其是对幻觉率、结构写作、工具调用等方面的多维调优。

说到幻觉，这是很多中文大模型目前还无法根治的“老毛病”。

但0528版的R1对幻觉率的抑制已经达到了45%-50%，在资讯改写、摘要总结等场景中，能显著减少不靠谱内容。

这点对内容从业者来说是重大利好——你终于可以更大胆地用模型来协助写作而不怕“瞎编”。

但这次升级最让我感兴趣的，并不是R1模型本身，而是DeepSeek把这个思维链条提取出来，蒸馏进了另一个8B模型——DeepSeek-R1-0528-Qwen3-8B。

我们知道，小模型能不能“学会思考”一直是业内悬而未解的问题。DeepSeek的做法是，把R1的“思维轨迹”作为训练目标，迁移给Qwen3-8B。

这波操作让后者在AIME 2024中表现直逼23B的Qwen3-235B，而本身只有8B体积，这说明什么？说明小模型“不是不能思考”，只是它们以前没有受过“深度思考的熏陶”。

可以预见，这种思维链条的“知识迁移”在未来会成为训练轻量模型的标配，既省资源，又提高了智能密度。

从更高的视角看，DeepSeek-R1-0528代表着国产模型向“解释型AI”迈出关键一步。它不是一个黑箱输出工具，而是在努力让用户“看见”它的逻辑过程。

新版API支持Function Calling和Json Output，同时max_tokens也终于从“输出长度限制”进化成“全流程长度上限”的定义。这些改变看似细节，却意味着模型服务正逐步从“结果导向”向“过程透明”过渡。

重点来了，官方提供的上下文依旧为64K，但R1-0528的开源版本上下文长度已经扩展到128K。

这对需要处理复杂长文档、多轮上下文的任务极具吸引力，也说明DeepSeek开始在“模型体验”层面与国际大厂看齐。

我们得承认，在高端模型上，DeepSeek还未完全与o3、Claude 4并肩；但它的某些指标、特别是在数学和工具调用的表现上，已经实现局部追平。

它没有造出新“巨兽”，却用一次小版本，把国产模型的“推理极限”往前推进了一大截。

⸻

结语：

DeepSeek-R1-0528的意义，可能不会立刻显现。

但当我们回顾这段AI演进历史时，也许会发现，正是这种一次次“内功优化式”的小步升级，才构成了国产模型逐步拉近世界第一梯队的阶梯。

不是每次迭代都需要重做地基，关键是你有没有能力让旧体系里生出新火花。

⚠️

本网站信息内容及素材来源于网络采集或用户发布，如涉及侵权，请及时联系我们，发送链接至2697952338@QQ.COM，我们将第一时间进行核实与删除处理。