外媒:ChatGPT新模型 o4 mini 的“AI幻觉率”高达48%
创始人
2025-04-21 12:02:10

性能是提升了些,但,“胡说八道”的能力提升得更快,直接登顶……

站长之家(ChinaZ.com) 4月21日 消息:最近,OpenAI 发布了他们最新的推理型 AI 模型 “o3” 和 “o4 mini” ,它们虽然具备了比上一代更强大的性能,但 AI 幻觉却变得更严重了 —— AI 幻觉是指生成型人工智能编造出实际并不存在的信息,并将其当作事实呈现的现象。

据海外 IT 专业媒体 TechCrunch 报道称,OpenAI 新发布的 o3 模型在 33% 的问题上出现了 AI 幻觉。这一数值是 o1(16%)和 o3 mini(14.8%)的两倍以上。而 o4 mini 模型更加严重 —— 该模型的幻觉率竟然高达 48%,表现出比包括 GPT-4o 在内的现有模型更加不稳定的状态。这一结论是该媒体引援 OpenAI 的 PersonQA 基准测试评估结果而报道的。

OpenAI 在 16 日以 “首款能够将图像融入思考过程的模型” 的口号,隆重介绍并推出这些AI模型。官方解释称,这些模型不仅仅是单纯地识别图像,还能在推理过程中运用视觉信息本身 —— 即 o3 和 o4 mini 模型具备了分析用户上传的图画、图表、图形等内容,以及处理模糊或旋转图像的能力。

在性能方面,在与编码相关的基准测试 SWE 测试中,o3 的得分为 69.1%,o4 mini的得分为 68.1%,不仅超过了之前的模型 o3 mini (49.3%),也高于竞争模型 Claude3.7Sonnet 模型(62.3%)的数值。然而,尽管有这些技术上的进步,AI幻觉出现率却反而比以前有所增加。一直以来,每当有新模型推出时,AI 幻觉的问题都在逐步得到改善,没曾想,OpenAI 这次的新模型却来了个“反其道而行”。

OpenAI 尚未对这一现象的原因给出明确的解释。在技术报告中,分析称:“随着模型需要应对比以前更多的用户请求,不仅是正确的结果,产生错误结果的情况似乎也在增加。” 接着表示,为了查明 AI 幻觉现象增加的确切原因,“需要进行更多的研究”。

人工智能行业认为,此次事件可能会给推理型模型的可靠性带来更多的质疑。特别是在法律、会计、税务等要求高度准确性的行业领域,如果 AI 幻觉问题得不到解决,相关引入推理型 AI 模型的可能性便会减小。

OpenAI 表示:“在所有问题领域完全消除‘幻觉’都是一项持续的研究课题”,并表示 “我们正在继续努力提高准确性和可靠性” 。

⚠️
本网站信息内容及素材来源于网络采集或用户发布,如涉及侵权,请及时联系我们,发送链接至2697952338@QQ.COM,我们将第一时间进行核实与删除处理。

相关内容

热门资讯

原创 中... 特朗普自己用了“举世瞩目”四个字,不是喊口号,是承认事情真变了。 这九年,关税加了又加,芯片断了又断...
澜湄国家工程教育国际论坛天津举... 天津5月14日电 (薛淳月 周亚强)14日,天津中德应用技术大学与柬埔寨国立理工学院在天津签署人工智...
B站突然爆了1亿分钟:AI正在... 5月13日,B站宣布视频播客内容单日VT播放时长突破1亿分钟,创下平台该品类单日播放时长最高纪录。B...
千亿泡泡玛特,突遇海外降温 来源:21世纪经济报道 潮玩一哥,海外市场遭遇降温。 5月13日,泡泡玛特首次举行一季度财报电话会...
AI调度+新能源重卡!深向科技... 图源:图虫创意 来源|时代商业研究院 作者|实习生陈嘉婕、郑琳 编辑|郑琳 2026年5月7日,深向...
长债抛售警报响:30年期美债标... 美国长期国债市场再次拉响警报。 美东时间13日周三,美国财政部完成总规模250亿美元的30年期国债标...
雷军“追星”马斯克,秒变迷弟! 雷军这张合影,够小米用好几天了。 5月14日晚,在特朗普访华欢迎晚宴前,雷军主动找马斯克合影,手里拿...
原创 中... 从2018年贸易战那一枪打响算起,到2026年5月,整整八年过去了。这八年里,华盛顿能想到的招数几乎...
原创 自... 炫富有风险,有网红主播就想到了“卖惨”,毕竟“苦情戏”最容易换取眼泪和同情。这招刚开始确实好用,哭得...