测试显示谷歌AI摘要错误率约10% 新版Gemini准确率达91%
创始人
2026-04-09 08:52:47

【CNMO科技消息】近日,美国日报《纽约时报》与AI初创公司Oumi近期发布的一项分析称,谷歌搜索的新AI摘要功能“AI Overviews”在约90%的情况下能给出正确答案,但每十个回答中仍有一个出现错误。

Gemini

据介绍,该调查基于名为SimpleQA的标准化测试。SimpleQA包含超过4000个可验证问题,用于评估AI模型的事实准确性。测试结果显示,谷歌Gemini模型新版本的准确率约为91%,相比旧版本约85%的正确率有所提升,但错误回答比例仍然存在。

分析指出,在搜索规模达到每日数十亿次的背景下,约10%的错误率可能带来更广泛影响。报告列举了多个案例:在回答“Bob Marley故居何时成为博物馆”时,AI摘要引用了多个来源,但仅有一个来源包含相关信息,且最终仍选择了错误日期;另一个案例中,AI摘要虽正确识别大提琴家Yo-Yo Ma,但同时错误声称不存在“Classical Music Hall of Fame(古典音乐名人堂)”。

谷歌方面对部分批评作出回应。公司发言人表示,外部测试所用题目可能存在错误或提问方式不切实际;谷歌内部采用更严格的评估方法,并使用经过更好验证的数据集。发言人同时提到,系统会根据不同搜索查询调用不同模型变体,包括性能更强但速度较慢的版本,以及速度更快但精确度可能更低的系统。

该分析还提到,评估AI系统本身存在难度:同一问题多次提问可能得到不同结果,且部分测试流程依赖AI工具,也可能引入误差。谷歌在每份AI摘要末尾提示“AI可能会犯错”。分析指出,用户往往倾向直接信任AI生成答案,因此建议在必要时核对原始来源并保持审慎判断。

⚠️
本网站信息内容及素材来源于网络采集或用户发布,如涉及侵权,请及时联系我们,发送链接至2697952338@QQ.COM,我们将第一时间进行核实与删除处理。

相关内容

热门资讯

耐普矿机获得外观设计专利授权:... 证券之星消息,根据天眼查APP数据显示耐普矿机(300818)新获得一项外观设计专利授权,专利名为“...
众擎机器人完成2亿美元B轮融资... 新京报贝壳财经讯(记者张晓慧)4月9日,众擎机器人官方公众号发文,表示近日正式完成总额2亿美元的B轮...
PD快充与AI电源双线升级,A... 前言 在充电头网举办的2026(春季)亚洲充电大会上,万国半导体(AOS)带来了《AOS全场景高性...
白电三巨头名存实亡,一超、一强... 来源:市场资讯 (来源:网易科技) 2025 年年报发布季,对中国家电行业是一个不容忽视的节点,延续...
北路智控获得外观设计专利授权:... 证券之星消息,根据天眼查APP数据显示北路智控(301195)新获得一项外观设计专利授权,专利名为“...
钱包数猛涨 银行数字人民币成绩... 数字人民币进展飞速,作为运营机构,银行在推动其场景扩容、服务落地方面发挥着重要作用。4月9日,北京商...
刺破“补贴幻觉”,平台经济该回... 新华社 发 徐骏 作 明天(10日)起,《互联网平台价格行为规则》正式落地。其中“不得虚假、夸大宣传...
房企韧性样本:市场动态筑底,建... 2025年,中国房地产市场整体延续深度调整态势,各项核心指标同比下降,但销售面积和销售额降幅较此前几...
上海早亓新能源有限公司成立,注... 天眼查显示,近日,上海早亓新能源有限公司成立,法定代表人为周卫华,注册资本7000万人民币,由上海早...
多国央行减持黄金显凉意,国际金... 近来,国际金价在高位“上蹿下跳”,引发高度关注。部分国家央行由增持转为减持,特别是土耳其央行在短短两...