测试显示谷歌AI摘要错误率约10% 新版Gemini准确率达91%
创始人
2026-04-09 08:52:47

【CNMO科技消息】近日,美国日报《纽约时报》与AI初创公司Oumi近期发布的一项分析称,谷歌搜索的新AI摘要功能“AI Overviews”在约90%的情况下能给出正确答案,但每十个回答中仍有一个出现错误。

Gemini

据介绍,该调查基于名为SimpleQA的标准化测试。SimpleQA包含超过4000个可验证问题,用于评估AI模型的事实准确性。测试结果显示,谷歌Gemini模型新版本的准确率约为91%,相比旧版本约85%的正确率有所提升,但错误回答比例仍然存在。

分析指出,在搜索规模达到每日数十亿次的背景下,约10%的错误率可能带来更广泛影响。报告列举了多个案例:在回答“Bob Marley故居何时成为博物馆”时,AI摘要引用了多个来源,但仅有一个来源包含相关信息,且最终仍选择了错误日期;另一个案例中,AI摘要虽正确识别大提琴家Yo-Yo Ma,但同时错误声称不存在“Classical Music Hall of Fame(古典音乐名人堂)”。

谷歌方面对部分批评作出回应。公司发言人表示,外部测试所用题目可能存在错误或提问方式不切实际;谷歌内部采用更严格的评估方法,并使用经过更好验证的数据集。发言人同时提到,系统会根据不同搜索查询调用不同模型变体,包括性能更强但速度较慢的版本,以及速度更快但精确度可能更低的系统。

该分析还提到,评估AI系统本身存在难度:同一问题多次提问可能得到不同结果,且部分测试流程依赖AI工具,也可能引入误差。谷歌在每份AI摘要末尾提示“AI可能会犯错”。分析指出,用户往往倾向直接信任AI生成答案,因此建议在必要时核对原始来源并保持审慎判断。

⚠️
本网站信息内容及素材来源于网络采集或用户发布,如涉及侵权,请及时联系我们,发送链接至2697952338@QQ.COM,我们将第一时间进行核实与删除处理。

相关内容

热门资讯

星展银行(DBS Bank):... 一、公司概况星展银行有限公司(DBS Bank Ltd.)是新加坡最大的商业银行,也是亚洲领先的金融...
瑞士再保险(Swiss Re)... 瑞士再保险:全球再保险巨头的稳健经营与数字化转型之路瑞士再保险有限公司(Swiss Re Ltd.)...
腾讯沧海芯片击败多家国际巨头登... 【太平洋科技快讯】腾讯今日宣布,自研视频编解码芯片“沧海”在莫斯科国立大学(MSU)硬件视频编码比赛...
2026年大学生/毕业生换机推... 2026年毕业季来临,无论是即将步入大学校园的新生,还是即将踏入社会的毕业生,换一部趁手的新手机都是...
印度太阳制药深度解析:新兴市场... 公司概况太阳制药工业有限公司(Sun Pharmaceutical Industries Limit...
空客集团(Airbus SE)... 空客集团(Airbus SE):全球航空航天制造业的领军者作为全球航空航天制造领域的巨头,空客集团(...
中小银行整合加速,高股息价值凸... 5月28日,截至10:00,中证银行指数上涨0.32%。个股方面,江苏银行涨超1%,招商银行、兴业银...
上海多媒体2026年展厅设计公... 随着数字经济的持续升温,多媒体展厅设计行业正迎来新一轮洗牌。2026年,上海作为中国会展经济的核心城...
原创 我... 我全款买下1560万大平层,办证时却发现是岳父母名,我转头看向老婆,她忙说:老公你先付款!我:我看起...
董事长专访 | 徐工机械杨东升... 刚刚过去的一周,来自100多个国家和地区的2500余名客商齐聚江苏徐州,参加徐工集团第八届国际客户节...