研究发现:AI 越聪明就越有可能“胡编乱造”
创始人
2024-09-29 15:21:03
0

IT之家 9 月 29 日消息,一项新研究发现,随着大型语言模型(LLM)变得越来越强大,它们似乎也越来越容易编造事实,而不是避免或拒绝回答它们无法回答的问题。这表明,这些更聪明的 AI 聊天机器人实际上变得不太可靠。

图源 Pexels

IT之家注意到,该研究发表在《自然》杂志上,研究人员研究了一些业界领先的商业 LLM:OpenAI 的 GPT 和 Meta 的 LLaMA,以及由研究小组 BigScience 创建的开源模型 BLOOM。

研究发现,虽然这些 LLM 的回答在许多情况下变得更加准确,但总体上可靠性更差,给出错误答案的比例比旧模型更高。

瓦伦西亚人工智能研究所在西班牙的研究员 José Hernández-Orallo 对《自然》杂志表示:“如今,它们几乎可以回答一切。这意味着更多正确的答案,但也意味着更多错误的答案。”

格拉斯哥大学的科学和技术哲学家 Mike Hicks 对此进行了更严厉的评价,Hicks(未参与该研究)告诉《自然》杂志:“在我看来,这就像我们所说的胡说八道,它越来越擅长假装知识渊博。”

测试中,这些模型被问及了从数学到地理等各种主题,并被要求执行诸如按指定顺序列出信息等任务。总体而言,更大、更强大的模型给出了最准确的答案,但在更难的问题上表现不佳,其准确率较低

研究人员称,一些最大的“撒谎者”是 OpenAI 的 GPT-4 和 o1,但所有被研究的 LLM 似乎都呈这种趋势,对于 LLaMA 系列模型,没有一个能够达到 60% 的准确率,即使是最简单的问题。

而当被要求判断聊天机器人的回答是准确还是不准确时,一小部分参与者有 10% 到 40% 的概率判断错误。

总之研究表明,AI 模型越大(就参数、训练数据和其他因素而言),它们给出错误答案的比例就越高。

研究人员称,解决这些问题最简单的方法是让 LLM 不那么急于回答一切。Hernández-Orallo 称:“可以设置一个阈值,当问题具有挑战性时,让聊天机器人说‘不,我不知道’。”但如果聊天机器人被限制为只回答它们知道的东西,可能会暴露技术的局限性。

相关内容

热门资讯

董事长跑路,背刺胖东来?永辉超... 来源:证券时报 针对市场上流传的“董事长跑路”“背刺胖东来”等不实传闻,永辉超市回应。 9月28日晚...
以色列官员称:纳斯鲁拉拒绝以色... 【文/观察者网 陈思佳】当地时间9月28日,黎巴嫩真主党证实,真主党领导人纳斯鲁拉在以色列对黎首都贝...
小红书珠宝文玩类目行业生态整体... 今天分享的是:小红书珠宝文玩类目行业生态整体介绍 报告共计:12页 《小红书珠宝文玩类目行业生态整体...
加拿大退役宇航员分享中国登月服... 【环球网报道 见习记者刘博洋】科技感十足的中国登月服外观首次公开,不仅收获中国人喜爱,也在国外引发关...
原创 雷... 尽管拜登政府人走茶凉的结局已经定下,但是雷蒙多还在反复横跳,美国商务部宣布了一项新遏华政策,将提议禁...
海优新材: 对子公司增资 每经AI快讯,海优新材(SH 688680,收盘价:28.53元)9月27日晚间发布公告称,为了满足...
原创 中... 中国在这几十年以来,不断向太空进行航天任务,嫦娥、天宫、天河、祝融、神舟、北斗等一个个具有中国特色的...
消息称欧加系 IMX882 潜... IT之家 9 月 29 日消息,博主 @数码闲聊站 今日透露,欧加系新机全面导入 IMX882 潜望...
AI芯片加快国产化进程 中国市场传出正加快国产化进程,要求采购国产化AI芯片而非NVIDIA的产品,这是应对出口限制的重要部...
运营商财经网康钊:某运营商集团... 运营商财经 康钊/文 根据正式消息,中国联通集团副总经理曹兴信涉嫌严重违纪违法,目前正接受调查。...
近200股本周创年内新高,百亿... 财联社9月29日讯(编辑 梓隆),本周(9月23日至27日),市场活跃度大幅提升,个股也大面积走强。...
蔚来中国获三大国资股东33亿元... 南都讯 记者赵唯佳9月29日,蔚来控股有限公司(以下简称“蔚来中国”)宣布获得新一轮增资。三家现有国...
博益特董事长聂仁克出席E特甄选... 近日,青岛博益特生物材料股份有限公司与青岛稻壳网络旗下飞鸽寄件携手打造的E特甄选商城合作项目在青岛正...
电池性能退化原因揭示 科技日报讯 (记者张佳欣)电池会随时间推移而逐渐丧失容量,这是旧手机耗电更快的原因。美国科罗拉多大学...
国庆出游避坑指南!华为Mate... 马上就要迎来一年一度的国庆黄金周了,不知道大家的出行攻略都做好了没有?其实除了订机票酒店和规划景点之...
vivo韩伯啸公布X200标准... 快科技9月29日消息, 今日vivo韩伯啸公布了X200标准版正面实拍图,称其采用超窄黑边全等深微四...
杉杉股份披露下属公司收购资产进... 雷达财经雷助吧出品 文|简白 编|深海 9月27日,杉杉股份发布关于下属子公司收购资产的进展公告。 ...
原创 曝... 盖世汽车讯 据报道,在欧盟对中国产电动汽车加征临时进口关税后,奇瑞汽车已将在欧洲投产电动汽车的目标推...
中联重科32周年:矢志创新永不... 9月28日,以“四海同心 青春共庆”为主题的中联重科32周年庆祝活动在中联智慧产业城总部科研大楼隆重...
坪山河畔,科技感十足!龙田街道... 深圳商报·读创客户端记者 刘育銮 近日,由交通运输部职业资格中心主办的首届智能驾驶开发者挑战赛(华...