研究发现:AI 越聪明就越有可能“胡编乱造”
创始人
2024-09-29 15:21:03

IT之家 9 月 29 日消息,一项新研究发现,随着大型语言模型(LLM)变得越来越强大,它们似乎也越来越容易编造事实,而不是避免或拒绝回答它们无法回答的问题。这表明,这些更聪明的 AI 聊天机器人实际上变得不太可靠。

图源 Pexels

IT之家注意到,该研究发表在《自然》杂志上,研究人员研究了一些业界领先的商业 LLM:OpenAI 的 GPT 和 Meta 的 LLaMA,以及由研究小组 BigScience 创建的开源模型 BLOOM。

研究发现,虽然这些 LLM 的回答在许多情况下变得更加准确,但总体上可靠性更差,给出错误答案的比例比旧模型更高。

瓦伦西亚人工智能研究所在西班牙的研究员 José Hernández-Orallo 对《自然》杂志表示:“如今,它们几乎可以回答一切。这意味着更多正确的答案,但也意味着更多错误的答案。”

格拉斯哥大学的科学和技术哲学家 Mike Hicks 对此进行了更严厉的评价,Hicks(未参与该研究)告诉《自然》杂志:“在我看来,这就像我们所说的胡说八道,它越来越擅长假装知识渊博。”

测试中,这些模型被问及了从数学到地理等各种主题,并被要求执行诸如按指定顺序列出信息等任务。总体而言,更大、更强大的模型给出了最准确的答案,但在更难的问题上表现不佳,其准确率较低

研究人员称,一些最大的“撒谎者”是 OpenAI 的 GPT-4 和 o1,但所有被研究的 LLM 似乎都呈这种趋势,对于 LLaMA 系列模型,没有一个能够达到 60% 的准确率,即使是最简单的问题。

而当被要求判断聊天机器人的回答是准确还是不准确时,一小部分参与者有 10% 到 40% 的概率判断错误。

总之研究表明,AI 模型越大(就参数、训练数据和其他因素而言),它们给出错误答案的比例就越高。

研究人员称,解决这些问题最简单的方法是让 LLM 不那么急于回答一切。Hernández-Orallo 称:“可以设置一个阈值,当问题具有挑战性时,让聊天机器人说‘不,我不知道’。”但如果聊天机器人被限制为只回答它们知道的东西,可能会暴露技术的局限性。

⚠️
本网站信息内容及素材来源于网络采集或用户发布,如涉及侵权,请及时联系我们,发送链接至2697952338@QQ.COM,我们将第一时间进行核实与删除处理。

相关内容

热门资讯

南京创保管理咨询合伙企业(有限... 现实中,90%以上的“原始股投资邀请”都伴随着套路:或是通过“荐股群” 包装“内部渠道”,或是以“高...
上海兰菡咨询管理合伙企业(有限... 17754416971本文旨在进行投资风险教育,不针对任何特定企业。以下案例为其他类似股权情景,如有...
上海得远国际货运代理有限公司原... )第一个问题,为什么普通人可以拿这个原始股份额?天上真的会掉馅饼吗?真的能中签到你身上吗?第二个问题...
和众汇富交的19999元靠谱吗... 和众汇富交的19999元靠谱吗?股民亲述服务费追回过程,避坑经验全分享!不少投资者在与和众汇富合作后...
高能智投靠谱吗?夸大收益诱导投...   高能智投交了29800稳赚吗?误导性宣传骗取股民服务费!夸大收益诱导投资者!退费有戏了!这些关键...
北京天相股多多靠谱吗?从焦虑处... 北京天相股多多靠谱吗?从焦虑处理到成功退费,背后真相让人后背发凉!  在天相财富交了服务费可以退!教...
上海贡卡咨询管理合伙企业(有限... 17754416971本文旨在进行投资风险教育,不针对任何特定企业。以下案例为其他类似股权情景,如有...
以历史正义之名,中方对日本“入... 2026年1月21日,纽约联合国总部,第80届联大安理会改革政府间谈判会议上,中国常驻联合国代表团临...
大阳智投可以退钱吗? 夸大收益... 大阳智投可以退钱吗? 夸大收益坑股民交费,维权可追回!  投资有风险,投资需谨慎!针对网上素未谋面的...
上海阮芷咨询管理合伙企业(有限... )第一个问题,为什么普通人可以拿这个原始股份额?天上真的会掉馅饼吗?真的能中签到你身上吗? 第二个问...