Anthropic发布AI流利度报告
创始人
2026-02-24 22:41:17

AIPress.com.cn报道

Anthropic 发布了一份基于 2026 年数据的教育报告,分析了近万次对话,揭示了人们使用 Claude 的真实水平。

为了量化"AI熟练度",研究团队使用了一套包含24种行为指标的框架,其中11种可以直接从对话中观察到。团队分析了2026年1月一周内Claude.ai上的9830段多轮对话,逐一判断这些行为是否出现,最终形成了一个AI熟练度基准指数。

核心发现一:多聊几轮的人,水平远超一问一答的人

85.7%的对话表现出了"迭代和优化"的特征,也就是用户不会拿到第一个回答就结束,而是继续追问和调整。这些对话平均比一问一答的对话多展现2.67种熟练度行为,大约是后者的两倍。差距在评估环节尤其明显:有迭代的对话中,用户质疑AI推理的概率是无迭代对话的5.6倍,发现信息遗漏的概率是4倍。

简单说,愿意跟AI多聊几轮的人,才是真正在和AI协作,而不是把它当搜索引擎用。

核心发现二:AI产出越精致,人越不愿挑毛病

12.3%的对话涉及代码、文档、交互工具等实际产出。在这类对话中,用户前期引导AI的积极性明显更高,比如主动明确目标、指定格式、提供示例。但到了审查环节,表现反而更差:识别遗漏信息的概率低了5.2个百分点,核实事实低了3.7个百分点,质疑推理逻辑低了3.1个百分点。

可能的原因是AI产出看起来太完整了,用户觉得既然成品像模像样,就没必要再深究。但问题在于,越复杂的任务AI越容易出错,而这些任务的产出往往看起来最专业。

研究团队基于数据给出了三条改进方向。第一,别拿到第一个答案就走,继续追问和调整。第二,越是看着完美的输出越要多审视,停下来问一句"这个真的对吗"。第三,在对话开头就设定协作规则,数据显示只有30%的用户会这么做,比如告诉AI"如果我的假设有问题请直接指出来"或者"先带我走一遍你的推理过程"。

团队也坦承了几个局限:样本偏向早期采用者,只有一周数据,只覆盖Claude.ai平台,24种行为只评估了11种可观察的,而且行为分类比较粗糙。用户可能在脑子里做了很多评估但没在对话中表达出来,这一点在有实际产出的场景中尤其明显。

未来Anthropic计划做新老用户对比分析,用定性方法评估对话外的行为,并探索因果关系,比如鼓励多轮迭代是否真的能提升批判性思维。

(AI普瑞斯编译)

⚠️
本网站信息内容及素材来源于网络采集或用户发布,如涉及侵权,请及时联系我们,发送链接至2697952338@QQ.COM,我们将第一时间进行核实与删除处理。

相关内容

热门资讯

云南电网申请一种鲁棒风速预测方... 国家知识产权局信息显示,云南电网有限责任公司申请一项名为“一种鲁棒风速预测方法、系统、设备及介质”的...
苹果将部分Mac Mini生产... 2月24日消息,据外电报道,苹果公司昨天宣布了在美国开始生产Mac mini的计划,现在又分享了该计...
震荡向上行情有望延续 看好科技... 证券时报记者 吴琦 展望马年市场的投资机会,平安基金权益投资总监神爱前认为市场面临较好的内外环境,系...
原创 疯... 近日,疯狂小杨哥旗下的三只羊,完成了登陆资本市场的关键一跃——借壳美股上市公司Rich Sparkl...
千亿美元订单落地!AMD深度绑... Meta与Advanced Micro Devices (AMD)达成了一项为期五年、总规模高达千亿...
一口气锁定6吉瓦芯片!Meta... 财联社2月24日讯(编辑 赵昊)周二(2月24日)美股盘前,Meta和AMD双双在官网宣布扩大战略合...
春节假期“多代同游”成新趋势 ... 封面新闻记者 张越熙 史上最长春节假期即将收尾,多地旅游市场“马力全开”。2月23日,美团发布的《2...
雷军揭幕新一代小米SU7新色,... 小米创办人、董事长兼 CEO 雷军亲自揭幕了新一代 SU7「赤霞红」,并公开了与新车的合影。从图片可...
刘强东官宣“第二事业”,投资5... “我觉得个人应该去做点自己更喜欢的事情。” 2月24日,农历马年开工首日,52岁的刘强东在广州正式官...
机构:低空产业将迎来五大发展趋... 辽宁省人民政府印发《辽宁省促进经济向新向好若干政策举措》,其中提出,对低空飞行器整机、低空关键设备及...