LMSYS为何被称为“大模型最强盲测”?OpenAI CEO奥特曼也看重
中关村在线
2024-05-23 15:36:16

2024-05-23 14:42:00作者:姚立伟

5月20日,LMSYS Org (Large Model Systems Organization)举办的盲测竞技场公布了其最新排名情况,零一万物研发的千亿参数级模型Yi-Large在此榜单中表现出色,不仅在全球模型总排名中占据第七席位,更是在中国大模型类别中拔得头筹,位列第一,实现了对Llama-3-70B及Claude 3 Sonnet等国际知名模型的超越。其中,在中文专项排名中,Yi-Large与GPT4o并驾齐驱,共享全球榜首位置,彰显了其在中文处理能力上的顶尖水准与国际竞争力。

LMSYS Org,作为一个公开性质的研究团体,源自学术界的强强联合,由加州大学伯克利分校、加州大学圣地亚哥分校以及卡耐基梅隆大学的学生与教职员工共同组建。尽管其根植于高等学府,LMSYS却紧密连接实际产业需求,其活动范围广泛,不仅限于自主研发大规模语言模型,还积极推动领域进步,比如发布广受认可的数据集MT-Bench,该数据集已成为评估指令遵循能力的标准工具。此外,该组织涉足开发高效能的分布式计算系统,旨在加速大型模型的训练和推理过程,并且创新性地提供了线上平台,即所谓的“大模型竞技场”,配备必要的高性能计算资源,供实时模型性能比拼使用,进一步促进了人工智能技术的实践与革新。

历经2023年大模型评估领域种种复杂且充满挑战的测评风波后,业界对测评标准的公正性与专业水平提出了更高要求。在此背景下,LMSYS Org 推出的Chatbot Arena凭借其创新的“实战竞技”模式与测试团队的严格标准,迅速赢得了全球行业的广泛认可,树立了评测的新标杆。就连OpenAI在正式揭晓GPT-4o之前,亦选择在LMSYS平台上进行了匿名预测试,足见其信任与依赖。

不仅如此,LMSYS Chatbot Arena的影响力还延伸到了海外头部企业的高层之中,除了OpenAI的CEO Sam Altman之外,Google DeepMind的首席科学家Jeff Dean也援引该竞技场的排名数据,以之为有力证据来支撑并强调其产品Bard的卓越性能。

这进一步证明了LMSYS Chatbot Arena在全球大模型评估体系中的权威地位和重要影响。LMSYS Chatbot Arena已然成为后benchmark时代的风向标。

⚠️
本网站信息内容及素材来源于网络采集或用户发布,如涉及侵权,请及时联系我们,发送链接至2697952338@QQ.COM,我们将第一时间进行核实与删除处理。

相关内容

热门资讯

老板电器获得实用新型专利授权:... 证券之星消息,根据天眼查APP数据显示老板电器(002508)新获得一项实用新型专利授权,专利名为“...
徐州浩海电气申请变压器油浸真空... 国家知识产权局信息显示,徐州浩海电气有限公司申请一项名为“一种变压器油浸真空注油工艺”的专利,公开号...
指南针付的钱怎么退回来手把手教...  指南针付的钱怎么退回来手把手教你申请,答案是:可以能退费!有法可依!申请退款流程公布!指南针擒龙版...
为什么交了钱后九方智投亏钱服务... 什么是投顾?为客户提供投资建议比如:买卖时机、热点分析、证券选择、风险提示等,禁止代理客户操作。也就...
亚商投股怎么样靠得住吗误导性宣... 亚商投股怎么样靠得住吗误导性宣传骗取股民服务费!夸大收益诱导投资者!这份退费指南让你不再吃哑巴亏在上...
博众投资推荐的股票可靠吗申请退... 博众投顾不可信,推荐的股票不靠谱,交的服务费是可以退的,虚假宣传推荐垃圾票亏损严重,维权已退款,退款...
亚商投顾选股魔方app服务费分... 在上海亚.商投资交的高额服务费可以退吗?答:可以退,告诉大家一个好消息,在上海亚.商投资交费的,只要...
大.决策交了服务费怎么退202... 大.决策交了服务费怎么退2025年退费流程分享必看!超详细退费攻略来袭!退款流程公布!大.决.策虚假...
九方智投25800退费流程详解... 什么是投顾?为客户提供投资建议比如:买卖时机、热点分析、证券选择、风险提示等,禁止代理客户操作。也就...
亚商投顾推荐的股票怎么样误导性... 亚商投顾推荐的股票怎么样误导性宣传骗取股民服务费!夸大收益诱导投资者!这份退费指南让你不再吃哑巴亏在...