LMSYS为何被称为“大模型最强盲测”?OpenAI CEO奥特曼也看重
中关村在线
2024-05-23 15:36:16

2024-05-23 14:42:00作者:姚立伟

5月20日,LMSYS Org (Large Model Systems Organization)举办的盲测竞技场公布了其最新排名情况,零一万物研发的千亿参数级模型Yi-Large在此榜单中表现出色,不仅在全球模型总排名中占据第七席位,更是在中国大模型类别中拔得头筹,位列第一,实现了对Llama-3-70B及Claude 3 Sonnet等国际知名模型的超越。其中,在中文专项排名中,Yi-Large与GPT4o并驾齐驱,共享全球榜首位置,彰显了其在中文处理能力上的顶尖水准与国际竞争力。

LMSYS Org,作为一个公开性质的研究团体,源自学术界的强强联合,由加州大学伯克利分校、加州大学圣地亚哥分校以及卡耐基梅隆大学的学生与教职员工共同组建。尽管其根植于高等学府,LMSYS却紧密连接实际产业需求,其活动范围广泛,不仅限于自主研发大规模语言模型,还积极推动领域进步,比如发布广受认可的数据集MT-Bench,该数据集已成为评估指令遵循能力的标准工具。此外,该组织涉足开发高效能的分布式计算系统,旨在加速大型模型的训练和推理过程,并且创新性地提供了线上平台,即所谓的“大模型竞技场”,配备必要的高性能计算资源,供实时模型性能比拼使用,进一步促进了人工智能技术的实践与革新。

历经2023年大模型评估领域种种复杂且充满挑战的测评风波后,业界对测评标准的公正性与专业水平提出了更高要求。在此背景下,LMSYS Org 推出的Chatbot Arena凭借其创新的“实战竞技”模式与测试团队的严格标准,迅速赢得了全球行业的广泛认可,树立了评测的新标杆。就连OpenAI在正式揭晓GPT-4o之前,亦选择在LMSYS平台上进行了匿名预测试,足见其信任与依赖。

不仅如此,LMSYS Chatbot Arena的影响力还延伸到了海外头部企业的高层之中,除了OpenAI的CEO Sam Altman之外,Google DeepMind的首席科学家Jeff Dean也援引该竞技场的排名数据,以之为有力证据来支撑并强调其产品Bard的卓越性能。

这进一步证明了LMSYS Chatbot Arena在全球大模型评估体系中的权威地位和重要影响。LMSYS Chatbot Arena已然成为后benchmark时代的风向标。

⚠️
本网站信息内容及素材来源于网络采集或用户发布,如涉及侵权,请及时联系我们,发送链接至2697952338@QQ.COM,我们将第一时间进行核实与删除处理。

相关内容

热门资讯

加拿大帝国商业银行(CIBC)... 公司概况加拿大帝国商业银行(Canadian Imperial Bank of Commerce,简...
辛塔斯(Cintas):美国企... 一、公司概况Cintas Corporation(纳斯达克代码:CTAS)成立于1968年,总部位于...
Cintas Corporat... 一、公司概况Cintas Corporation(纳斯达克代码:CTAS)成立于1968年,总部位于...
圣戈班集团(Saint-Gob... 一、公司概况1.1 基本信息圣戈班集团(Saint-Gobain S.A.)成立于1665年,总部位...
LG化学(LG Chem):韩... 公司概况LG化学(LG Chem Ltd.)是韩国最大的综合化学企业,成立于1947年,总部位于韩国...
德国旅游巨头TUI Group... 一、公司概况TUI Group(途易集团)总部位于德国汉诺威,是全球规模最大、业务覆盖最广的综合性旅...
DraftKings:数字体育... 一、公司概况DraftKings Inc.(NASDAQ: DKNG)成立于2012年,总部位于美国...
爱德万测试(Advantest... 公司概况爱德万测试(Advantest Corporation,东京证券交易所代码:6857.T)成...
Brown-Forman Co... 一、公司概况Brown-Forman Corporation(布朗-福尔曼公司,NYSE: BF.B...
财报超预期背后的合规科技巨头:... 一、公司概况:企业合规与治理云端平台的全球领导者Workiva Inc.(股票代码:NYSE: WK...