阿里发布QwenLong-L1-32B:首个强化学习训练的长文本推理模型_资讯

阿里发布QwenLong-L1-32B:首个强化学习训练的长文本推理模型

创始人

2025-05-27 15:00:54

IT之家 5 月 27 日消息，阿里通义千问 Qwen 团队昨日（5 月 26 日）发布 QwenLong-L1-32B 模型，是其首个通过强化学习训练的长文本情境推理模型（LRM）。

在七个长文本 DocQA 基准测试中，表现超越 o3-mini 和 Qwen3-235B-A22B 等旗舰模型，与 Claude-3.7-Sonnet-Thinking 相当。

QwenLong-L1-32B 模型最大的亮点，在于上下文窗口最高支持 131072 个 tokens。该模型基于 QwenLong-L1 框架开发，采用了先进的 GRPO（Group Relative Policy Optimization）和 DAPO（Direct Alignment Policy Optimizatio）算法，结合基于规则和基于模型的混合奖励函数，显著提升了模型在长上下文推理中的准确性和效率。

具体而言，团队在监督微调（SFT）阶段建立一个稳健的初始策略，随后采用课程引导的分阶段强化学习技术来稳定策略演变，并结合难度感知的回顾采样策略来激励策略探索。

除了模型本身，阿里还发布了一套针对长文本推理问题的完整解决方案。该方案包含四个核心组件: 高性能的 QwenLong-L1-32B 模型、专门优化的训练数据集、创新的强化学习训练方法，以及全面的性能评估体系。

IT之家附上参考地址

上一篇：字节跳动辟谣！

下一篇：力泓电子取得热管散热器专利，保证散热效果

⚠️

本网站信息内容及素材来源于网络采集或用户发布，如涉及侵权，请及时联系我们，发送链接至2697952338@QQ.COM，我们将第一时间进行核实与删除处理。

热门资讯

29个智能气象站启动业务试运行本报北京5月15日电 (记者李红梅)记者从中国气象局获悉：北京密云等29个智能气象站已于近日启动业务...

违法违规收集使用个人信息！41... 1、未公开个人信息收集使用规则。涉及20款移动应用如下：《享充充电》（微信小程序）、《小牛充充充电...

微信鸿蒙版App获8.0.17... IT之家 5 月 16 日消息，微信鸿蒙版 App 已在华为应用市场发布 8.0.17.38（839...

2026年国内高端小程序开发公... 2026年，小程序开发已彻底进入两极分化时代。一边是AI工具让“做个能跑的小程序”变得像写文档一样简...

网传“三大运营商即将免月租”，... 据央视新闻，最近，大家在各大社交平台都可能刷到过这样一条消息——三大运营商即将全面推出免月租、按量计...

岚图汽车卢放：新能源车加速替代... 凤凰网科技讯（作者/许婧）5月14日，岚图汽车董事长卢放今日发文指出，近期市场释放两个关键信号——...

三大运营商即将免月租？官方回应据央视新闻5月16日报道，最近，大家在各大社交平台都可能刷到过这样一条消息——三大运营商即将全面推出...

一季度我国银行业保险业总资产保... 国家金融监督管理总局今天发布2026年一季度银行业保险业主要监管指标数据情况。银行业和保险业总资产...

陈琦：红利终结，流量正在经历“... 长期以来，“流量”被奉为互联网商业的圣经，无论初创企业还是个人创作者，都坚信掌握流量密码就能打开财富...

竞价86轮、溢价近35%！滨江... 5月15日，杭州首次迎来组合出让宅地，余杭区未来科技城两宗地块以“组合”方式打包出让。根据竞价结果，...

阿里发布QwenLong-L1-32B:首个强化学习训练的长文本推理模型

相关内容

热门资讯