苹果港大联合团队提出扩散语言模型DiffuCoder,并带来首个“扩散原生”强化学习方案
创始人
2025-06-29 16:40:19

最近这段时间以来,扩散语言模型(DLMs,Diffusion Language Models)愈发受到关注。在 Inception Labs 发布首个商业级 DLM Mercury 之后,谷歌在不久前也发布了他们的 DLM Gemini Diffusion,得益于其独特的并行生成机制,扩散模型在代码生成任务上表现出较大的潜力,尤其在提升生成速度和优化代码结构方面,被认为具有独特的优势。

不过,对于广大研究者和开发者而言,扩散模型在语言任务(尤其是代码生成)中的内部工作机制仍有许多未知之处。它们是如何进行全局规划的?其生成过程与自回归模型有何本质不同?又该如何有效地对其进行优化?

近期,一篇由苹果公司与香港大学研究人员合作发表的论文《DiffuCoder: 理解并改进用于代码生成的掩码扩散模型》(DiffuCoder: Understanding and Improving Masked Diffusion Models for Code Generation)[1],对这些关键问题进行了系统性的解答。该研究不仅推出了一个 70 亿参数的开源代码扩散模型 DiffuCoder,还深入剖析了扩散模型的解码行为,并提出了一套为其量身定制的高效强化学习框架。

(来源:arXiv)

自回归模型通过逐词元、从左到右的线性方式生成文本。这种机制在保证序列连贯性方面表现出色,但对于代码生成这类本质上非线性的任务,存在一定局限。编程过程常涉及在不同代码块之间跳转、预先规划结构、后续补充依赖等操作,这是自回归模型的单向生成模式难以直接模拟的。

相比之下,扩散模型采用迭代式的并行“去噪”过程。它从一个完全被 [MASK] 覆盖的序列开始,在多次迭代中同时评估所有位置,并逐步将 [MASK] 替换为实际词元。这种全局、并行的生成方式,理论上更适合处理代码这种具有复杂结构依赖的任务。

为了量化评估扩散模型的实际生成行为,研究团队引入了一个名为“自回归性”(AR-ness)的度量指标。该指标从“局部连续性”(模型生成相邻词元的倾向)和“全局顺序性”(模型从左至右填充的倾向)两个方面,分析模型的解码模式。

分析结果显示,扩散模型在解码时并不是完全随机的。受文本数据固有顺序性的影响,模型对紧邻提示词右侧的位置表现出更高的预测置信度,研究者将此现象称为“熵池”(Entropy Sink)。同时,这种“自回归性”的程度会随任务类型变化:在生成代码时,模型的全局“自回归性”显著低于生成数学解题步骤,这表明模型能够根据任务特性调整其生成策略。

研究还发现,采样温度(temperature)对扩散模型具有双重影响。在自回归模型中,提高温度主要用于增加词元选择的多样性。但在扩散模型中,温度的改变还会明显影响其对“在哪个位置生成”的决策。提高采样温度会使模型的生成顺序更加灵活和多样化,不再严格局限于从左到右。这种行为多样性的增加,为后续的强化学习优化指明了方向。

图丨不同采样温度的影响(来源:arXiv)

利用强化学习优化代码生成是当前的主流方法,其奖励信号通常来自代码单元测试的通过率。但将标准强化学习算法应用于扩散模型面临挑战,主要在于精确估计生成序列的概率需要高昂的计算成本,且采样过程会引入高方差,导致训练不稳定。

为了解决这个问题,研究团队提出了一种名为“耦合-GRPO”(coupled-GRPO)的强化学习算法。该算法的核心是引入一种互补成对的掩码采样方案。在训练的每一步,算法会为同一个代码样本创建一对互补的掩码。例如,若一个掩码覆盖了序列中的奇数位置,则另一个掩码就精确覆盖偶数位置。通过这种设计,在两次模型前向传播中,序列中的每个词元都能被评估一次。

图丨 DiffuCoder 训练阶段的流程以及 coupled-GRPO 算法的示意图(来源:arXiv)

这种“耦合采样”机制有几个优点。首先,它保证了对所有词元的完整评估。其次,每个词元都是在有部分上下文的环境下被评估的,这比在完全隔离(全掩码)的情况下进行评估更接近真实解码情况,从而显著降低了概率估计的方差。该方法基于对偶变量(Antithetic Variates)的统计学原理,从理论上保证了方差的降低,使强化学习的训练过程更加稳定。

研究团队在多个代码生成基准测试上验证了 DiffuCoder 的性能。结果显示,经过 1,300 亿词元预训练的 DiffuCoder 基础模型,其性能已经与 Qwen2.5-Coder、OpenCoder 等开源自回归代码模型不相上下。

且相较于仅进行指令微调的版本,经过 coupled-GRPO 训练的模型在 EvalPlus 上还实现了 4.4% 的性能提升(这一改进仅使用了 21,000 个训练样本)。

图丨基准测试结果(来源:arXiv)

进一步的分析显示,优化后的模型“自回归性”降低,对并行解码的适应性更强。当解码步数减半(即生成速度加倍)时,优化后的模型性能下降幅度更小。这表明模型对严格生成顺序的依赖性降低,更能发挥扩散模型并行生成的潜力。

参考资料:

1. https://arxiv.org/pdf/2506.20639

排版:刘雅坤

⚠️
本网站信息内容及素材来源于网络采集或用户发布,如涉及侵权,请及时联系我们,发送链接至2697952338@QQ.COM,我们将第一时间进行核实与删除处理。

相关内容

热门资讯

亚商投顾选股魔方app投顾服务... 在上海亚.商投资交的高额服务费可以退吗?答:可以退,告诉大家一个好消息,在上海亚.商投资交费的,只要...
天数智芯启动招股 定价144.... 中经记者 李玉洋 上海报道 国内首家通用GPU公司更新港股上市进度。 12月30日,上海天数智芯半...
同 花 顺退款要多久? 交费被... 同 花 顺退款要多久? 交费被骗后悔不已,维权全额退款!  投资有风险,投资需谨慎!针对网上素未谋面...
外汇局:9月末我国银行业对外净... 12月30日,国家外汇管理局公布2025年9月末中国银行业对外金融资产负债数据,2025年9月末,我...
聚焦禹唐体育营销大会|众辉体育... 在主题为“IP经营:消费热潮下的体育IP经营之道”的圆桌论坛中,众辉体育董事长陆浩和盛力世家首席执行...
网友票选2025年度五大理财关... 2025年,存款利率步入“0字头”,金价屡创新高,大众理财意识正经历深刻转变。近日,蚂蚁财富与小红书...
博 众投资29800元服务费怎... 博 众投资29800元服务费怎么样? 误导性宣传坑惨股友,可维权退款!  投资有风险,投资需谨慎!针...
利多星选股可靠吗您的投顾服务费... 利多星选股可靠吗您的投顾服务费或可退回!深度揭秘销售陷阱与投诉通道利多星智投不可信,推荐的股票不靠谱...
“补血”超千亿元!保险业为何仍... 编者按:近年来,保险行业资本动作频繁,股权转让、资产处置(出售/收购)、二级市场股权交易、发债融资等...
天相股多多软件是正规的吗能退!... 北京天相财富收取股民服务费没效果会员费能退回来?北京天相财富并不靠谱,在北京天相财富业务员的诱导下购...