近年来,尽管深度学习取得了巨大成功,但是人们对其理论的理解仍然滞后。
正因此,尝试从理论角度解释深度学习的损失函数和优化过程的研究课题,受到了较多关注。
虽然在深度学习中使用的损失函数,通常被视为高维复杂黑盒函数,但是人们相信这些函数特别是在实际训练轨迹中遇到的部分,包含着复杂的良性结构,能够有效促进基于梯度的优化过程。
就像许多其他科学学科一样,构建深度学习理论的关键一步,在于理解从实验中发现的不平凡现象,从而阐明其潜在的机制。
最近,领域内学者发现了一个引人注目的现象——Mode Connectivity。
即通过两次独立梯度优化得到的不同最优点,在参数空间中可以通过简单的路径相连,而路径上的损失或准确率几乎保持恒定。
这一现象毫无疑问是令人惊讶的,因为非凸函数的不同最优点,很可能位于不同且孤立的“山谷”中。
但是,对于在实践中找到的最优点来说,它们身上却没有发生这种情况。
更有趣的是,一些研究者发现了比 Mode Connectivity 更强的 Linear Mode Connectivity。
针对 Linear Mode Connectivity 的研究表明,不同的最优点可以通过线性路径相连。
尽管两个完全独立的网络通常不会满足 Linear Mode Connectivity,但可以通过两种方式获得满足 Linear Mode Connectivity 的网络:
第一个网络是 Spawning Method。
当网络从初始化开始,训练少量 epoch 以后,将参数复制一份,借此得到两个网络。然后,这两个网络继续在不同的随机性下进行独立训练。
第二个网络是 Permutation Method。
即首先独立训练两个网络,随后重新排列其中一个网络的神经元,以匹配另一个网络的神经元。
在此前一项工作中,上海交通大学周展鹏博士和上海人工智能实验室的合作者,希望从特征学习的角度解释 Linear Mode Connectivity。
并提出这样一个问题:当线性插值两个经过训练的网络的权重时,内部特征会发生什么变化?
图 | 周展鹏(来源:周展鹏)
通过研究他们发现,几乎所有层中的特征也满足一种强形式的线性连接:即权重插值网络中的特征图,与两个原始网络中特征图的线性插值近似相同。
他们将这个现象称之为 Layerwise Linear Feature Connectivity。
此外,他们发现:Layerwise Linear Feature Connectivity 总是和 Linear Mode Connectivity 同时发生。
并证明了这一规律:如果两个在相同的数据集上训练的模型满足 Layerwise Linear Feature Connectivity,那么它们也能同时满足 Linear Mode Connectivity。
进一步地,课题组深入研究了产生 Layerwise Linear Feature Connectivity 的原因。
并确定了两个关键条件:即 ReLU 函数的弱可加性和两个经过训练的网络之间的可交换性属性。
从这两个条件出发,他们证明得到了 ReLU 网络中的 Layerwise Linear Feature Connectivity,并用实验验证了这两个条件。
同时,他们还证明:Permutation Method 是通过让两个网络满足可交换性,从而使得它们能够满足 Linear Mode Connectivity 的。
总的来说,课题组发现了一种比 Linear Mode Connectivity 更具细粒度、更能够满足神经网路的线性性质。
不过,上述发现都是基于在同一个数据集上训练得到的网络。
于是,他们提出了一个新问题:Layerwise Linear Feature Connectivity 能否在两个在不同数据集上训练的模型上成立?
该团队注意到:Spawning Method 和预训练-微调的训练范式很接近。即 Spawning Method 和微调都是从一个已经经过一段时间训练的模型出发开展进一步的训练。
只不过,Spawning Method 中的模型在相同数据集上继续训练,而微调中的模型可以在不同数据集上训练。
在近期一项工作中,他们发现在预训练-微调的范式下,不同的微调模型之间也满足 Layerwise Linear Feature Connectivity 的性质,课题组将其称之为 Cross-Task Linearity。
其发现:在预训练-微调的范式下,网络实际上更近似于一个从参数空间到特征空间的线性映射。
即 Cross-Task Linearity 将 Layerwise Linear Feature Connectivity 的定义,扩展到了不同数据集上训练的模型上。
有趣的是,该团队还使用 Cross-Task Linearity 的发现,来解释了两种常见的模型融合的技术:
其一,Model Averaging 取多个模型在相同数据集上、但使用不同超参数配置微调的权重的平均值,借此可以提高准确性和鲁棒性。
研究中,课题组权重的平均解释为在每一层特征的平均,从而建立了 Model Averaging 和模型集成之间的紧密联系,进而解释了 Model Averaging 的有效性。
其二,只需通过简单的算术操作,Task Arithmetic 就能合并在不同任务上微调的模型的权重,从而相应地控制模型的行为。
研究中,该团队将参数空间中的算术操作转化为特征空间中的操作,借此从特征学习的角度解释了 Task Arithmetic。
随后,他们探究了 Cross-Task Linearity 产生的条件,发现了预训练对于 Cross-Task Linearity 的重要性。
实验结果显示:从预训练阶段获得的共同知识,有助于满足 Cross-Task Linearity 的要求。
研究中,其还初步尝试证明 Cross-Task Linearity,并发现 Cross-Task Linearity 的出现与 Network Landscape 的 flatness 以及两个微调模型之间权重的差距有关。
日前,相关论文以《论预训校正中跨任务线性的产生》(On the Emergence of Cross-Task Linearity in Pretraining-Finetuning)为题发在国际机器学习大会 ICML(International Conference on Machine Learning)2024 上[1]。
图 | 相关论文(来源:ICML 2024)
课题组表示:希望本次发现能启发更好的模型融合算法。
未来,如果需要构建多能力的微调大模型,大模型融合将会成为核心技术之一。而本次工作为大模型融合提供了扎实的实验和理论支撑,能够启发更好的大模型融合算法。
接下来,他们希望从 Training Dynamics 的角度理解 Linear Mode Connectivity、Layerwise Linear Feature Connectivity、以及 Cross-Task Linearity。
尽管他们已经从特征层面得到了一些解释,但是仍然无法从第一性原理的角度解释 Linear Mode Connectivity。
例如,为什么 Spawning Method 中只需要先训练少量 epoch,就可以最终得到两个满足 Linear Mode Connectivity 的模型?
以及,该如何预测这样一个 Spawning Time?要想回答这些问题,就需要从训练和优化的角度理解 Linear Mode Connectivity,而这也是该团队的后续努力方向。
参考资料:
1.Zhou, Z., Chen, Z., Chen, Y., Zhang, B., & Yan, J. On the Emergence of Cross-Task Linearity in Pretraining-Finetuning Paradigm. In Forty-first International Conference on Machine Learning.
运营/排版:何晨龙