编者推荐:在全球对人工智能监管日益关注的背景下,Qabx 深度编译了来自Governance AI的研究。本文探讨了训练计算阈值在先进通用人工智能(GPAI)监管中的重要性。随着美国 AI 行政命令的出台,该命令要求对超过特定计算阈值的AI模型进行报告和监管。作者通过详细分析训练计算的功能与局限性,阐明了如何通过有效的计算阈值识别潜在的社会风险,促进安全与合规的AI发展。无论是政策制定者、研究者,还是AI从业者,都能从中获得深刻的见解和启发,助力更好地应对AI带来的挑战与机遇。
本文作者是 Lennart Heim 和 Leonie Koessler,隶属于Governance.ai。该机构是一个非营利组织,致力于研究和引领人工智能治理,以减轻 AI 带来的风险。文章基于CC BY 4.0协议发布 | http://creativecommons.org/licenses/by/4.0/
文章约2.4万字,阅读时间预计2小时,编译内容有删减,仅限研究学习使用
文章结构:
|执行摘要
先进的通用人工智能(GPAI)模型,也称为“前沿人工智能模型”或“双重用途基础模型”,其开发和部署带来了越来越大的大规模社会危害风险(第 1 节)。目前,这些模型在越来越多的计算资源(“训练计算”)的推动下,通过越来越大的训练运行,发展出更高的能力。但是,更高的能力也意味着对社会的风险更高,因为许多能力具有双重用途(如自动黑客攻击能力),而且能力更强的模型预计会被更广泛地使用和更多地依赖,如果它们失败或以不希望的方式运行(如产生有偏见的输出),风险就会增加。因此,监管机构越来越多地使用训练计算阈值来识别可能令人担忧的模型。
“训练计算”是指计算机为达到训练人工智能模型目的而需要执行的操作总数(第 2 节)。近年来,随着训练数据量和模型参数数量的增加,以及训练所需计算量的相应增加,人工智能训练的规模也在显著扩大(图 1)。这里的“计算”是指在训练过程中执行的总运算量。虽然微调等训练后增强功能可以显著提高模型能力,但我们建议将重点放在大型训练运行(“预训练”)所使用的计算上,因为这符合经验scalinglaws(缩放定律),并可避免对连续微调实例进行不切实际的重新测量。
图 2:计算阈值可作为初始过滤器,用于识别需要监管和进一步审查的 GPAI 模型,例如,根据能力阈值进行评估,以确定适当的缓解措施,并辅以其他人工智能要求。
不过,也有理由上调计算阈值。如果对 GPAI 模型的进一步了解表明,在特定计算阈值范围内的模型风险有限,则应提高计算阈值,将重点放在有潜在风险的模型上。随着算法效率和计算性价比的提高,越来越多资源不足的参与者可能会被纳入特定计算阈值的范围,导致要求越来越繁琐,监督成本越来越高。其他相关因素包括威胁状况(即恶意参与者使用人工智能系统的数量、能力和意愿)和社会脆弱性或适应性(即社会应对攻击、故障和紧急情况的能力,如通过有能力、资源充足和稳定的机构)。
其他一些指标,如风险估计、模型能力和有效计算,是更好的风险代替指标。然而,这些指标比训练计算更难衡量。如果scaling laws不再成立,训练计算能力成为更糟糕的风险替代品,那么用其他指标来补充单纯的计算阈值就变得非常重要。特别相关的组合可包括训练计算和模型能力评估,以确保捕捉到能力最强的模型;以及训练计算和用户数量,用于确保捕捉到使用最广泛的模型。然而,任何阈值都应基于模型生命周期早期易于测量的指标,作为识别潜在问题模型的初始过滤器。这在目前至少不包括风险估计和模型能力评估,至少是在部署前不包括用户数量。
总体而言,计算阈值虽然并不完美,但目前是 GPAI 监管的一个重要工具(第 7 节)。特别是,计算阈值是目前可用于识别潜在风险 GPAI 模型、触发监管监督和进一步审查的最佳工具。它们基于与风险相关的可量化指标,难以规避,并可在模型开发和部署前进行衡量,从而实现积极主动的治理工作。计算阈值可以补充更有针对性的过滤器,如模型能力评估,最终确定需要采取哪些缓解措施。
|1引言
先进的通用人工智能(GPAI)模型,也被称为“前沿人工智能模型”或“双重用途基础模型”,其开发和部署带来了越来越大的大规模社会危害风险。目前,GPAI 模型通过越来越大的训练运行,在更多计算资源的推动下,发展出更高的能力。用于训练模型的计算资源总量称为训练计算量。但是,更高的能力也意味着更高的社会风险,因为许多能力具有双重用途(如网络能力),而且能力更强的模型预计会被更广泛地使用和依赖,如果它们失败或以不希望的方式运行(如产生有偏见的输出),风险就会增加。因此,监管机构越来越多地对训练计算量超过一定限度的 GPAI 模型提供商提出要求。这些限制被称为计算阈值。本文讨论了训练计算的主要特征,以及相应的计算阈值在 GPAI 监管中应具有的功能。
全球 GPAI 监管越来越依赖于训练计算阈值。自 2023 年 10 月起、美国第 14110 号关于安全、可靠和可信地开发和使用人工智能的行政命令(美国人工智能行政命令)要求开发和部署超过 10 的26次方运算计算阈值的 GPAI 模型的公司通报政府,进行红队测试,并确保模型权重(第 4.2 节)。自 2024 年 8 月起,欧盟第 2024/1689 号条例规定了人工智能的统一规则(欧盟人工智能法案),假定超过 10 的25次方浮点运算计算阈值的 GPAI 模型会带来系统性风险(第 51(2)条)。此类模型的提供者必须通知欧盟委员会(第 52(1)条),进行模型评估,评估并降低系统风险,确保充分的网络安全,并报告严重事故(第 55 条)。最后,中华人民共和国人工智能法的早期草案将训练计算作为确定“关键人工智能”的标准之一,而 “关键人工智能”需要加强安全和安保措施。
同时,有关计算阈值的文献相对较少。虽然许多论文分析了训练计算的趋势,但只有少数论文讨论将计算作为人工智能治理的节点,并建议使用训练计算阈值。Hooker (2024)质疑将训练计算作为风险的替代物,并提出了(训练)计算阈值可能很快就会过时的问题。虽然本文指出了一些相关的挑战,但正如我们在下文中所论述的那样,本文对训练计算的特征、计算阈值在 GPAI 法规中可以和应该发挥的作用,以及已经纳入此类阈值的法规的准确表述缺乏细微差别。监管机构对计算阈值的依赖性越来越强,而学术文献却很少,这表明迫切需要对这一主题进行更多的学术研究。
本文旨在回答以下两个研究问题:(1) 训练计算的哪些特征与 GPAI 监管相关?(2)(训练)计算阈值在 GPAI 监管中的作用是什么?本文其余部分的结构如下:第 2 节阐明了训练计算的概念,第 3 节讨论了训练计算的实用功能,第 4 节介绍了训练计算的局限性。第 5 节提出了计算阈值在 GPAI 监管中应具有的功能(训练),第 6 节阐述了这方面的挑战。第 7 节最后提出了主要观点和进一步的研究问题。
|2训练计算
人工智能模型的训练是一个迭代过程,在这个过程中,模型的大量数值(即“参数”)和某种方式的排列(即“架构”)会暴露在大量数据中,使模型能够通过调整参数从数据中学习。这种学习可以是有监督的,即向模型提供有标签的示例;也可以是无监督的,即模型从无标签的数据中学习。
训练计算或简称“计算”,是指计算资源的数量,或更准确地说,是指训练人工智能模型所需的总运算量。训练过程在可以执行大量数学运算的计算机上运行。在此,我们不考虑这些运算是整数运算、浮点运算(FLOP)还是其他运算。目前,大多数人工智能训练主要使用浮点运算,但未来这种情况可能会发生变化。
因此,我们将所有类型的操作统称为“(训练)运算量(OP)”。用于训练模型的总运算量我们称为“(训练)计算”。这里的“计算”指的是整个训练过程中执行的总运算次数,不要混淆计算机的处理性能(每秒能够执行的运算次数,FLOP/s 或 OP/s)。例如,运行英伟达 A100 处理器( FP16 张量的处理性能为 312 TeraFLOP/s)一周,总共执行了 1.9 × 10的25次方FLOP。再乘以所使用的英伟达 A100 处理器数量,就得出了训练人工智能模型所使用的总运算次数。
近年来,随着训练数据量、模型参数数量的增加,以及训练所需计算量的增加(自 2010 年以来每年增长约 4 倍,图 3),人工智能训练的规模显著扩大。
图 3:随着时间的推移,用于训练人工智能模型的计算量。在前深度学习时代,训练计算量遵循摩尔定律,大约每两年翻一番。自 2010 年左右深度学习时代出现以来,训练计算量的增长速度更快,大约每 6 个月翻一番(每年增长约 4 倍)。这种快速增长的主要原因是对用于训练大型模型的计算资源的投资增加,这些模型的能力得到了提高。
目前还没有衡量模型训练计算的标准化方法。这就导致了模糊,在监管方面可能会被认为是有问题的。我们建议按照前沿模型论坛(Frontier Model Forum, 2024)的指导来测量训练计算。更确切地说,我们建议使用(塞维利亚等人,2022b)中描述的方法 1。不过,鉴于目前用于最终大型训练运行(“预训练”)的训练计算量每年增加约四倍,这些方法的具体细节并不重要。
相比之下,一个重要的问题是,是只关注用于预训练的计算,还是也包括用于微调、人类反馈强化学习(RLHF)和其他训练后增强的计算(图 4)。训练后增强可以显著提高模型能力,相当于训练计算量增加 5 到 20 倍。欧盟人工智能法案第 111 条建议将用于训练后增强的计算量包括在内:”对于训练的累计计算量,包括用于在部署前增强模型能力的各种活动和方法的计算量,如预训练、合成数据生成和微调。”
图 4:我们建议只测量训练前的计算量,而不包括进一步增强过程中使用的计算量。
我们认为,将用于训练后增强的计算也覆盖在内是缺乏实证依据的,没有必要,也不切实际。首先,现有scaling laws的经验基础是将模型性能描述为训练前计算量的函数,而不是用于微调或其他训练后增强的计算量函数(有关scaling laws的更多信息,请参见第 3 节)。这意味着,根据累计计算量提出要求是没有实证依据的。其次,与预训练计算相比,微调计算量很小。因此,将微调计算量包括在内,对整个训练计算量的测量只会产生很小的影响。最后,测量微调计算量是不切实际的,因为对于给定的预训练模型,微调需要重复多次,而且通常由下游开发人员执行。对每一个微调版本都重新测量训练计算(可能还要重新报告和重新进行模型评估),这对单个受监管对象来说将是极大的负担,也会导致更多的受监管对象增加。相反,我们建议只测量预训练计算。尽管训练后的增强功能可以显著提高模型的能力,但在设计计算阈值时不应直接考虑这一点,而只能间接考虑,这一点将在第 6.1 节中讨论。此外,在衡量一个模型的能力时,可以也应该考虑到训练后的增强,因为最终部署的将是增强后的模型。事实上,全面的模型评估应包括应用微调和其他训练后的增强功能,以尽可能激发预训练模型的全部能力。然而,对每个增强型模型版本重新进行模型能力评估既无必要,也不现实。如果预先训练的模型已经过评估,那么细微的变化可能不需要重新进行模型能力评估。
如果增强型模型构成了新的模型系列,我们建议定期对它们重新进行模型能力评估。
|3对 GPAI 监管有用的 3 个训练计算功能
训练计算有几个特点,使得成为监管 GPAI 的重要指标。也就是说,训练计算可以指代模型的能力,所以它的风险是易于衡量、难以规避、在开发和部署前可以衡量,可从外部验证,并指示开发者的资源,从而说明其应对监管负担的能力。下面,我们将逐一详细讨论这些特点。
风险跟踪:训练计算可显示模型的损失、能力和风险。
对于 GPAI 模型,用于训练模型的计算量与模型的损失、能力和可能带来的风险相关。实证研究发现,模型的训练计算量与其训练损失、测试损失或验证损失之间存在相关性,即scaling laws。此外,损失的改善往往与下游任务能力的提高相关。最后,随着模型的能力越来越强,如果被滥用或追求的目标不一致,可能会带来更大的风险。一个模型的能力也代表了它的使用范围和依赖程度,因此也代表了如果它失效或其他不希望出现的情况所带来的风险。例如,这可能包括受偏差产出影响的人数和严重程度的增加。
训练计算的特点--它与模型的损失、能力和风险的相关性--是最重要的,但也可能是最有争议的。虽然这一特点在今天已经引起争议,但我们强调,如果scaling laws在未来不再成立,例如,因为出现了深度学习以外的训练范式,训练计算将成为 GPAI 监管的一个不那么有用的指标。我们将在第 4 节更深入地讨论这一功能。
易于衡量:训练计算是一个可量化的指标,计算起来相对简单和便宜。
训练计算量是一个很容易衡量的指标,因为它可以直接从模型规范中计算出来,也可以从硬件使用数据中推断出来,而且只需极少的工作量。训练计算也是单维度和持久的,这与其他指标不同,因为许多指标都是多维度的(如数据质量和类型),或者可能很快就会过时(如模型能力基准)。
难以规避:如果不降低模型的能力和风险,就很难减少训练计算量。
训练计算对规避尝试相对稳健,因为减少用于训练模型的计算量通常会降低其能力,从而降低风险。这是因为,对于特定的模型架构和训练算法,所用的计算量与模型的能力和潜在风险直接相关。因此,GPAI 开发人员不能简单地决定在保持相同能力水平的情况下减少使用计算。相反,GPAI 开发人员可以调整其他指标,如特定基准的分数,以避免监管,而不会对模型的能力产生重大影响。
不过,算法效率的提高可以减少特定能力水平所需的计算量。随着时间的推移,这可能会让资源较少的参与者开发出达到特定能力水平的模型。事实上,算法效率的提高对使用计算阈值构成了挑战。不过,虽然未来算法效率的提高可能会降低相同能力水平所需的计算量,但这代表的是自然进步,而不是主动规避的尝试。有目的地减少固定算法的训练计算量,仍将以降低能力和风险为代价。我们将在第 6.3 节中讨论何时更新计算阈值以考虑算法效率改进的问题。
开发和部署前的可测量性:在模型部署之前,甚至在模型训练之前,就可以计算训练计算量。
训练计算可以在部署之前知道,也可以在开发之前估算。这一点非常重要,因为监管机构可能希望对模型的开发和部署方式提出要求。训练计算可以在模型部署之前计算,因为训练将届时完成。在模型开发前,可以按照 Sevilla 等人(2022b)的方法 1 所述,利用架构细节和训练数据量来估算训练计算量。人工智能公司会仔细规划训练运行,因为训练最先进的模型通常需要数以万计的 GPU,成本高达数百万美元。由于涉及大量计算资源和资金投入,公司有强烈的动机事先准确估算训练计算量,以确保高效的资源分配和预算规划。通过在训练开始前估算训练计算量,开发人员可以在训练过程中实施计算索引预防措施。例如,他们可以确保为计算机密集型训练采取强有力的网络安全措施,降低模型失窃或未经授权访问的风险。
外部可验证性:外部各方可在不披露专有细节的情况下验证计算使用情况,从而提高合规性。
理想情况下,训练计算的测量结果可由不同的外部方通过协议进行验证,并保持专有信息的机密性。这还可以实现跨公司甚至跨国的可验证承诺。计算提供商可以在训练计算的基础上帮助验证要求。这是特别可取的,因为计算提供商可以在不侵犯开发人员机密的情况下监控和验证计算使用情况,而模型能力和其他指标则可能需要访问敏感的模型细节。
成本跟踪:对于开发成本较高的模型,训练计算的比例会更高,从而最大限度地减轻较小参与者的监管负担,同时专注于资源最充足的参与者。
用于训练模型的计算量关系到所需的资金(图 5)。例如,训练一个运算量10 的26次方(7000 万美元)的模型,其成本大约是训练 10 次的25次方(700 万美元)的模型的 10 倍。训练最先进模型所需的大量计算通常只有资源充足的组织才能获得。通过将计算阈值设定在适当的水平,监管机构可以将重点放在最先进和有潜在风险的模型上,而不会对人工智能生态系统中的较小参与者(如初创企业、小企业或学术研究人员)造成不必要的负担。
图 5:用于训练人工智能模型的成本和计算量。用于训练模型的计算量与训练模型所需的资金量直接对应。这种快速增长的主要原因是为训练大型模型而增加了计算资源投资,这些模型的能力得到了提高。
然而,特定的计算成本会随着时间的推移而降低。据观察,机器学习 GPU 的计算性价比(FLOP/每美元)每 2.1 年翻一番,普通 GPU 则每 2.5 年翻一番。随着计算成本的降低,更多的参与者可能会开发出跨越计算阈值的模型。监管范围的扩大将给较小参与者带来监管负担,随着被监管实体数量的增加,在扩大监管范围方面会带来挑战。在第 6.3 节中,我们将讨论如何考虑因计算性价比提高而可能扩大的监管范围。
|4与 GPAI 监管相关的训练计算局限性
在本节中,我们将讨论与前沿人工智能监管相关的训练计算主要局限性。我们认为,训练计算只是一个非常粗略的风险代用,将来,训练计算可能会成为一个更糟糕的风险代用,甚至完全不再能是代用指标。
Scaling laws描述了训练计算与模型损失之间的关系(第 3 节)。损失与能力的后续关系并不总是"平滑”的。例如,在某些任务中观察到了反向scaling,尽管在其中一些任务中,这种关系随着进一步scaling而重新建立。此外,随着损失的逐步改善,能力也会出现跃升,或者至少是明显的跃升,这取决于能力的测量粒度。
能力的提高与风险之间的关系也并不 "平滑”。可以说,模型的能力越高,风险就越大,因为它可能被滥用于更危险的目的,而且很可能被用于更多、更高风险的场合。然而,风险与具体情况密切相关。除模型能力外,其他因素也会对风险产生重大影响。重要因素包括:人工智能系统的攻防平衡,即人工智能系统对有益或有害用途的帮助更大;威胁状况,即恶意参与者使用人工智能系统的数量、能力和意愿,以及社会脆弱性或适应性,即社会应对攻击、故障和紧急情况的能力,例如通过有能力、资源充足和稳定的机构。
从本质上讲,训练计算与损失相关,损失与能力相关,而能力又与风险相关。因此,训练计算是风险的代用指标;然而,由于这三种相关性都不完美,因此训练计算只能被视为非常粗略的风险代用指标。
从根本上说,将训练计算作为风险代用的概念取决于scaling laws的有效性。虽然scaling laws是从过去的数据中得出的实证观察结果,但并不能保证这些关系会无限期地持续下去。有一种被称为"缩放假设"的预测认为,这些关系在未来将继续保持不变。不过,人工智能领域的创新可能会逐渐导致深度学习范式的转变,或者说,预训练阶段对于决定人工智能模型的最终能力可能会变得不那么重要。因此,随着时间的推移,训练计算对风险的代用可能会变得不那么精确,或者有可能完全不再作为风险的有效代用指标。尽管如此,我们预计训练算与风险之间的关系不会突然中断。任何潜在的转变都可能随着该领域的长期发展而逐渐发生。在第 6.3 节中,我们将讨论如何考虑因算法效率提高而导致的训练计算量与风险之间关系的变化。
|5GPAI 监管中训练计算阈值的功能
在前几节概述的训练计算特征的基础上,我们将在本节中论证计算阈值可以而且应该被用作初始过滤器,以识别需要监管、进一步审查和预防性安全措施的模型。然而,鉴于计算能力只是能力和风险的一个非常粗略的代用指标,计算能力阈值不应最终决定需要采取哪些安全措施。在计算阈值之后,应采用模型构成风险的更精确代用指标的决策标准,如能力阈值(第 5.1 节)。美国人工智能行政命令(第 5.2 节)和欧盟人工智能法案(第 5.3 节)都采用了这种方法。
5.1 初始过滤器
在对 GPAI 模型提出要求时,决策者需要考虑五个相互关联的问题:
需要应对哪些风险?(例如,大规模的社会危害)
哪些模型会带来这些风险?(如先进的 GPAI 模型)
哪些指标与这些模型的特征相对应?(如训练计算)
模型开始构成这些风险的指标值的阈值是多少?(例如,10 的26次方训练计算)
对超过阈值的模型应提出哪些要求来应对这些风险?(例如,报告、模型评估和风险评估)
一般来说,易于衡量的指标(如训练计算)更可取,以确定哪些 GPAI 模型属于法律要求范围。同时,一般来说,更好地代表 GPAI 模型风险的指标,如模型能力,更能确保要求针对有风险的 GPAI 模型。在易衡量性与风险相关性之间往往需要权衡(详见第 6.4 节)。总之,对于 GPAI 模型所带来的风险而言,一些较难衡量的指标应与成本较低、确定性较低的要求相结合,而对于 GPAI 模型所带来的风险而言,一些较好的指标可与成本较高、确定性较高的要求相联系。此外,在其他条件相同的情况下,要求越严格,门槛就越高,因此也就越具有排他性。
基于这些考虑,计算阈值的功能应该是作为一个初始过滤器,用于识别可能存在问题的模型。训练计算是一种易于衡量和外部可验证的风险代用指标,可以将重点放在风险最大的模型和资源最充足的参与者身上(第 3 节)。计算阈值提供了一种简便的方法来识别那些需要引起公司和监管机构高度关注的 GPAI 模型,同时过滤掉大部分不太可能造成大规模社会危害风险的 GPAI 模型。因此,使用计算阈值作为初始过滤器有助于减少监管者的合规负担和执法成本,同时将注意力集中在那些最有可能造成大规模社会危害风险的 GPAI 模型上。
不过,计算阈值的作用应该只是作为一个初步筛选,以确定哪些模式需要监管部门的监督和进一步审查。训练计算已经是一个非常粗略的风险代用指标,这种关系在未来可能会变得更糟(第 4 节)。因此,计算阈值应辅之以基于更精确但可能更难评估的指标的阈值,如模型能力评估。
特别是,计算阈值不应被用来最终确定需要采取哪些减缓措施(除了一些关键的预防性减缓措施外)。对于超过计算阈值的模型,应通过模型评估和风险评估对其造成的风险进行更严格的分析。根据这些分析的结果,可能需要具体的缓解措施(已经采取但证明没有必要的预防性缓解措施可以停止)。目前,合理的方法是首先应用计算阈值(确定需要监督和审查的 GPAI 模型),然后应用能力阈值(最终确定需要实施哪些缓解措施)(第 4 节)。
我们还强调,不应将计算阈值用于所有旨在应对人工智能风险的要求。首先,人工智能的许多风险源于应用人工智能模型的环境和方式,而不是这些人工智能模型的内在属性,此外有必要在应用层提出要求。特别是,例如在教育、招聘和公共服务中,应用人工智能模型所造成的偏见、歧视和公平风险,除了模型层之外,还应通过应用层的要求来应对,如欧盟人工智能法案第二章(禁止的人工智能实践)、第三章(高风险人工智能系统)和第四章(透明度义务)。对于应用层的要求,计算阈值通常没有意义,但其他标准(如应用类型)起决定性作用。其次,GPAI 模型的某些风险与训练计算量无关,例如侵犯版权或隐私的风险。这些风险应通过对所有 GPAI 模型的要求来应对,就像欧盟人工智能法案第 53 条所做的那样。第三,侵权法和刑法等事后监管当然不应取决于计算阈值。总体而言,在一个完整的人工智能监管框架中,大多数要求不应取决于训练计算量(图 6)。
图 6:计算阈值在 GPAI 监管中的作用框架。计算阈值可作为初始过滤器,用于识别需要监管和进一步审查的 GPAI 模型,例如,根据能力阈值进行评估,以确定适当的缓解措施,并辅以其他人工智能要求。
作为监管监督和进一步审查的初步筛选,各部门都制定了基于易衡量标准的阈值。例如,在美国,环境保护局(EPA)的生态风险评估首先要确定污染物的浓度是否超标,然后才会进行更彻底的风险评估。在欧盟,《数字服务法》(DSA)规定,超大型在线平台和超大型在线搜索引擎需要进行系统性风险评估,评估的依据是它们是否"在欧盟内平均每月活跃的服务接受者数量等于或高于 4500 万"。同样,欧盟数据保护法(GDPR)规定,对大规模处理数据的实体进行数据保护影响评估。在这种情况下,具体的衡量标准和阈值由成员国指定,成员国选择了不同的阈值,其中大多数阈值基于数据所涉及的人数。
图 7:美国人工智能行政命令引入了通报要求,即使用 10 的26次方以上运算量训练的模型,以及主要使用生物序列数据训练的 10 的23次方运算量的模型。
美国人工智能行政命令规定,公司必须向政府通报正在进行或计划进行的与开发超过计算阈值的模型有关的活动(第 4.2(a)(i)(A) 条)。它还要求这些公司报告为确保模型权重的物理和网络安全而采取的措施(第 4.2(a)(i)(B)条),并分享红队测试的结果和根据这些结果采取的缓解措施(第 4.2(a)(i)(C)条)。
美国人工智能行政命令使用的计算阈值与我们所认为的计算阈值的作用是一致的(第 5.1 节)。其要求侧重于报告以加强监管,这也是计算阈值可以实现的主要功能之一。虽然美国人工智能行政命令并未强制要求公司实施安全措施或进行红队测试,但相应的报告要求却强烈推动公司采取此类措施,以免在监管机构面前显得不负责任。我们认为,进行红队测试的压力也是有道理的,因为加强审查是计算阈值的另一个主要功能。实施安全措施的压力也可以基于计算阈值。不过,我们认为,如果公司确定其模型没有超出特定的能力水平,或可以证明其足够安全,则应允许公司选择再次放宽安全措施。我们将在第 6.2 节讨论特定领域的计算阈值。
5.3 欧盟人工智能法案
欧盟人工智能法案是全球最全面的人工智能监管框架,禁止某些人工智能实践(第二章),对某些高风险的人工智能系统提出要求(第三章),要求在服务和内容制作中使用人工智能的透明度(第四章),并对 GPAI 模型提出要求(第五章)。关于后者,欧盟人工智能法案利用计算阈值来区分有系统风险和无系统风险的 GPAI 模型。具体而言,该法案以下列方式划定了界限:
"根据第 1 款(a)项 [并因此被归类为构成系统性风险],当以浮点运算计算的用于训练的累计计算量大于 10 的25次方,应推定通用人工智能模型具有高影响能力"(第 51(2)条)
与美国人工智能行政命令中的一般计算阈值相比,这一计算阈值具有直接相关性。截至 2024 年 7 月,据官方报告,欧盟现有的一个模型(Inflection-2)已经跨过了 10 的25次方训练计算的阈值,据估计,其他一些现有模型(如 Gemini Ultra、GPT-4、Inflection-2.5)也已经跨过了这一阈值,而且可能还会有更多这样的模型(图 8)。
图 8:美国人工智能行政命令对运算量超过 10 的26次方的模型提出了报告要求,而欧盟人工智能法案则假定 GPAI 模型会带来系统性风险,并对累计计算量超过 10 的25次方的模型提出了各种要求。
在欧盟人工智能法案中,计算阈值只是识别具有系统性风险的 GPAI 模型的几种方法之一,但它目前是最具体的方法。更详细地说,第 51 条第(1)款规定,如果一个 GPAI 模型具有"高影响能力"或"与(a)款所述能力或影响相当",则该模型应被归类为具有系统性风险。关于第一种选择,高影响力能力被定义为"与最先进的通用人工智能模型所记录的能力相匹配或超过这些模型的能力"。如果一个模型的计算阈值超过 10 的25次方浮点运算,则推定该模型具有高影响能力,从而构成系统风险。关于第二种选择,"能力或影响等同于(a)款所述能力或影响"的含义没有界定,也不太清楚。相反,欧盟委员会 "根据附件 XIII 中规定的标准"(第 51(1)(b)款)决定这些条件是否得到满足。这些标准包含第 6.4 节中讨论的许多指标,包括参数数量、训练数据的质量和数量以及用户数量。总体而言,计算阈值目前似乎是最具体地概括 GPAI 模型构成系统性风险的方式,因此可能是近期最相关的方式(图 9)。
图 9:欧盟人工智能法案概述了将通用人工智能(GPAI)模型归类为构成系统性风险的两种主要途径。第一条路径是,如果模型具有与最先进的 GPAI 模型相匹敌或超过其水平的"高影响能力",则将其视为高风险模型;如果训练计算量超过 10 的25次方浮点运算 (FLOP),则将其视为高风险模型。或者,欧盟委员会可以根据附件 XIII 中概述的标准对模型进行分类。通过这两种途径被视为高风险的模型都要接受严格的监管,以降低系统性风险。
第 52(1) 条要求提供商在 GPAI 模型超过或将超过第 51(1)(a)款规定的阈值时,特别是超过第 51(2)条规定的计算阈值时,必须通知欧盟委员会。这项工作应"毫不拖延,无论如何应在两周内完成"。此外,第 55 条要求具有系统性风险的 GPAI 模型的提供者进行模型评估,评估和降低系统性风险,报告严重事故,并确保模型及其网络安全。这些要求相对模糊,但将通过 "行为准则"(CoP)具体化。欧盟人工智能法案使用的计算阈值与我们所认为的计算阈值的作用(第 5.1 节)基本一致。它侧重于监管监督(通知和严重事故报告)和进一步审查(模型评估和系统风险评估)的要求。降低系统性风险和确保充分的网络安全的要求似乎超出了我们认为计算阈值的用途(计算阈值不应被用来确定需要实施哪些降低风险的措施)。但是,这些要求并不一定要这样解释。我们认为,行为准则可以而且应该进一步区分在哪些情况下必须采取哪些减缓措施(例如基于模型评估结果),因此这并不完全由计算阈值决定。
欧盟人工智能法案中的另一个重要机制是,提供商可以证明其模型不构成系统性风险,哪怕是满足第 51(1)(a)款的条件,如计算阈值。如果因为跨过了计算阈值而推定满足了第 51 (1)(a)的条件,那么这种例外情况就尤为合理,因为训练计算只是一种非常粗略的风险代用指标(第 4 节)。这一规定与我们所主张的计算阈值的使用方式是一致的(第 5.1 节)。如果一个模型表明尽管通过了计算阈值,但并不构成系统性风险,提供商将被允许避免进一步的模型与风险评估等,并放弃他们已经采取的任何预防性安全措施。总的来说,欧盟人工智能法案可以理解为将其计算阈值嵌入了一个类似于我们在第 5.1 节中所建议的框架中(图 10)。
图10:欧盟人工智能法案如何被理解为实施图 6 的框架。超过10 的25次方FLOP训练计算阈值的GPAI模型被归类为构成系统性风险,触发要求,如通知委员会、进行模型评估和风险评估、报告事件以及实施预防性风险缓解和网络安全措施。行为准则(CoP)中概述的后续模型能力阈值进一步将这些高风险模型分为低或高系统性风险级别,为日益严格的缓解和网络安全要求提供信息。
图11:可以与有效计算相关联的频谱性能指标。训练损失、验证损失和测试损失等技术指标在计算中扩展更顺畅,更容易测量和验证,并且不太依赖上下文。相比之下,能力基准可能会随着计算而更突然地扩展,更接近现实世界的效用和影响,但有时会更简化特定测试。
易于规避:规避有效计算的难易程度取决于所选的性能指标。训练损失或验证性能等定量指标更为稳健,但如果以评估或基准为基础,有效计算面临着与模型能力评估类似的规避风险(第 6.4.2 节)。公司可以通过设计性能不佳的模型,但仍能在预期能力方面表现出色,策略性地选择评估,或故意使性能不佳("沙袋")来规避评估。
开发前无法测量:训练计算通常在开发之前就已知道,而有效计算则需要在开发后对性能进行分析。与模型能力一样,性能也可以预测,但这种预测仍然非常不可靠。
难以从外部验证:与训练计算相比,验证有效计算可能需要获取更多的专有信息。在公布标准训练计算数据的同时公布有效的计算数据,可能会暴露公司的算法进展,从而加剧人工智能行业的竞争态势。
成本跟踪:有效计算与开发模型的成本相关,因为性能的提高主要源于训练计算量的增加(第 3 节)。
总之,目前使用有效计算作为衡量标准还存在一些实际挑战。我们需要开展更多研究,开发标准化方法来衡量有效计算,以解决这些问题。如果成功,有效的计算衡量标准可以成为人工智能性能的"人均 GDP"(例如,通过创建"一篮子名义基准")。目前,有效计算最适合公司内部使用,因为在公司内部可以随时获得准确评估所需的工具和见解。公司可以利用有效计算为其安全政策选择检查点。由于缺乏标准化方法和获取模型的途径有限,包括监管机构内的外部实体可能难以准确评估有效计算。此外,监管机构可能尚不具备准确评估有效计算所需的技术专长。鉴于这些挑战,我们目前建议不将有效计算用于监管目的。
6.4.4 参数、数据和其他指标
本节将对其他指标进行初步分析,并与上述讨论较多的指标进行比较。本节中的指标包括模型开发和部署中的大多数主要变量。在讨论每个指标时,我们假定所有其他变量的值都是固定的(例如,在讨论模型架构与风险之间的相关性时,我们假定训练计算量是固定的)。我们强调,本节的讨论是初步的,我们提出的许多观点需要进一步的工作和实证调查。
模型架构和训练算法:模型的架构和训练算法会影响其能力,进而影响风险,但根据经验,其影响程度远小于训练计算量。此外,这些指标难以量化,经常涉及阶跃变化,而且是多维的,不同维度之间存在复杂的协同作用(例如,一定数量的层可能与一定的学习率配合得很好,但与另一种学习率配合得不好)。
模型参数数量:模型参数的数量可以跟踪能力,从而跟踪风险,并且可以简单地进行计算。然而,某些模型架构,如混合专家模型(MoE),可以显著改变模型参数的数量,而不一定会增加模型的能力和风险,并且可以通过模型剪枝等后训练技术来控制模型参数的数量,而不一定会降低模型的能力和风险。此外,模型参数的数量会影响所需的训练计算量,因此该指标也反映了这一点。在给定的数据量下,要处理更多的训练参数,就需要更多的训练计算量。此外,开发人员有望在模型参数数量和训练数据量之间找到一个最佳比例,正如scaling laws所描述的那样。因此,对于给定的架构,并假设训练计算分配根据scaling laws是最优的,训练计算意味着模型参数的数量。
训练数据的数量和质量:训练数据的数量会影响模型的能力和风险,以tokens或字节为单位进行量化。然而,数据质量也至关重要,它影响着信息密度和多样性等各方面的能力,但却缺乏客观或标准化的测量方法。重要的是,数量和质量是相互关联的--数据越多,质量越差,并不能保证性能越好,而高质量的数据可以弥补较小的数据量。此外,即使数据集大小固定,训练过程中训练数据的迭代次数或传递次数也会影响总计算需求。开发人员根据scaling laws优化参数比率、数据大小、数据质量和训练轮数。因此,对于具有最佳计算分配的给定架构而言,训练计算量可以间接代表所使用的训练数据量和训练迭代数,但不能代表训练质量。
用户数量:用户数量与事故风险相关,在某种程度上也与滥用风险相关(用户群越大,滥用的可能性越大)。然而,它可能与错位风险或部署前出现的风险不相关(如恶意行为者窃取和滥用模型)。这一指标在部署前难以估计,在开发前更是如此。
应用:虽然应用通常在部署前就已知晓(除非模型权重已公开发布),但许多 GPAI 模型都用于通用工具,如为 ChatGPT 提供动力的 GPT-4。在开发之前,考虑应用往往没有意义,就像 GPAI 模型一样顾名思义,它具有广泛的功能,可用于许多下游应用。
危害:这一指标是风险的具体化。然而,在开发或部署之前并不知晓。在开发和部署之前,我们所能做的最好的事情就是估计危害的可能性和严重性,即风险估计(第 6.4.1 节)。当然,这种风险估计应根据监测收集到的数据进行更新,如果发生特定数量或类型的事件,应随时停止开发或部署。然而,到那时,这些事件造成的伤害就无法挽回了。因此,特别是对于不可逆转的大规模损害,除了事后衡量风险的指标外,我们还需要事前衡量风险的指标。
表1:GPAI 监管潜在指标的首次排名,涉及第 3 节讨论的特征。
如果scaling laws不再成立,训练计算能力成为更糟糕的风险代用指标,那么用其他指标来补充单纯的计算阈值就变得非常重要(第 4 节)。特别相关的组合可能包括训练计算和模型能力评估(以确保捕捉能力最强的模型)以及训练计算和用户数量(以确保捕捉使用最广泛的模型)。然而,任何阈值都应基于模型生命周期早期易于测量的指标,作为识别潜在问题模型的初始过滤器。至少目前不包括模型能力评估,不包括在部署前用户数量。
|7结论
计算阈值虽然并不完美,但目前是 GPAI 监管的主要工具之一。它们提供了一个与风险相关、易于衡量和外部可验证的指标,可为监管决策提供信息,同时最大限度地减少规避行为,并将目标对准资源最充足的行为者。目前,它们是识别潜在风险模型、触发监管监督和进一步审查的最佳工具。
与计算阈值有关的许多问题都需要进一步研究。特别是,与更新计算阈值相关的趋势需要进一步研究--既包括对其当前发展的实证研究,也包括对其未来发展的理论研究(第 6.3 节)。此外,还应进一步研究除训练计算之外其他指标的有用性,尤其是有效计算(我们认为这是一个非常有前途的指标)(第 6.4.3 节),以及如何将训练计算与模型能力评估或用户数量等其他指标相结合(第 6.4.4 节)。我们想强调的另一个研究领域涉及计算阈值的执行。监管机构需要哪些信息?监管机构应依靠什么程序来确保获得这些信息(例如,是否应检查公司)?如果公司不在监管机构管辖范围内,有哪些特殊考虑?
最后,计算阈值并不足以对 GPAI 进行监管,它们只是众多工具中的一种。它们的有效性取决于具体情况和整体监管框架的设计。特别是,关于能力阈值是否优于计算阈值的讨论存在误导。能力阈值是补充性的,尽管它们在未来可能会发挥更重要的作用,但计算阈值也可能仍然是 GPAI 监管的一个重要工具。通过了解计算阈值的优势和局限性,决策者可以就何时以及如何将计算阈值纳入 GPAI 监管综合方法做出明智的决定。
文献来源:https://www.governance.ai/research-paper/training-compute-thresholds-features-and-functions-in-ai-regulation