2025 年 5 月 26 日
YouTubYouTube 屏幕截图
通用人工智能的历史是一个关于期望、创新和令人谦卑的复杂性的故事。
Introduction 引言
通用人工智能(AGI),通常被称为“强人工智能”,是具备理解、学习和应用知识以完成广泛任务的能力的人工智能理论形式,其水平等于或超过人类智能。与旨在执行特定任务(例如语言翻译、下棋或人脸识别)的狭义人工智能不同,AGI 意味着能够适应不熟悉情况、进行抽象推理并在决策中表现出自主性的机器。虽然狭义人工智能在近几十年来取得了显著的实践成功,但 AGI 仍然主要是一个理想目标——它不仅挑战技术能力,也挑战哲学、伦理和认知边界。本文追溯了 AGI 的历史,从其在古代哲学中的概念根源,到其在计算机科学及其他领域的现代实现挑战。
创造具有与人类相当智能的人工生物的愿望早于现代科学时代,其起源可追溯至古代文明的神话和哲学。这些早期的构想虽然并非科学性质,但揭示了人类对智能构造的深刻迷恋。在希腊神话中,火与工艺之神赫淮斯托斯锻造了金制的自动机来为奥林匹斯山的众神服务。其中最著名的是塔洛斯,一个巨大的青铜雕像,它在克里特岛巡逻以保护该岛免受入侵者。 1 这些故事反映了人类早期试图将非人类智能赋予形式的想象力,通常将它们描绘成魔法或神圣的存在。这些叙事表明,早期人们相信智能可以存在于非生物形式中,这一思想至今仍存在于关于通用人工智能(AGI)的理论框架中。
带翼的“ΤΑΛΩΝ”(塔洛斯)手持石块。来自克里特岛法伊斯托斯的银币正面(约公元前 300/280-270 年)。/ Jastrow 摄影,法国国家图书馆,维基媒体共享
AGI 的哲学渊源在古典和早期现代思想中尤为突出,特别是在那些探讨心灵本质和机械推理可能性的思想家中。例如,柏拉图区分了理念世界——永恒完美的概念——和物质世界,暗示真正的理解存在于抽象领域。 2 这种二元论后来在启蒙运动的机械哲学中得到了呼应。在 17 世纪,勒内·笛卡尔论证了思维实体(res cogitans)和广延实体(res extensa)之间的根本区别,确立了心灵是非实体、能够独立于身体进行推理的观点。 3 这种二元框架影响了后来将智能概念化为可能从物理大脑中抽象出来的功能,为想象人工智能奠定了理论基础。
在同一时期,戈特弗里德·威廉·莱布尼茨提出了一种可能与现代计算理论更为契合的愿景。他提出了“通用特征”的开发,这是一种能够表达所有人类思维和逻辑关系的符号语言。 4 他的计算机器能够通过符号进行推理的思想,预示了后来形式逻辑和计算的发展。对于莱布尼茨来说,理性本质上是机械的——如果思维可以简化为计算,那么理论上机器就能够思考。这一思想飞跃对未来关于通用人工智能(AGI)的愿景至关重要,这些愿景认为心智能力可以被抽象化、形式化,并最终在人工基质中复制。莱布尼茨的贡献表明,在图灵或数字计算出现之前,就已存在一种关于心智的原计算观点。
启蒙运动也见证了机械自动机的普及——这些精巧制作的机器模仿生命和行为。这些创造,如雅克·德·瓦康松的消化鸭或皮埃尔·雅凯-德罗的复杂拟人自动机,吸引了欧洲各地的观众,并强化了通过工程复制生命和智能的观点。 5 虽然这些自动机不会思考,但它们体现了机器作为能够执行逼真功能的实体的愿景,模糊了有机体和机械之间的界限。这种机械世界观支持了这样一种观点,即如果给定正确的原理和设计,智能有一天可能会从物质中产生——这是 AGI 讨论的核心主题。这些创造表明人类的智慧可以模拟生命,进而,也许有一天可以模拟心灵本身。
宗教和神秘传统通过探索知识赋予物质生命和改变物质的力量,为通用人工智能(AGI)的先声做出了贡献。在犹太神秘主义中,《哥勒姆》的传说讲述了拉比们如何通过秘密知识和神圣名称将黏土塑像赋予生命,以服务于保护他们的社区。 6 虽然哥勒姆是神圣力量的象征,但它也代表了不受控制创造的危险——这是现代 AGI 辩论中一个持久的主题。类似地,炼金术和赫尔墨斯传统认为,理解生命的本质可以赋予人类控制自然本身的力量,包括创造人工生物的能力。这些叙事突显了一个反复出现的张力:构建智能的愿望,以及这种力量可能脱离人类控制的恐惧。它们预示了当今围绕 AGI 的许多伦理和哲学关切——特别是面对技术创造时需要智慧和谨慎。
1951 年的艾伦·图灵。/ 蒙自:维基媒体共享
人工智能的思想起源与 19 世纪和 20 世纪的现代计算诞生密不可分。这一发展的基础是查尔斯·巴贝奇和艾达·洛芙莱斯的工作,他们设想了不仅能够进行算术计算而且能够进行符号推理的机器。巴贝奇设计的分析机虽然从未完全实现,但引入了可编程性、存储和控制流等基本原理——这些概念将成为现代计算的核心。 7 艾达·洛芙莱斯通常被认为是第一位计算机程序员,她理论认为分析机可以操作符号和作曲,预示了机器能够从事需要创造力和逻辑的任务的想法。 8 她的愿景挑战了计算仅仅是数字的观点,为机械智能的更广泛概念打开了大门。这些早期的见解提供了一个哲学和技术蓝图,在 20 世纪,随着理论家们开始构建真实的数字机器,这一蓝图被重新激活。
概念革命真正成型于艾伦·图灵,其 1936 年的论文《可计算数》引入了通用图灵机的抽象模型。图灵证明原则上任何计算都可以由这样的机器完成,为数字计算奠定了形式基础。 9 对人工智能而言,更重要的是,图灵提出心智本身可以被建模为一个计算系统。在其具有里程碑意义的 1950 年论文《计算机器与智能》中,图灵提出了挑衅性的问题“机器能思考吗?”并引入了后来被称为图灵测试的方法——一种评估机器展现与人类无法区分的智能行为的能力的方法。 10 这项工作将智能重新定义为可能被非生物系统实现的进程,为通用人工智能奠定了哲学基础。图灵的模型结合了数学逻辑的抽象严谨性与关于机器认知的大胆推测,形成了计算与人工智能之间的思想桥梁。
与图灵的理论贡献并行的是逻辑和形式系统的发展,其中最值得注意的是库尔特·哥德尔、阿隆佐·丘奇等参与数学基础论战的学者的工作。丘奇的λ演算和哥德尔的不完备性定理既展示了形式系统的力量与局限,同时也表明逻辑可以编码类似于人类思维的运算。 11 克劳德·香农在 20 世纪 40 年代的信息论研究也至关重要,因为它将通信和符号处理数学化,强化了认知可以还原为信息操作的观念。 12 这些理论被应用于早期的计算机,如 ENIAC 和后来的 UNIVAC,这些计算机最初设计用于数值任务,但越来越多地用于符号处理。这些发展共同标志着从将机器视为算术工具到将其视为推理潜在代理的转变。
人工智能作为一个正式学科的建立始于 1956 年由约翰·麦卡锡、马文·明斯基、内森·罗切斯特和克劳德·香农组织的达特茅斯人工智能夏季研究项目。这次会议创造了"人工智能"这一术语,并为数十年的研究设定了议程:构建能够实现人类水平的学习、推理和感知的机器。 13 麦卡锡随后开发的 LISP 编程语言为人工智能社区提供了一种灵活的工具,用于表达符号逻辑和递归操作——这对于构建早期的 AI 程序(如通用问题求解器和 ELIZA)至关重要。 14 这些早期的努力采用了基于规则的方法,假设通过系统应用形式逻辑可以模拟智能。虽然这种方法在狭窄的领域很有前景,但后来被批评为过于脆弱且无法扩展到现实世界的复杂性,但在当时,它代表了实现思考机器梦想的重要一步。
随着 20 世纪的推进,人工智能研究迅速发展,从孤立的实验转向更雄心勃勃的系统。硬件和编程语言的进步使得专家系统在 20 世纪 70 年代和 80 年代得以发展,这些系统试图将人类专家的知识和启发式方法编码到数字框架中。这些系统,如医疗诊断中的 MYCIN,证明了机器在特定领域可以超越人类,从而加强了人们对人工智能未来的乐观情绪。与此同时,其他方法——如受生物模型启发的神经网络——开始获得关注,尽管它们最初面临技术限制和理论上的怀疑。人工智能界分裂成不同派别,其中“连接主义者”倾向于通过模式识别进行学习,而“符号主义者”的研究人员则强调基于逻辑的表示。尽管早期遭遇挫折,但这些不同的线索后来在现代深度学习和混合系统的时代汇聚,根植于巴贝奇、图灵以及计算先驱们的基础性见解。
Public 公共领域
20 世纪中期,符号式人工智能(AI),也被称为“老式传统人工智能”(GOFAI)的出现,标志着机器智能探索的重大转变。基于人类认知可以通过符号操作和形式逻辑规则来理解和复制的假设,符号式人工智能从逻辑学、语言学和认知心理学中汲取灵感。像艾伦·纽厄尔和赫伯特·A·西蒙这样的早期先驱开发了诸如逻辑理论家(1956 年)和通用问题求解器(1957 年)等程序,这些程序旨在通过明确规则和目标导向推理来模拟人类问题解决过程。 16 这些系统是首批证明在提供定义的符号框架时,计算机能够解决抽象问题的系统之一。他们的工作为一代人工智能研究奠定了基础,这一代研究基于假设,即智能由符号处理构成,就像语言通过语法和句法进行处理一样。
符号 AI 的核心是物理符号系统假说,由纽厄尔和西蒙于 1976 年明确提出。他们提出,物理符号系统具有实现通用智能行动的必要且充分手段。 17 这一大胆主张将符号操作置于认知建模的核心,激发了人们对 AI 系统最终能够匹敌甚至超越人类推理能力的乐观预期。AI 研究人员构建了复杂的知识库和基于规则的系统,试图将世界的语义编码为机器可导航的逻辑结构。20 世纪 70 年代和 80 年代专家系统的发展——例如用于医学诊断的 MYCIN 系统和用于化学分析的 DENDRAL 系统——展示了符号推理在高度专业领域的实用价值。 18 这些系统结合了事实、规则和推理引擎来做出决策,并且在狭窄的任务中往往能够达到或超过人类专家的水平。
然而,随着研究人员试图将符号 AI 的成功扩展到定义明确领域之外,符号 AI 面临着日益严峻的挑战。现实世界是混乱的、模糊的,并且往往难以严格形式化,而符号系统难以相应地扩展。将领域知识编码成规则的过程是费力的且脆弱的,通常需要数千条手工制作的规则,而这些规则往往无法在不同的情境中泛化。此外,这些系统缺乏与人类认知相关的灵活性和适应性;它们无法像人类那样从新数据中学习或推断未声明的假设。框架问题——由约翰·麦卡锡首次阐明的问题——突出了符号系统在辨别庞大知识库中哪些事实与特定推理任务相关时面临的困难。这些局限性揭示了形式逻辑与现实世界智能的流动性之间的根本性脱节,到 20 世纪 80 年代末,这引发了人工智能研究领域的危机。
符号范式衰落进一步加速于人工智能寒冬——由于期望未达和结果令人失望导致的资金和兴趣减少的时期。1970 年代中期的第一次人工智能寒冬是由机器翻译系统和通用人工智能未能实现其雄心勃勃的承诺所引发。 21 1980 年代末随之而来的是更为严重的第二次寒冬,因为专家系统在商业应用中证明其脆弱,且难以维护或更新。随着符号人工智能越来越多地被视为一种过于僵化和有限的方法来复制人类智能,幻灭感油然而生。诸如现象学造诣深厚的哲学家 Hubert Dreyfus 等批评者早已警告说,智能不能仅通过符号操作来捕捉。在其有影响力的批判著作《计算机无法做什么》中,Dreyfus 认为人工智能需要应对人类理解的具身化和情境化本质。 22 他的观点,曾经被边缘化,随着符号方法的动摇开始获得关注。
尽管其发展有所衰退,符号主义人工智能在人工智能发展史上留下了不可磨灭的印记。其许多概念——如知识表示、推理和规划——至今仍影响着人工智能研究,特别是在将符号推理与机器学习相结合的混合系统中。此外,符号主义的遗产仍然存在于自然语言处理、形式验证和自动定理证明等领域,在这些领域,结构化逻辑仍然发挥着关键作用。近年来,人们重新关注将符号方法与数据驱动方法相结合,以创建更具可解释性和鲁棒性的人工智能系统。纯粹符号主义人工智能的衰落并非其故事的终结,而是一种转变,因为其见解现在正在深度学习和通用人工智能时代被重新语境化。它的兴衰为还原论的局限性以及模拟人类思维的复杂性的演变提供了一个警示故事。
一个具有隐藏层的“第二波”连接主义(ANN)模型。/ 转自维基共享资源
随着符号式人工智能在 20 世纪 80 年代因僵化和学习能力有限而开始衰退,一种长期沉寂的机器智能替代方法——联结主义——开始重新兴起。联结主义认为,认知过程源于大量简单处理单元的相互作用,类似于人脑中的神经元。这一想法并非新颖;它可追溯至 1943 年沃伦·麦克洛克和沃尔特·皮茨的研究工作,他们使用布尔逻辑对人工神经网络中的计算进行模拟,建立了神经活动的模型。 24 后来,唐纳德·赫布在《行为组织》(1949 年)中提出的突触可塑性理论为神经网络中的学习奠定了心理学基础,提出神经元之间的连接会随着重复激活而增强——这一原则现被概括为“一起放电的细胞会相互连接”的说法。 25 这些早期发展表明,机器可以从数据中自适应地学习,而不仅仅依赖于显式规则,但技术限制和计算资源的匮乏延缓了这些想法的实际实现。
20 世纪 80 年代,联结主义模型的复兴得益于反向传播算法的重新发现和推广,该算法允许多层神经网络通过梯度下降调整内部权重。David Rumelhart、Geoffrey Hinton 和 Ronald Williams 通过证明反向传播能够训练网络识别复杂模式并执行非线性分类,在重新激发神经网络研究兴趣方面发挥了关键作用。 26 这种能力与符号 AI 的僵化规则结构形成鲜明对比,提供了一种从经验中灵活适应的学习方式。他们在 1986 年发表在《自然》杂志上的成果标志着一个转折点,重新确立了联结主义在认知科学和人工智能领域的重要地位。神经网络的潜力在于它们能够从嘈杂或不完整的数据中进行泛化——正如人类认知经常做的那样——提供一种非显式编程但通过与环境交互产生的智能形式。
尽管有此前景,早期的神经网络面临着质疑和实际限制。批评者指出其“黑箱”特性、缺乏可解释性以及难以扩展到更深层次架构的问题。此外,Marvin Minsky 和 Seymour Papert 在《感知器》(1969 年)中提出的一些理论限制,在学术界仍持续存在。 27 Minsky 和 Papert 已经证明,单层感知器甚至无法解决 XOR 函数等简单的非线性问题,导致许多人完全否定神经网络长达十多年。虽然反向传播解决了一些这些问题,但神经网络在整个 1990 年代仍然相对较浅,并受限于计算资源。然而,向学习系统概念的转变标志着人们日益认识到,智能行为不仅需要逻辑,还需要适应——这一理念将深刻塑造人工智能的未来。
联结主义也应用于认知建模和心理学领域,为基于规则的思维理论提供了替代方案。詹姆斯·麦克莱兰和戴维·鲁梅尔哈特等研究人员发展了并行分布式处理(PDP)框架,认为认知源于网络中分布式激活模式的相互作用。 28 这种观点与神经科学关于大脑功能的发现相吻合,并为记忆、语言习得和感知等现象提供了模型。联结主义模型通过强调涌现性而非显式表征,挑战了主导的计算理论。尽管符号主义和联结主义范式之间的争论仍在继续,但越来越多的学者看到了整合两种方法的潜力。混合系统开始出现,将符号逻辑的基于规则的精确性与神经网络的适应性学习相结合——这是现代人工智能集成架构的先兆。
21 世纪初,硬件的进步——尤其是 GPU 的兴起——以及大规模数据集的可用性,开启了深度学习的新时代,使得构建更深、更强大的神经网络成为可能。基于学习的系统的复兴获得了不可逆转的势头,最终在图像识别、自然语言处理和游戏领域取得了突破。神经网络从理论上的奇思妙想演变为实用工具,支撑着从人脸识别到自动驾驶车辆等各项服务。卷积神经网络和循环神经网络的深度学习模型的成功,证明了连接主义方法的可扩展性和强大能力,为该领域的先驱们数十年的工作提供了有力证明。尽管关于可解释性和泛化的争论仍在继续,但通过连接主义实现的学习复兴,已决定性地重塑了人工智能领域,为持续实现人工通用智能奠定了基础。
21 世纪初,随着人工智能(AI)从专家系统到深度学习等多元学科领域逐渐成熟,越来越多的研究人员开始区分弱人工智能与通用人工智能(AGI)的追求——即能够执行人类任何智力任务的系统。尽管广义的人工智能界专注于专业应用,但一小群思想家重新唤起了构建具有人类水平认知灵活性的机器的基础梦想。这一愿景,曾被认为是人工智能的总体目标,但在转向狭义定义任务的务实转变中已被边缘化。然而,狭义人工智能的局限性——包括其脆弱性、缺乏常识推理能力以及无法跨领域迁移知识——促使研究人员重新思考如何构建通用智能。 30 新兴的 AGI 子领域旨在明确解决这些挑战,并为智能提供统一的框架。
这一复兴的里程碑是 2005 年在孟菲斯大学举办的 AGI 研讨会,该研讨会正式将"通用人工智能"这一术语作为一个独立的研究方向引入。由本·高兹泰尔和卡西奥·佩纳钦组织,该研讨会汇聚了一群跨学科学者——包括计算机科学家、认知科学家和哲学家——他们认为有必要将他们的工作与主流的狭义人工智能范式区分开来。 31 高兹泰尔和佩纳钦后来出版了《通用人工智能》(2007 年),这是首批定义该领域的理论范围和技术挑战的著作之一。 32 通用人工智能作为一个术语和概念的出现,使研究人员能够以共同的身份重新集结,并探索专注于迁移学习、自我反思、记忆整合和目标导向行为的模型。这种框架使通用人工智能作为一个思想运动得以发展,尽管主流人工智能界最初持怀疑态度。
AGI 研究借鉴了广泛的思想来源,包括认知架构、发展心理学以及智能的正式模型。SOAR、ACT-R 和 Goertzel 的 OpenCog 等架构试图通过结合感知、行动、推理和记忆的模块来模拟人类认知的整合性质。 33 类似地,Marcus Hutter 的 AIXI 模型基于算法概率和决策理论提出了一个关于通用智能的正式数学理论,提供了一个严格的基准——尽管是不可计算的——用于评估 AGI 系统。 34 尽管这些模型在范围和可行性上有所不同,但它们都致力于将智能理解为一个统一的现象,而不是一系列孤立技能的集合。这一理论雄心与狭义 AI 的零散成功形成了鲜明对比,尽管 AGI 研究在 21 世纪的头十年中一直处于边缘地位,但它为未来的进步奠定了重要的概念基础。
2010 年代的深度学习革命意外地为通用人工智能(AGI)的讨论注入了新的活力。虽然最初被定义为狭义任务的工具,但像 Transformer 这样的大规模神经网络开始展现出跨越领域边界的涌现能力。OpenAI 的 GPT 系列、Google 的 BERT 以及 DeepMind 的 AlphaZero 等模型展示了泛化、语言理解和问题解决能力,这些能力曾被认为是狭义人工智能难以企及的。 35 这些发展促使人们重新讨论通用人工智能的长期目标是否终于触手可及。虽然许多研究人员保持谨慎,但其他人认为,扩大当前方法可能会带来,即使不是真正的通用智能,也是功能上等效的系统。2020 年 GPT-3 的发布和 2023 年 GPT-4 的发布标志着公众和学术界对通用人工智能作为可信近期目标的认知发生了转折。
如今,通用人工智能(AGI)日益被视为人工智能研究中的一个独特且紧迫的领域,既吸引了热情也引发了担忧。OpenAI、DeepMind 和 Anthropic 等机构已将 AGI 开发作为其明确的使命,而政府和伦理委员会则在与人类水平机器智能的潜在风险作斗争。该领域现在与关于安全、对齐、可解释性以及变革性技术社会影响等紧迫问题相交织。 36 研究人员正在探索确保 AGI 系统在不可预见的情境中也能表现出道德性和可靠性的方法。通用智能的概念——曾经被认为具有推测性或哲学性——现在已成为实证、计算和伦理探究的活跃场所。随着 AGI 从边缘愿景演变为严肃的研究计划,它反映了人类持久地渴望理解和复制自身心智的愿望。
AlexNet 架构及其一种可能的改进。顶部是原始 AlexNet 的一半,分为两部分,每部分由一个 GPU 处理。底部是相同的架构,但最终“投影”层被替换为另一个输出更少的层。如果冻结剩余模型并仅微调最后一层,可以获得一个成本显著低于从头训练的另一个视觉模型。/ 转自 Daniel Voigt Godoy,维基共享资源
2010 年代标志着人工智能的深刻变革,深度学习——一种基于多层人工神经网络的算法类别——得以复兴和扩展。尽管神经网络研究可追溯数十年,但计算能力(尤其是 GPU)的突破、海量数据集的获取以及算法的改进,带来了性能的巨大飞跃。关键性时刻出现在 2012 年,当时 Alex Krizhevsky、Ilya Sutskever 和 Geoffrey Hinton 使用深度卷积神经网络——AlexNet——在 ImageNet 竞赛中取得了前所未有的准确率,该竞赛是物体识别的基准测试。 37 这一胜利催化了行业对深度学习的广泛采用,并激发了人们对循环神经网络(RNNs)、长短期记忆(LSTM)网络以及最终基于 Transformer 的模型的进一步研究。焦点从手工设计特征转变为使模型能够直接从原始数据中学习特征,确立了机器学习的新范式,并为向人工通用智能(AGI)的实质性进展奠定了基础。
深度学习的成功不仅限于图像识别。循环网络和基于注意力的网络革新了自然语言处理(NLP),最终促成了 Vaswani 等人于 2017 年提出的 Transformer 架构的开发。 38 Transformer 架构,尤其是在扩展规模后,能够并行处理整个序列,并比其前身更有效地学习上下文关系。这些模型构成了 OpenAI 的 GPT 系列、Google 的 BERT 和 T5 以及 Meta 的 LLaMA 的基础,它们在文本生成、翻译、摘要和推理方面都展现出卓越的能力。大型语言模型(LLMs)如 GPT-3 和 GPT-4 的开发进一步模糊了狭义智能与通用智能之间的界限,展示了如情境学习、少样本提示和跨任务泛化等涌现行为。 39 尽管这些模型仍然脆弱且依赖于庞大的数据集,但它们通过展现出曾属于人类认知的能力,为通用人工智能(AGI)开辟了新的途径。
AGI 的一个关键现代方法是扩展理论,该理论认为,使用更多数据和计算能力训练的更大模型能够持续提升性能,随着规模的扩大而接近或实现通用智能。这一假设在很大程度上得到了从 GPT-2 到 GPT-4 所见性能提升的验证,表明智能可能是模型复杂度足够时涌现的属性,而非特定架构创新的产物。 40 OpenAI 和 Anthropic 等机构的研究人员已经证明,增加参数会导致质的全新能力,包括推理、编程和常识推理。这些观察引发了关于当前深度学习方法能否“扩展至 AGI”或是否需要新原理的争论。尽管如此,扩展定律和实证性能主导了研究议程,指导了该领域的大部分近期创新和投资。
除了规模扩展之外,研究人员正在探索整合不同类型数据——文本、图像、音频甚至视频——到单一框架中的多模态模型。DeepMind 的 Gato、OpenAI 的 CLIP 和 DALL·E,以及 Google DeepMind 的 Gemini 都代表了构建更统一模型的努力,这些模型能够以复杂、灵活的方式与世界互动。 41 这些系统模拟了人脑整合来自多种感觉模态信息的能力,从而实现更普遍的推理和创造性问题解决。此外,人类反馈强化学习(RLHF)和偏好建模引入了使 AI 行为与人类价值观和意图保持一致的方法,解决了早期关于控制和滥用的担忧。通过训练智能体不仅执行任务,而且按照人类偏好执行,现代通用人工智能(AGI)研究现在将技术进步和安全作为互补目标。
尽管取得了这些进展,现代深度学习方法在通用人工智能(AGI)方面仍面临持续挑战。这些挑战包括可解释性、鲁棒性和对齐问题,以及偏见、幻觉和过拟合的担忧。批评者认为,如果没有对智能和认知的原理性理解,规模扩大可能会达到收益递减甚至在实际环境中灾难性失败。其他人则相信,当前的 LLMs 和多模态模型可能构成 AGI 的基础,特别是当它们与记忆系统、元学习和代理规划框架相结合时。 42 机器学习、认知科学、神经科学和哲学的日益融合反映了 AGI 作为一个严肃跨学科事业的成熟。虽然 AGI 的确切时间表和性质仍不确定,但深度学习无疑重新定义了可能性的前沿,使通用机器智能的梦想比以往任何时候都更接近现实。
ChatGPT 的屏幕截图,显示了一张代表在线百科全书维基百科的生成图像。/ 蒙自维基媒体共同社
当前通用人工智能(AGI)研究领域的现状呈现出乐观、怀疑和日益增长的机构投资相结合的特点。包括 OpenAI、DeepMind、Anthropic 和 Meta 在内的主要科技公司已将 AGI 开发明确列为目标,标志着从特定任务的人工智能向通用认知系统的优先事项转变。OpenAI 的 GPT-4 和 Google DeepMind 的 Gemini 等高性能大型语言模型(LLMs)的问世,使许多人相信 AGI 不再是一个遥远的理想,而是一个可能在未来不久或中期实现的现实。这些模型在大量语料库上训练,并通过人类反馈强化学习(RLHF)等技术进行优化,展现出在语言理解、推理、翻译、摘要甚至基本编程方面的能力。它们的涌现引发了关于什么是 AGI 以及随着模型能力的提高,“狭窄”与“通用”之间的界限是否正在消融的重新辩论。
尽管近年来取得了进展,但目前尚未就通用人工智能(AGI)的定义达成共识,也缺乏评估其是否实现的标准化指标。一些研究人员采用功能主义标准——认为任何能够在人类水平上执行广泛任务的系统都符合标准——而另一些人则坚持更严格的标准,包括自我意识、心智理论或物理具身化。 44 这种模糊性既复杂化了理论研究,也影响了政策规划。然而,多模态智能体和能够整合多样化知识形式的工具使用系统的持续发展表明,AGI 正接近一个可以与人类智能进行有意义的比较的阈值。与此同时,记忆增强、上下文持久性和元学习的进步表明,当前模型正逐渐向更统一和灵活的智能架构迈进。 45
AGI 研究的前景同样取决于对齐问题:确保高级人工智能系统符合人类价值观和意图。这已成为该领域的一个核心关注点,促使人们开展专注于安全、可解释性和监督的倡议。像对齐研究中心、人工智能安全中心以及 OpenAI 和 DeepMind 内部的研究团队正在探索如何使未来的 AGI 系统具有可纠正性、透明度和可验证的益处。 46 提出的解决方案范围从可扩展的监督方法到宪法人工智能框架和价值学习算法。然而,这些方法中的许多仍处于实验阶段,而使超越人类能力的系统实现对齐的难度尚未解决。因此,对齐正越来越多地被视为一个技术和哲学的前沿——它可能决定 AGI 将带来前所未有的进步还是灾难性的失败。
AGI 的地缘政治影响同样深远。随着各国认识到 AGI 对经济、军事和战略优势的变革潜力,国际人工智能能力竞争日益激烈。中国、美国和欧盟正大力投资基础模型、计算基础设施和人工智能人才管道。 47 这场竞争引发了建立类似国际原子能机构的国际监管机构来监控和控制潜在危险 AGI 系统发展的呼吁。同时,学术界和民间社会呼吁全球合作和 AGI 的民主治理,倡导促进安全、公平和包容性的框架。当前缺乏全面监管导致政策举措支离破碎,但围绕需要前瞻性治理的共识正在形成,尤其是在模型接近通用水平能力时。
展望未来,通用人工智能(AGI)的前景既充满希望又充满不确定性。一些研究人员预计 AGI 将在未来十年内出现,而另一些研究人员则警告说,仍需要重大的理论和技术突破。 48 AGI 是否会像当前的 LLM 架构进一步扩展,还是会从全新的范式(如神经符号系统、量子计算或脑机接口)中涌现——这仍然是一个悬而未决的问题。无论路径如何,对 AGI 的追求已不再局限于推测性思考,而构成了一个紧迫且活跃的科学探究领域。它邀请跨学科的参与——包括神经科学、哲学、伦理学、计算机科学和公共政策——并迫使社会为构建可能与我们自身相媲美甚至超越的智能做好准备。
AGI 的历史是一部关于理想、创新和令人谦卑的复杂性的故事。从神话中的自动机到哲学思想实验,再到现代神经网络和全球研究计划,对 AGI 的追求反映了人类关于智能、意识和存在本质的最深层问题。尽管我们在模拟智能的某些方面取得了巨大进步,但 AGI 的圣杯——一个真正像我们一样思考、理解和推理的系统——仍然遥不可及。AGI 是否能在几十年或几个世纪内实现,或者它是否甚至可能实现,仍然未知。但通往它的旅程仍在不断重塑我们对心灵、机器以及我们自身的理解。
脚注
1. Jan Bremmer, The Early Greek Concept of the Soul (Princeton: Princeton University Press, 1983), 122–25.
简·布雷默,《早期希腊灵魂概念》(普林斯顿:普林斯顿大学出版社,1983 年),第 122-125 页。
2. Plato, Phaedrus, trans. Robin Waterfield (Oxford: Oxford University Press, 2002), 245c–249d.
柏拉图,《斐德若篇》,罗宾·沃特菲尔德译(牛津:牛津大学出版社,2002 年),245c–249d。
3. René Descartes, Meditations on First Philosophy, trans. John Cottingham (Cambridge: Cambridge University Press, 1996), Meditation II.
勒内·笛卡尔,《第一哲学沉思录》,约翰·考廷顿译(剑桥:剑桥大学出版社,1996 年),沉思录第二篇。
4. Gottfried Wilhelm Leibniz, Philosophical Essays, ed. and trans. Roger Ariew and Daniel Garber (Indianapolis: Hackett Publishing Company, 1989), 5–8.
戈特弗里德·威廉·莱布尼茨,《哲学论文集》,罗杰·阿里斯和丹尼尔·加伯编、译(印第安纳波利斯:哈克特出版公司,1989 年),第 5-8 页。
5. Jessica Riskin, The Restless Clock: A History of the Centuries-Long Argument over What Makes Living Things Tick (Chicago: University of Chicago Press, 2016), 89–93.
杰西卡·里斯金,《躁动的时钟:关于生命机制长达数个世纪的争论史》(芝加哥:芝加哥大学出版社,2016 年),第 89-93 页。
6. Moshe Idel, Golem: Jewish Magical and Mystical Traditions on the Artificial Anthropoid (Albany: SUNY Press, 1990), 34–37.
莫谢·伊德尔,《哥尔姆:关于人造类人生物的犹太魔法与神秘传统》(阿尔巴尼:纽约州立大学出版社,1990 年),第 34-37 页。
7. Doron Swade, The Difference Engine: Charles Babbage and the Quest to Build the First Computer (New York: Viking, 2000), 101–105.
Doron Swade, 《差分机:查尔斯·巴贝奇与制造第一台计算机的探索》(纽约:Viking 出版社,2000 年),第 101-105 页。
8. Betty Alexandra Toole, Ada, the Enchantress of Numbers: Prophet of the Computer Age (Mill Valley: Strawberry Press, 1992), 224–226.
贝蒂·亚历山德拉·图尔,Ada,数字的女巫:计算机时代的先知(米尔谷:草莓出版社,1992 年),224-226 页。
9. Alan Turing, “On Computable Numbers, with an Application to the Entscheidungsproblem,” Proceedings of the London Mathematical Society 2, no. 42 (1936): 230–265.
艾伦·图灵,《可计算数及其在判定问题上的应用》,《伦敦数学学会会刊》第 2 卷第 42 期(1936 年):230–265 页。
10. Alan Turing, “Computing Machinery and Intelligence,” Mind 59, no. 236 (1950): 433–460.
艾伦·图灵,《计算机器与智能》,《心灵》59 卷第 236 期(1950 年):433-460 页。
11. Martin Davis, Engines of Logic: Mathematicians and the Origin of the Computer (New York: W.W. Norton, 2000), 112–118.
马丁·戴维斯,《逻辑引擎:数学家与计算机的起源》(纽约:W.W.诺顿出版社,2000 年),第 112-118 页。
12. Claude Shannon, “A Mathematical Theory of Communication,” Bell System Technical Journal 27, no. 3 (1948): 379–423.
克劳德·香农,《通信的数学理论》,《贝尔系统技术杂志》27 卷第 3 期(1948 年):379–423 页。
13. Nils J. Nilsson, The Quest for Artificial Intelligence: A History of Ideas and Achievements (Cambridge: Cambridge University Press, 2010), 63–67.
尼尔斯·J·尼尔森,《人工智能的探索:思想与成就的历史》(剑桥:剑桥大学出版社,2010 年),第 63–67 页。
14. John McCarthy, “Recursive Functions of Symbolic Expressions and Their Computation by Machine, Part I,” Communications of the ACM 3, no. 4 (1960): 184–195.
约翰·麦卡锡,《符号表达式的递归函数及其机器计算,第一部分》,《ACM 通讯》3 卷第 4 期(1960 年):184-195 页。
15. Edward Feigenbaum, The Fifth Generation: Artificial Intelligence and Japan’s Computer Challenge to the World (Reading, MA: Addison-Wesley, 1983), 75–79.
爱德华·费根鲍姆,《第五代:人工智能与日本挑战世界的计算机》(马萨诸塞州雷丁:阿迪森-韦斯利,1983 年),第 75-79 页。
16. Allen Newell and Herbert A. Simon, “The Logic Theory Machine: A Complex Information Processing System,” IRE Transactions on Information Theory 2, no. 3 (1956): 61–79.
艾伦·纽厄尔和赫伯特·A·西蒙,《逻辑理论机:一个复杂的信息处理系统》,《IEEE 信息论汇刊》第 2 卷第 3 期(1956 年):61-79 页。
17. Allen Newell and Herbert A. Simon, Human Problem Solving (Englewood Cliffs, NJ: Prentice-Hall, 1972), 4.
艾伦·纽厄尔和赫伯特·A·西蒙,《人类问题解决》(恩格尔伍德克莱夫斯,新泽西州:普雷尼齐-霍尔,1972 年),第 4 页。
18. Bruce G. Buchanan and Edward H. Shortliffe, Rule-Based Expert Systems: The MYCIN Experiments of the Stanford Heuristic Programming Project (Reading, MA: Addison-Wesley, 1984), 15–28.
Bruce G. Buchanan 和 Edward H. Shortliffe,《基于规则的专家系统:斯坦福启发式编程项目的 MYCIN 实验》(马萨诸塞州雷丁:Addison-Wesley 出版社,1984 年),第 15-28 页。
19. Nils J. Nilsson, Artificial Intelligence: A New Synthesis (San Francisco: Morgan Kaufmann, 1998), 89–91.
Nils J. Nilsson,《人工智能:一种新的综合》(旧金山:Morgan Kaufmann 出版社,1998 年),第 89-91 页。
20. John McCarthy and Patrick J. Hayes, “Some Philosophical Problems from the Standpoint of Artificial Intelligence,” in Machine Intelligence 4, ed. Donald Michie and Bernard Meltzer (Edinburgh: Edinburgh University Press, 1969), 463–502.
约翰·麦卡锡和帕特里克·J·海耶斯,《从人工智能的角度看一些哲学问题》,《机器智能》第 4 卷,由唐纳德·米奇和伯纳德·梅尔策编辑(爱丁堡:爱丁堡大学出版社,1969 年),第 463-502 页。
21. Pamela McCorduck, Machines Who Think: A Personal Inquiry into the History and Prospects of Artificial Intelligence, 2nd ed. (Natick, MA: A.K. Peters, 2004), 329–334.
Pamela McCorduck, 《思考的机器:对人工智能历史与前景的个人探究》,第二版(马萨诸塞州纳提克:A.K. Peters 出版社,2004 年),第 329-334 页。
22. Hubert L. Dreyfus, What Computers Can’t Do: A Critique of Artificial Reason (New York: Harper & Row, 1972), 147–149.
Hubert L. Dreyfus,《计算机无法做什么:对人工智能的批判》(纽约:哈珀与罗出版公司,1972 年),第 147-149 页。
23. Gary Marcus, Rebooting AI: Building Artificial Intelligence We Can Trust (New York: Pantheon Books, 2019), 53–58.
Gary Marcus,《重启人工智能:构建我们能够信任的人工智能》(纽约:潘索恩出版社,2019 年),第 53-58 页。
24. Warren S. McCulloch and Walter Pitts, “A Logical Calculus of the Ideas Immanent in Nervous Activity,” The Bulletin of Mathematical Biophysics 5, no. 4 (1943): 115–133.
沃伦·斯·麦克洛克和沃尔特·皮茨,《神经活动中内在思想的逻辑演算》,《数学生物物理学公报》5 卷第 4 期(1943 年):115–133。
25. Donald O. Hebb, The Organization of Behavior: A Neuropsychological Theory (New York: Wiley, 1949), 62–78.
唐纳德·O·希布,《行为的组织:一种神经心理理论》(纽约:威利出版社,1949 年),62–78 页。
26. David E. Rumelhart, Geoffrey E. Hinton, and Ronald J. Williams, “Learning Representations by Back-Propagating Errors,” Nature 323, no. 6088 (1986): 533–536.
David E. Rumelhart、Geoffrey E. Hinton 和 Ronald J. Williams,《通过反向传播误差来学习表征》,《自然》323, 第 6088 期 (1986): 533–536.
27. Marvin Minsky and Seymour Papert, Perceptrons: An Introduction to Computational Geometry (Cambridge, MA: MIT Press, 1969), 88–97.
马尔文·明斯基和西摩·帕普特,《感知器:计算几何导论》(马萨诸塞州剑桥:麻省理工学院出版社,1969 年),第 88-97 页。
28. James L. McClelland and David E. Rumelhart, eds., Parallel Distributed Processing: Explorations in the Microstructure of Cognition, vol. 1 (Cambridge, MA: MIT Press, 1986), 3–24.
詹姆斯·L·麦克莱兰和戴维·E·鲁梅尔哈特编,《并行分布式处理:认知微观结构的探索》,第 1 卷(马萨诸塞州剑桥:麻省理工学院出版社,1986 年),第 3-24 页。
29. Yann LeCun, Yoshua Bengio, and Geoffrey Hinton, “Deep Learning,” Nature 521, no. 7553 (2015): 436–444.
扬·勒库恩、约书亚·本吉奥和杰弗里·辛顿,“深度学习,”《自然》521,第 7553 期(2015 年):第 436-444 页。
30. Shane Legg and Marcus Hutter, “A Collection of Definitions of Intelligence,” Frontiers in Artificial Intelligence and Applications 157 (2007): 17–24.
肖恩·莱格和马库斯·胡特,“智能定义集,”《人工智能前沿与应用》157(2007 年):第 17-24 页。
31. Ben Goertzel and Cassio Pennachin, “The AI in AGI: Narrow vs. General Intelligence,” in Artificial General Intelligence: Proceedings of the 2005 AGI Workshop, ed. Ben Goertzel and Cassio Pennachin (Memphis: Cognitive Technologies, 2005), 1–10.
本·高特泽尔和卡西奥·佩纳奇尼,《通用人工智能中的智能:狭义与通用智能》,《通用人工智能:2005 年 AGI 研讨会论文集》,本·高特泽尔和卡西奥·佩纳奇尼编(孟菲斯:认知技术出版社,2005 年),第 1-10 页。
32. Ben Goertzel and Cassio Pennachin, eds., Artificial General Intelligence (Berlin: Springer, 2007).
Ben Goertzel 和 Cassio Pennachin 主编,《通用人工智能》(柏林:斯普林格出版社,2007 年)。
33. John E. Laird, The Soar Cognitive Architecture (Cambridge, MA: MIT Press, 2012); Ben Goertzel et al., “The Architecture of OpenCog,” in Biologically Inspired Cognitive Architectures, ed. Alexei Samsonovich and Ben Goertzel (Amsterdam: IOS Press, 2010), 170–175.
John E. Laird,《Soar 认知架构》(马萨诸塞州剑桥:麻省理工学院出版社,2012 年);Ben Goertzel 等人,“OpenCog 的架构”,载于《生物启发认知架构》,Alexei Samsonovich 和 Ben Goertzel 主编(阿姆斯特丹:IOS 出版社,2010 年),第 170-175 页。
34. Marcus Hutter, Universal Artificial Intelligence: Sequential Decisions Based on Algorithmic Probability (Berlin: Springer, 2005).
Marcus Hutter,《通用人工智能:基于算法概率的序列决策》(柏林:斯普林格出版社,2005 年)。
35. Tom B. Brown et al., “Language Models are Few-Shot Learners,” Advances in Neural Information Processing Systems 33 (2020): 1877–1901; Demis Hassabis et al., “Mastering the Game of Go with Deep Neural Networks and Tree Search,” Nature 529, no. 7587 (2016): 484–489.
Tom B. Brown 等人,“语言模型是少样本学习者”,《神经信息处理系统进展》第 33 卷(2020 年):第 1877-1901 页;Demis Hassabis 等人,“使用深度神经网络和树搜索掌握围棋游戏”,《自然》第 529 卷,第 7587 期(2016 年):第 484-489 页。
36. Jan Leike et al., “Scalable Agent Alignment via Reward Modeling: A Research Agenda,” arXiv preprint arXiv:1811.07871 (2018).
Jan Leike 等人,“基于奖励建模的可扩展智能体对齐:一项研究议程”,arXiv 预印本 arXiv:1811.07871 (2018)。
37. Alex Krizhevsky, Ilya Sutskever, and Geoffrey E. Hinton, “ImageNet Classification with Deep Convolutional Neural Networks,” Communications of the ACM 60, no. 6 (2017): 84–90.
亚历克斯·克里希夫斯卡伊、伊利亚·苏茨凯弗和杰弗里·E·希顿,“使用深度卷积神经网络的 ImageNet 分类”,ACM 通信 60, 第 6 期(2017 年):84-90。
38. Ashish Vaswani et al., “Attention Is All You Need,” Advances in Neural Information Processing Systems 30 (2017): 5998–6008.
阿希什·瓦桑维等,“注意力机制是所有你需要的一切”,神经信息处理系统进展 30(2017 年):5998-6008。
39. Tom B. Brown et al., “Language Models Are Few-Shot Learners,” 1877–1901.
汤姆·B·布朗等,“语言模型是少样本学习者”,1877-1901。
40. Jared Kaplan et al., “Scaling Laws for Neural Language Models,” arXiv preprint arXiv:2001.08361 (2020).
杰拉德·卡普兰等,“神经语言模型的规模定律”,arXiv 预印本 arXiv:2001.08361(2020 年)。
41. Scott Reed et al., “A Generalist Agent,” arXiv preprint arXiv:2205.06175 (2022); Alec Radford et al., “Learning Transferable Visual Models from Natural Language Supervision,” International Conference on Machine Learning (2021); OpenAI, “Introducing GPT-4,” OpenAI Blog, March 14, 2023.
斯科特·里德等,《通用智能体》,《arXiv 预印本 arXiv:2205.06175》(2022);亚历克·拉德福德等,《从自然语言监督中学习可迁移视觉模型》,《机器学习国际会议》(2021);OpenAI,《介绍 GPT-4》,《OpenAI 博客》,2023 年 3 月 14 日。
42. Jan Leike et al., “Superhuman AI for Multiplayer Online Battle Arena Games,” Science 364, no. 6443 (2019): 885–890.
Jan Leike 等人,“用于多人在线战斗竞技场游戏的超人类 AI”,《科学》364 卷,第 6443 期(2019 年):885–890。
43. OpenAI, “Introducing GPT-4,” OpenAI Blog, March 14, 2023, https://openai.com/research/gpt-4.
OpenAI,《介绍 GPT-4》,《OpenAI 博客》,2023 年 3 月 14 日,https://openai.com/research/gpt-4.
44. Shane Legg and Marcus Hutter, “A Collection of Definitions of Intelligence,” 17–24.
Shane Legg 和 Marcus Hutter,《智能定义集》,第 17-24 页。
45. Jacob Andreas, “Language Models as Agents,” arXiv preprint arXiv:2305.10601 (2023).
Jacob Andreas,《语言模型作为智能体》,arXiv 预印本 arXiv:2305.10601 (2023)。
46. Paul Christiano et al., “Deep Reinforcement Learning from Human Preferences,” Advances in Neural Information Processing Systems 30 (2017): 4299–4307; Jan Leike et al., “Scalable Agent Alignment via Reward Modeling,” arXiv preprint arXiv:1811.07871 (2018).
Paul Christiano 等人,《基于人类偏好的深度强化学习》,《神经信息处理系统进展》第 30 卷 (2017): 4299-4307;Jan Leike 等人,《通过奖励建模实现可扩展智能体对齐》,arXiv 预印本 arXiv:1811.07871 (2018)。
47. Elsa B. Kania, “AI Weapons and China’s Military Innovation,” Brookings Institution Report, April 2020; Andrea Renda, “Artificial Intelligence: Ethics, Governance and Policy Challenges,” European Parliament Research Service, June 2019.
Elsa B. Kania,《人工智能武器与中国军事创新》,布鲁金斯学会报告,2020 年 4 月;Andrea Renda,《人工智能:伦理、治理和政策挑战》,欧洲议会研究服务,2019 年 6 月。
48. Gary Marcus, “Deep Learning Is Hitting a Wall,” MIT Technology Review, May 2022, https://www.technologyreview.com/2022/05/05/1051864/gary-marcus-deep-learning-is-hitting-a-wall/.
Gary Marcus,《深度学习正遭遇瓶颈》,《麻省理工学院技术评论》,2022 年 5 月,https://www.technologyreview.com/2022/05/05/1051864/gary-marcus-deep-learning-is-hitting-a-wall/.
参考文献
· 安德烈亚斯,雅各布。“语言模型作为智能体。” arXiv 预印本 arXiv:2305.10601 (2023)。
· 布雷默,扬。《早期希腊灵魂概念》。普林斯顿:普林斯顿大学出版社,1983。
· 布朗,汤姆·B. 等。“语言模型是少样本学习者。”《神经信息处理系统进展》33 (2020):1877–1901。
· Buchanan, Bruce G., 和 Edward H. Shortliffe. 《基于规则的专家系统:斯坦福启发式编程项目的 MYCIN 实验》. 马萨诸塞州雷丁:Addison-Wesley 出版社,1984 年.
· Christiano, Paul, 等. “基于人类偏好的深度强化学习.” 神经信息处理系统进展 30 (2017): 4299–4307.
· Davis, Martin. 《逻辑引擎:数学家与计算机的起源》. 纽约: W.W. 诺顿出版社, 2000.
· Descartes, René. 《第一哲学沉思录》. 约翰·科廷厄姆译. 剑桥: 剑桥大学出版社, 1996.
· Dreyfus, Hubert L. 《计算机无法做什么:对人工理性的批判》. 纽约: 哈珀与罗出版公司, 1972.
· 菲根鲍姆,爱德华。《第五代:人工智能与日本挑战世界的计算机》。马萨诸塞州雷丁:阿迪森-韦斯利,1983 年。
· Goertzel, Ben, 和 Cassio Pennachin 编. 《通用人工智能》. 柏林: Springer, 2007.
· Goertzel, Ben, 和 Cassio Pennachin. 《通用人工智能中的智能:狭义与通用智能》. 收录于《通用人工智能:2005 年 AGI 研讨会论文集》, 1–10. 孟菲斯: Cognitive Technologies, 2005.
· 麦卡锡,约翰。“符号表达式的递归函数及其机器计算,第一部分。” 《ACM 通讯》3, 第 4 期 (1960): 184–195。
· 以下省略......
Brewminate 发布,2025 年 5 月 26 日