2015年,以安徽省理科第三名的成绩考入清华大学交叉信息研究院“姚班”;2019年,远赴美国普林斯顿大学深造,专攻自然语言处理与强化学习;2024年,加入OpenAI,为其首批智能体产品Operator、Deep research的开发作出了核心贡献;2025年,出任腾讯首席AI科学家,同时兼任AI Infra部及大语言模型部负责人,掌舵腾讯AI基础设施与大模型研发的核心业务。
这是姚顺雨的十年。从17岁到27岁,他用十年活成了大众眼中“学霸流”小说中的男主模板。但在他看来,他想做的就两条线——简单通用的方法、有实际价值的任务。“这些任务往往是如何在真实数字世界创造新的价值。这是一块处女地,是一个巨大的宝藏。我只是恰好挖掘到了一些东西。”姚顺雨说。
在姚顺雨刷屏的这几天,我们接收到了不少关于他的信息:16岁拿到全国信息学奥林匹克竞赛(NOI)银牌;在高考考场上睡着了,丢了十几分,错失“状元”;参与联合创办清华大学学生说唱社,在网易云发布了20余首说唱作品;以最年轻入选者身份跻身《麻省理工科技评论》“35岁以下科技创新35人”中国区名单……
看起来像一个“对抗路”天才,但姚顺雨本人不这么想,回望来时路,他用“非常乖”来形容自己,所走过的每一步都是按部就班、顺其自然。“在姚班,大家会希望去美国读博,我就去考了普林斯顿大学。博士毕业后,OpenAI是做研究最好的地方,我就加入了OpenAI。”他说。但显然,这一路走来,也没有真的如此轻描淡写。
在公开信息中,“智能体”(Agent),是姚顺雨研究生涯中最重要的关键词。不过,最初进入清华姚班时,他学习的是理论计算科学。“当时,我觉得很多重要理论问题已经解决得差不多了,比如将某个图算法的复杂度从n的2.83次方优化到n的2.82次方,这种改进在现实中意义不大。”直到2016年的一节课上,老师在讲授多模态嵌入时,展示了一个例子:“king(国王)”的向量 − “man(男人)”的向量 + “queen(王后)”的向量 ≈ “woman(女人)”的向量。这让姚顺雨第一次意识到,深度学习在语义表示上居然能做出如此惊艳的计算。但当时“姚班”在深度学习领域的师资有限,他没能第一时间投入相关学习。2018年,按照“姚班”传统,姚顺雨前往麻省理工学院进行海外交流,开始从计算机视觉切入,系统开展深入学习研究。2019年,他考入普林斯顿大学攻读博士学位,专攻计算机视觉专业。
但是,经过此前的学习,姚顺雨认为计算机视觉很难实现通用的智能,直觉告诉他,语言将是一个更核心、更有潜力的方向。于是,他开始寻求转换方向,并与普林斯顿大学副教授卡提克·纳拉辛汉(Karthik Narasimhan)相遇。
卡提克有一个著名的代表性成果——生成式预训练(GPT)开山之作,即GPT-1论文第二作者。此前,卡提克曾经利用循环神经网络(RNN)在一个小规模文字游戏中训练智能体进行简单的动态交互。在经过一番头脑风暴后,两人认为完全可以利用更强大的模型,如GPT-2,来进行更复杂的语言游戏训练,以探讨智能体中新的可能性。
这在当时并不是一个讨巧的方向。智能体研究尚属冷门,更多人选择以问答、翻译等主流任务进行研究。但姚顺雨认为,要下注不用的方向才能产生超越。他更希望探索新的、根本性的研究,创造完全不同的产品形态,即便失败了,起码探索了不一样的东西。对他而言,这也会“更有意思”。
姚顺雨(前排右一)参与嘻哈单曲《水木道》MV拍摄
从广义AI背景出发,智能体是一个非常古老的概念。任何能进行自我决策、与环境交互,并试图优化奖励的系统都可以被称为智能体。姚顺雨曾尝试梳理广义智能体的发展脉络——
在“符号主义”盛行阶段,业内强调规则推理,并尝试通过专家系统将所有规则写出来,结果发现这根本难以覆盖复杂世界,从而导致了第一次AI寒冬。
进入深度强化学习阶段后,以神经网络驱动的智能体在视频游戏、围棋等环境中取得重要突破,最具代表性的便是阿尔法狗(AlphaGo),但即便它能够打败柯洁等人类围棋高手,也存在一个缺陷,围棋智能体只能下围棋,它没办法玩别的游戏。这意味着,智能体仍然无法实现泛化。
当智能体步入大语言模型驱动时,则出现了新的特点。由于语言本身就是人类为了泛化而发明的工具,天然携带推理基因,能够跨环境迁移,包括编程、互联网、电脑操作等更接近真实世界的数字环境。
换而言之,姚顺雨认为语言是实现通用智能体的“先天圣体”。不过,要让语言模型真正“活”起来,也没有那么容易。
在姚顺雨的研究中,GPT是一柄利刃。如今,GPT早已耳熟能详,但在姚顺雨刚切入研究时,另一种语言预训练模型BERT才是主流。但姚顺雨发现,BERT欠缺在开放行为空间的决策能力,而GPT则明显更符合他的研究调性。基于不断进阶迭代的GPT等新模型技术,姚顺雨也在不断进步。起初,他按照头脑风暴的点子,在文字游戏上发力,不久后就意识到,文字游戏局限性太强,要想有进一步突破,还需要更加开放的环境。从此,他就一直在建立语言智能体与世界之间的互动上拓展维度。他提出的思维树(Tree of Thoughts)框架改进决策模型,构建了CoALA模块化认知架构;提出的ReAct方法首次引入“推理—行动”结合的智能体范式,为创建具备通用性、可扩展性的语言智能体奠定了基础。
“我自己最喜欢的工作是ReAct。”姚顺雨表示,ReAct的核心理念是让大语言模型在行动前先进行可解释的内在推理,继而基于推理结论去决策与操作。这一思路不但增强了模型的可控性,也极大拓展了其在各类实际领域中的适用能力。如今,ReAct已成为世界范围内构建语言智能体的最主流方法,被学术界与工业界广泛采纳。
“我一直追求‘简单且通用’的方法,很多人花大力气设计复杂架构,只在某个任务上奏效,我希望找到能泛化到多任务的简单解法。”姚顺雨说。他表示,最终的智能边界,是由不同交互方式决定的,而不是由单一模型决定的,其中的想象空间非常大。“语言无法推理一切,有必要将多模态能力纳入语言智能体框架中。”在姚顺雨眼中,现在的智能体就像一个数字化实习生,在继续突破的路上,还大有可为。
2024年8月,姚顺雨加入OpenAI,担任研究科学家,专注于将大型语言模型从理论研究推向实际应用,主导开发了OpenAI 首个发布的智能体模型及产品,同时参与了Deep Research项目。作为冉冉升起的新星,姚顺雨的表现备受瞩目,因此,当2025年9月第一次传出他将加盟腾讯的消息时,就引起了关注,近日腾讯的公告又让他持续刷屏。虽然“亿元薪资”被辟谣,但加盟腾讯已成定局。
近年来,腾讯在人工智能上重点发力,尤其围绕混元大模型训练,以及海量业务场景的深度实践,积累了系统化的工程能力。今年,为优化人工智能战略布局,腾讯新成立了AI Infra部、AI Data部、数据计算平台部,全面强化其大模型的研发体系与核心能力。姚顺雨挑大梁的AI Infra部,将负责大模型训练和推理平台技术能力建设,聚焦大模型分布式训练、高性能推理服务等核心技术能力,为大模型算法研发和业务场景落地提供稳定高效的技术支持和服务。
对姚顺雨来说,这与他对“下半场”的判断是相符的。早在上半年,他撰文称,包括Deep Blue、AlphaGo、GPT-4等在内,这些能被写进教科书的里程碑,背后都依托AI方法的根本性创新,随着搜索、深度强化学习、规模化和推理能力的不断发展,“强化学习终于具备了泛化能力”。
“哪怕就在一年前,如果你告诉大多数 AI 研究者一份单一的配方可以同时搞定软件工程、创意写作、IMO级数学、键盘鼠标操作以及长篇问答——他们肯定会笑你‘幻觉’。这些任务各自极难,许多研究者整个博士阶段可能只盯着其中一个小方向。然而,它真的发生了。”姚顺雨写道。他极为自信地表示,这意味着AI的下半场来临,在新时代,评价会比训练更重要,研究者应该将重心从“解决问题”转向“定义问题”,“像产品经理那样思考”。
无独有偶,几个月前,姚顺雨就在采访中面对过“如何在微信里做智能体”的问题。当时,姚顺雨表示,微信是一个易守难攻的平台,他会先观察是否有更新的交互方式,而非贸然“进攻”。“真正的危险,不是一个类似于微信的东西打败了微信,而是一个很不一样的东西打败了微信。”彼时,他已经有了“产品经理”的思考方式。
姚顺雨曾经打过一个比方:AI前半场,玩家是在电子游戏和考试里刷分;下半场,玩家则有机会把智能做成真正有用的产品。前半场充斥着增量模型和方法;在下半场,它们会被配方“过滤”——除非你创造新假设来打破配方,否则注定被碾压。
如今,看姚顺雨如何玩转下半场的时刻到了。姚顺雨,欢迎你来到下半场。