出品 | 搜狐科技
作者 | 梁昌均
在Kimi上线一周年之际,月之暗面召开了一场临时发布会。
直到11月16日下午的这场发布会临近,这家公司的创始人&CEO杨植麟还在现场忙着确认PPT。这也是这位31岁的大模型顶流,自成立月之暗面以来为数不多面向媒体进行交流。
杨植麟透露,Kimi目前每月使用人数已超过3600万。但这对于一款想要成为超级应用的产品来说,还远远不够。月之暗面的做法打造更强的模型,以及用更新的算法。
杨植麟在发布会上宣布推出新一代模型——数学推理模型k0-math。基准测试显示,该模型的数学能力可对标OpenAI的o1系列模型(o1-mini和o1-preview)。
“对AI来讲,不变的一个关键词是Scaling。它并不是简单的把模型做得更大就好,核心是找到有效的方法去Scale。”杨植麟表示。
他认为,现在大模型的研究范式已经发生变化,从过去的Next-Token Prediction(上下文预测)去拓展,转变为越来越多关注基于强化学习的方法去拓展。
这其中的关键就是要让AI具备思考的能力。杨植麟认为,强化学习一定程度上可以让AI学习到思考的能力,并判断思考过程到底是好还是不好,从而持续迭代。
“什么样的场景最适合让AI锻炼思考的能力,我们认为是数学场景。”这也是月之暗面推出数学模型的原因。“解决数学问题就是一个不断思考的过程,它在这个过程中会断试错,并不需要跟外界进行交互,可以自成体系。”
但这一模型还存在不少局限性,对简单的问题会过度思考,如对1+1这样的问题会多次求证计算,显得复杂化和非常谨慎;同时,对不同难度的题目答对的概率也有所不同。
杨植麟表示,这需要减少幻觉,并提高泛化性,将其应用到物理化学、生物医学等学科问题和前沿研究,这是接下来很重要的事情。
他还介绍了Kimi在AI搜索上的探索。“把强化学习用在搜索场景,跟探索版相结合,可以提升模型搜索推理能力,能够拓展更多的意图,做链式推理,并能够比较不同的信源。”
据了解,k0-math模型和更强大的Kimi探索版,未来几周内将会分批陆续上线Kimi。
在与搜狐科技等媒体的交流中,杨植麟回应了包括AI发展范式的变化、Scaling Law能否延续,以及Kimi的核心目标和未来规划。
他认为,Scaling Law依然还有很高的上限,明年领先模型会做到一个比较极致的阶段。“但接下来最重点的是强化学习,它还是Scaling,只是说通过不同的方式去Scale。”
“今天当Scale差不多的时候,会发现再加更多的算力,并不一定能直接解决瓶颈,核心是因为没有高质量的数据。这时通过算法的改变,让它不会成为瓶颈。”杨植麟表示。
在国内大模型都面临技术瓶颈的情况下,会不会拉大差距?杨植麟认为,差距对国内来说有可能是一个好事,预训练不一定可持续,这种情况下创新能力更重要,“对我们反而是一个优势”。
在产品层面,杨植麟透露,最初尝试过几个产品一块做,后来发现最重要的还是要聚焦,并做到极致,不能把公司变成大厂,否则会对创新有致命性的伤害。为此月之暗面主动做了减法,从今年初决定聚焦做好Kimi这一款产品。
他表示,Kimi现在最核心的任务是提升留存,不太关注跟豆包等产品的竞争,表示“适当的投放是需要的”。
杨植麟还透露,目前正在内测多模态功能。“AI接下来最重要的是思考和交互这两个能力,但思考的重要性远大于交互。多模态是必要的,但思考会决定上限。”
以下是对话精编:
一、谈数学模型:是强学学习的验证,成本会不断下降
提问:这次发的数学模型,离普通用户比较远,怎么看这个功能和用户的关系?
杨植麟:数学来讲我觉得是两个方面的价值,第一个,它在教育产品上有非常大的价值,在我们整体流量里也起到很重要的作用。第二个,我觉得它是技术上的迭代和验证,可以把这个技术去放在更多的场景里。
提问:对于新的数学模型,数据会不会成为比较大的挑战?怎么避免过度思考?
杨植麟:数据对强化学习来讲是一个核心问题,以前做Next-Token Prediction是静态数据,但强化学习所有的学习数据都是自己生成的,但可能不知道是对还是错,就会对奖励模型的效果提出挑战,核心是怎么更好的训练奖励模型,设置奖励的机制。
我们现在没有对长度做任何限制,所以它想想多少就想多少,它自由思考,可以通过改变它的奖励结构,一定程度抑制这样的问题,这是我们接下来想去解决的问题。
提问:o1发布之后有使用次数限制,这个新模型放到Kimi里,是让用户选还是自动分配?在目前Kimi不收费情况下,如何平衡成本的问题?
杨植麟:我们接下来的版本大概率会让用户自己去选择,早期通过这种方式可以更好分配或更好满足用户的预期,我们不想让它1+1等于多少想半天。
这里面最终可能还是一个技术问题。如果模型足够聪明,它应该知道什么样的问题需要想多久,简单的问题思考时间会更短。现在还不是最优,我觉得它还有更优,需要通过算法迭代。
长期来讲,我觉得成本是不断下降的过程。今年如果要达到去年GPT-4模型的水平,可能只需要十几B的参数,去年可能需要一百多B,整个行业是这样普遍的规律。
二、谈Scaling law:上限依然很高,差距相对国内可能是好事
提问:公司之前模型介绍的比较少,现在预训练的情况是什么样的?会不会被Scaling Law限制住?
杨植麟:我觉得预训练还有空间,半代到一代的模型,这个空间会在明年释放出来。明年我觉得领先的模型会把预训练做到一个比较极致的阶段,今天最好的模型大概还有空间可以去压榨。
但我们判断接下来最重点的是强化学习,范式上会产生一些变化。它还是Scaling,并不是它不用Scale,只是说通过不同的方式去Scale。
Scaling law会不会是一个天花板或上限,这个相对来说我比较乐观。核心就在于原来用静态数据集,是比较简单粗暴的使用方式,现在用强化学习的方式,确定性比较高,所以我觉得它上限是很高的。
提问:如何解决强学学习过程中解决数据、算力、算法平衡的问题?如何能够用小的数据,小的算力解决更多的问题?
杨植麟:我觉得AI的发展就是一个荡秋千的过程,会在两种状态之间来回切换。一种状态就是算力不够,所以要做更多的工程,把infra做得更好,它就能够持续提升。从Transformer诞生到GPT-4,更多的矛盾就是怎么能够Scale,可能算法和数据没有本质的问题。
今天当Scale差不多的时候,会发现再加更多的算力,并不一定能直接解决这个问题,核心是因为没有高质量的数据。这时要通过算法的改变,让这个东西不会成为瓶颈。
所有的好算法都是跟Scaling做朋友,如果算法能够释放Scaling的潜力,它就会持续变得更好。我们从很早就开始做强化学习相关的东西,通过这种方式去改变目标函数,改变学习方式,让它能持续的Scale。
提问:现在预训练都遇到瓶颈后对中美大模型格局的影响是什么?差距是变大还是变小?
杨植麟:我一直觉得差距相对是一个长处,对我们来说有可能是一个好事。假设你一直预训练,预算今年1B、明年10B或者100B,不一定可持续。Scaling起点很低,可能Scale很长一段时间,算力不会是瓶颈,这时创新能力是更重要的,这种情况下我觉得对我们反而是一个优势。
三、谈Kimi:最核心的任务是留存,正在内测多模态功能
提问:Kimi现在最核心的任务是什么?
杨植麟:最核心的任务就是提升留存,把留存作为一个重要的衡量指标。它跟技术成熟度或技术水平是一个正相关的过程。我觉得现在还是初级阶段,当然每年都有一些比较大的进步,如果我们今年用去年的产品,可能根本没法忍受。
还有很多东西,比如思考能力还不够强,交互不够丰富,包括跟用户的交互,跟客观世界的交互,我觉得都还有很大的提升空间。当我们把这两个做好之后,留存也会进一步上升。
提问:前段时间有数据说公司投流不到一月花了上亿,公司在Kimi投流这块是什么策略?投放的动作会是持续性的吗?
杨植麟:数据不完全准确。对我们来讲最核心的是把留存和增长做好,适当的投放是需要的,但需要平衡好这几个东西之间的关系。目前整体留存,我们相比于其它产品有优势,如果放眼去看这个产品的终极生态,肯定还有非常大的空间,我们会持续在这个方面做得更好。
提问:公司在多模态上有什么布局?
杨植麟:我们也做,几个多模态的能力在内测。我觉得AI接下来最重要的是思考和交互这两个能力,但思考的重要性远大于交互。我觉得思考会决定上限,交互是一个必要条件。所以多模态肯定是必要的,但思考决定它的上限。
提问:公司在出海上怎么想?
杨植麟:我觉得先聚焦,然后全球化,需要更耐心一点。Super App已经出现,ChatGpt已经超过5亿的月活,它是不是超级应用?至少半个吧,很大程度上被验证。Character AI这种产品一开始用户量也蛮多,但后面很难破圈。我们会聚焦在我们认为上限最高的事情,而且跟我们AIG的misson最相关。
四、谈行业:不会过多关注竞争,部分创业公司被收购是必然
提问:怎么看Kimi跟豆包的竞争?
杨植麟:我们更希望关注在怎么能给用户创造真正的价值上,我不希望我们过多的去关注竞争本身,因为竞争本身并不产生价值。我们会更聚焦在怎么提升模型的思考推理能力,给用户带来更大的价值,就是做正确的事情,我觉得只要能有人实现AGI都是非常好的结果。
提问:现在市场上这几家大模型创业公司,能做出来的比例是什么样的情况?
杨植麟:我不好判断其他人的情况,我能说的是我们已经有比较好的进展,比如数学包括搜索,能够一定程度证明我们在这个方面的技术有比较强的先进性。当然空间还很大,我们还要持续去做更多的优化。
在这几个大模型创业公司里,我们始终保持人数最少,始终保持卡和人的比例最高,我觉得这非常关键。我们不希望把团队扩那么大,扩太大对创新有致命性的伤害。如果想把团队保持在一定规模,最好的方式是在业务上做一些减法,控制业务不要过多,控制人数不要太多,真正聚焦把核心的创新能力做好。
提问:怎么看待最近不少AI创业公司被收购,以及人才回流大厂的现象?
杨植麟:我觉得倒也正常,行业发展进入了一个新阶段,开始有很多公司在做,变成了现在少一点的公司在做,接下来大家做的东西会逐渐不一样,这是必然的规律。有一些公司做不下去,就会产生这些问题,这个是行业发展的规律。
我们没有人才流失,我们也在主动选择做业务的减法。我们一开始尝试过几个产品一块做,这在一定时期内有可能有效,到后来发现还是要聚焦,把一个产品做好、做到极致最重要。如果现在三个业务一起做,就活生生把自己变成大厂,就没有任何优势。这也是我们过去一年比较大的教训,应该聚焦一些重要的事情,然后做好。