要像投入算力一样投入数据。
作者|卫琳聪
2026年,39岁的姚卯青有了新头衔:觅蜂科技董事长兼CEO。他同时也是智元机器人合伙人、高级副总裁,主管具身业务。
2023年加入智元以来,这位清华毕业、工作履历贯穿谷歌、甲骨文、蔚来汽车的行业老兵在具身智能领域做了不少工作。先后发布机器人智元精灵G2、智元启元大模型GO-1,后者是全国首个通用具身基座模型。
除了模型和机器人,他的工作中还有一块相对靠后但重要性日渐凸显的领域——数据。
2024年,姚卯青牵头建成行业规模最大、场景最丰富的数采超级工厂之一,并开源全球首个基于全域真实场景的百万真机数据集AgiBot World。
到了2026年,数据开始占据姚卯青更多精力。2月份上海觅蜂具身智能科技有限公司成立,姚卯青担任一把手。
姚卯青告诉「甲子光年」,他在智元做具身智能迭代的过程中发现,真正的卡点不在算法,而在数据。于是专门成立了觅蜂科技,想通过独立的公司以更聚焦、开放的方式突破数据瓶颈。
觅蜂科技致力于构建物理AI数据基础设施,“让高质量物理AI数据像水电一样即取即用。”觅蜂在2026年4月发布MEgo系列无本体、可穿戴数据采集设备,并配套数据治理服务平台MEgo Engine。
这背后更大的变化是具身智能数据掀起的热潮。业内关于2026年是“具身数据元年”的说法不绝于耳,具身数据采集正从实验室、采集场迈向全民参与。
近期,姚卯青和我们聊了聊他对具身数据的看法和做法。以下为「甲子光年」专访姚卯青文字实录,经编辑整理,略有删改。
觅蜂科技董事长兼CEO姚卯青
1.百亿小时具身数据能实现智能涌现,现在只有几十万
甲子光年:大家都知道具身智能缺数据,目前行业有效数据量级大概是什么级别?缺口有多大?
姚卯青:目前整个行业来讲,我们认为有效数据在全球大概在几十万小时这样的规模。但要达到像GPT-3.5那样开箱即用的类人初步能力,我们认为大概需要一亿小时量级。从几十万到一亿,中间还有2~3个数量级的差距。
甲子光年:觅蜂的目标是2026年达到千万小时级数据产能,2030年达到百亿小时。如果能达到百亿级,对具身智能意味着什么?
姚卯青:百亿级如果是高质量、多元化的数据,我们认为对机器人应该能达到甚至GPT-4的效果,通过超大规模数据训练出的基础模型,会具备一些专家能力。
甲子光年:也就是说,达到百亿小时数量级,就可能出现大家一直期待的智能涌现?
姚卯青:是的,我们还是比较坚信的。
甲子光年:最初为什么成立觅蜂?大家都知道觅蜂和智元有很强的联系。
姚卯青:契机是大家虽然觉得具身智能是AI驱动、算法很重要,但经过我们前期迭代发现,核心卡点不在算法——算法可以通过优秀人员创新实现,但数据实在太少了。数据获取需要时间、投入和迭代方法,不可能一蹴而就、一夜造出来。未来真正制约行业发展和形成壁垒的一定是数据。
具身智能的模型我们认为不会有强壁垒,只是投多少算力和工程人员的事。在这样的背景下,数据是非常重要的商业模式。即使在AGI还没出来之前,数据本身就有很大的市场。
所以我们孵化了独立业务,让它更聚焦,通过市场化方式融资获得资金支持,让数据采集、生产、标注的方法和基础设施更扎实。作为独立的第三方公司,也能更好地服务全行业用户。
甲子光年:如果为了提高数据量级,为什么不在智元内部做,而要成立觅蜂,以这种第三方的形式来做?
姚卯青:第三方业务更聚焦,觅蜂的人员唯一的OKR就是把数据这件事做好,大家更专注。另外可以独立融资,有更多资金支持数据。最近有人建议全球具身智能从业人员停止研发一年,全来搞数据,不要再搞模型代码——说明聚焦数据很重要。
再者,独立公司的决策更公允,才能保证服务行业。在智元体内,可能会给自身团队优先级和资源倾斜,至少外界会这么觉得。成为独立公司,智元就是正常客户,大家都一样,有什么需求就来采购,大家一起排队,该排队就排队。
甲子光年:独立出来也能更大量地采集数据,更开放?
姚卯青:对,更开放。智元的主要业务还是智能机器人,在各场景创造生产力价值,要聚焦那里。我们作为专门的数据公司,可以更开放、更大刀阔斧地搞各种数据创新。
2.众包、加盟,全民采数据
甲子光年:现在离2030年只有四年,数据量从几十万小时增长到百亿小时,怎么能实现?
姚卯青:从当前量级到百亿,涉及几个点。
第一,大家在使用和迭代中逐渐探索、收敛出什么样的数据是更好的标准——从采集设备、采集方式,到场景分布、任务分布,再到标注格式、颗粒度、准确度。这需要和数据用户、模型团队反复迭代,逐渐沉淀和收敛。
第二,要支撑这么大的数据量,必须变成全民参与的形式。我们公司的使命是"让全世界的数据为AI所用",加速智能体的到来.所以首先要提供大量采集设备,做好产品定义和量产化;其次要有一套强大的数据传输、存储和处理的软件、算法基础设施。
第三,要有好的机制来吸纳、分配数据。达到这种成熟度,才能真正让全世界数据为AI所用。
甲子光年:觅蜂具体会怎么扩大数据量?据说你们要用众包和加盟的方式来采集?
姚卯青:是的,已经在做了,我们现在有不同形式的生态合作。一些独立的数据采集运营团队会根据我们的标准和流程进行委托式采集——我们规定任务和场景,委托他们按标准采集,我们验收结算。
甲子光年:怎么找到足够多的采集人员?
姚卯青:有两种方式。一种是在很多城市,我们的运营伙伴会集中招募人员,比如从职业院校等渠道,安排到各种场景里采集。另一种是和劳务平台合作,他们本身每天有很多外包员工在各行各业工作,工作期间就可以采集数据。
将来我们还会推出更面向全民的形式:大家可以领取设备,把自己认为有价值的场景录制成数据,我们根据质量、场景新颖性和价值来判定,有价值就会购买。这是纯全民参与的众包形式。
甲子光年:这种全民参与的形式,是由觅蜂直接开放组织吗?还是通过中介?
姚卯青:前期我们直接在自己平台上招募、筛选。估计会有很多人相应,在有限资源下,我们会筛选申请者,分配设备,规定需要的场景任务,他们采集后我们核验。目前主要还是跟劳务公司合作,招募外包员工采集。
采集人员使用觅蜂的设备进行数据采集
甲子光年:加盟的采集方式具体会怎么做?
姚卯青:我们在各个地方有加盟的采集基地,往往是一些具备运营能力的伙伴——有人力、运营能力和本地场景触达能力。他们拿着采集设备,自己招募人员,分配场景和所需数据时长,让他们进入可触达、可控制的场景里采数据。
甲子光年:这些合作方以前就是做数据的吗?
姚卯青:都有,有些过去做其他领域的数据,比如自动驾驶、语言模型、机器视觉等。也有些原来不是做数据运营的,我们可以从零培训他们如何管理和运营采集队伍。
甲子光年:如果以前不是做数据的,他们可能有什么基础适合加盟合作?
姚卯青:没有特别强的标准。很多做算力运营的也有一定资金实力,这是需要的——因为要持有一批设备、招人,采集数据肯定有成本支出。
甲子光年:相当于是轻资产运营,加盟方或众包组织方提供人力、场地,你们提供采集设备,他们采集后返回数据给你们?
姚卯青:对。
甲子光年:这个模式和真机采集、大型数据场采集相比,效率能提高多少?成本能降低多少?
姚卯青:人员采集效率有提升。真机采集8小时可能产出2~3小时有效数据,但像这种无本体、可穿戴设备,8小时采集甚至能产出5小时左右数据,几乎翻倍。
成本上人力取决于人效,物力方面无本体采集用的设备比机器人真机便宜很多。
甲子光年:数据采集回来后要怎么用?
姚卯青:采集回来首先要做处理,处理完的数据才会给算法用户做模型训练。要做位置提取、语义标注、任务描述标注,有些情况下还要做视觉语义标注,做同一时间下各路传感器、执行器的对齐,可能还要打语音标签等。这些都做完形成数据集,才能交付使用。
甲子光年:你们还配套推出了数据处理引擎,这对数据采集的成本、效率有改善吗?
姚卯青:是的,人员高效采集能减少不必要的时间浪费和低质量数据积累。采集完后的数据管线——位置提取、标注、预标注、清洗等,引入自动化环节,各方面都能提效。
3.标准不是拍脑袋想出来的
甲子光年:觅蜂想要成为具身数据的基础设施,不过具身数据和机器人本体绑定性强,你们采集的数据能面向行业通用吗?
姚卯青:无本体数据天然和机器人本体解耦,大家都能用。其实真机数据本身也可以跨本体使用。真机数据很多时候用于预训练阶段,学术上验证过,用某些机器人本体产生的数据进行预训练得到的模型,可以通过少样本的后训练数据微调,在另外的本体上落地部署。
甲子光年:这些数据的使用方主要是哪些?
姚卯青:主要是机器人、具身智能的研发团队,包括机器人公司、大厂的具身团队,还有大模型和视频生成类公司,现在也叫世界模型。
他们使用完静态互联网数据后,需要更多真实物理世界的、与环境有交互、有任务执行和规划的数据,来进一步提升多模态模型的智能化程度。这些都需要物理AI的数据。
甲子光年:你们发布了“蜂巢数据共创行动”,合作方很多。具体如何共创合作?
姚卯青:蜂巢数据共创行动里有不同参与角色。一类是场景提供方,他们有很多场景愿意开放出来做数据变现,对我们很有价值。第二类是本身在做数据生产、标注业务的。觅蜂希望成为平台型公司,以灵活方式链接数据需求和供给,他们可以通过觅蜂平台交易,触达数据使用方。还有一类是和觅蜂合作、具备运营能力的委托数据生产方。
甲子光年:目前比较需要哪些场景?
姚卯青:像零售、酒店、物流、家居、家政、工业,各种各样的场景都希望有。
甲子光年:比如一个药店小老板,如果愿意合作就可以把设备放到他店里采集,是吗?
姚卯青:对的。
甲子光年:现在不少地方政府牵头建设大型数据采集场,觅蜂和这些采集场之间是什么关系?
姚卯青:我们和采集场有一些合作,他们算是我们的委托生产伙伴。觅蜂自己轻资产,人力密集型采集会委托采集场按我们的标准和流程进行采集。
甲子光年:市面上其他数据供给方,也可以通过觅蜂平台进行数据供给和交易吗?
姚卯青:是的。
甲子光年:在这种平台模式下,觅蜂未来的商业模式是什么?赚哪部分钱?
姚卯青:觅蜂做数据的高价值增值部分,比如采集回来的数据,我们通过觅蜂的数据平台做精细的后处理、标注、位置提取等,把原始数据变成模型能直接用于训练VLA、世界模型的数据。我们从数据处理这部分获取商业价值。
甲子光年:也就是说,你们还是希望从提高数据质量和附加值上赚取收益,而不是像互联网平台那样做撮合交易、赚佣金?
姚卯青:对,不是简单收取佣金的模式,这里面有很多技术含量。
甲子光年:大家谈到具身数据都会说缺数据、质量低、没有统一标准。觅蜂的模式能推动数据标准建立吗?
姚卯青:我觉得可以。现在没有标准是因为大家都没有找到快速迭代标准的路径。标准不是拍脑袋想出来的,一定是在使用中迭代收敛的。过去大家碎片化地满足自己的数据需求,找一堆供应商,从质量、场景到采集设备五花八门,很难高效沉淀出真正有效的格式和质量标准。通过觅蜂提供大批量快速标准化的服务,我相信大家能和我们一起,通过模型效果的反馈来更快迭代出这套标准。
甲子光年:具身数据这个生态里,现在不同参与方更多是各自为战,觅蜂怎么推动大家达成数据标准?
姚卯青:标准本身不是为了推而推就能推出来的。我们懂数据,不是简单的开环盲采。觅蜂有数据闭环的团队和能力,知道数据要经过怎样的后处理,也会通过模型评估评测来闭环验证数据效果。通过这些方法和能力,我们能保证和用户一起设计、迭代出来的数据是真正能为模型所用的。最终这就是一个事实标准。
4.大力出奇迹
甲子光年:很多机器人厂商觉得数据是核心壁垒,更倾向于自采自用,不共享。但你之前在智元推动开放了100多万条机器人轨迹数据集和仿真框架。不担心冲击自己的数据壁垒吗?
姚卯青:不太担心。整个行业太早期了,大家都需要高质量数据来启动创新研发。没有这些数据,所有创新都会被扼杀在摇篮里。
另外我们的开源是有设计的,不是盲目开源。我们会筛选典型场景和任务,保证质量有效后再开源。但背后还有更大的不开源部分。开源相当于让大家试用,感受高质量数据的价值,但真要走到AGI、走到通用模型,需要的数据量还有几个数量级的差别,这部分可以用闭源方式构建壁垒。
甲子光年:如果大家都不开源、各自为战,数据量上不去、质量也差,但核心东西各家也不敢放出来。这怎么平衡?
姚卯青:我认为逐步会往闭源方向走。数据很核心,大家花了很大代价构建数据壁垒,会越来越多地像投入算力一样投入数据。如果有足够预算,大家不会完全依赖开源数据迭代能力,更可能和觅蜂这样专业的一站式平台合作,获取定制化数据需求。
甲子光年:也就是说具身数据还是会以闭源为主?
姚卯青:对,将来全球总量肯定以闭源为主。
甲子光年:所以即便觅蜂做平台基础设施,也是定制化合作会更多?
姚卯青:是的。
甲子光年:之前大家讨论比较多的是真机遥操采集,现在包括觅蜂在内,不少团队都在做无本体采集。数据采集的范式发生变化了吗?
姚卯青:肯定有很多新的数据需求在涌现,但也不是替代或互斥的关系。面向预训练、前沿探索,大家需要以人为中心、无本体的数据,研究如何将人的行为迁移到机器人。但面向场景真正落地、形成部署或做demo,大家一定依赖真机数据,因为那是后训练的范畴,必须用本体数据。不同用户会产生不同的数据需求。
甲子光年:为什么之前真机采集数据比较多,无本体采集声浪小一些?
姚卯青:因为真机数据直接拿来就能用,非常确定。有真机数据就可以训练机器人的策略,直接部署。
直到今天,这也是一个开放式问题:无本体的数据有效性到底如何?怎么迁移到机器人上高效高性能运行?这还在探索中,比较前沿。
甲子光年:这跟机器人的发展阶段有关吗?前面大家在造本体,需要更精确;现在相对成熟,要做更大规模部署,就需要更大量数据,无本体采集能更快、更多地获取数据?
姚卯青:对,这是其中比较重要的一个方面。大家都在沿用大语言模型的路线,相信大力出奇迹,只要数据够多。在这种情况下,想尽可能短时间获取尽可能多数据,无本体是一种scale up的方式。虽然它的数据质量和可用性有一些疑问,但至少容易堆量,哪怕从试错角度,大家也愿意先尝试。
(封面图片来源:智元机器人官网;其他图片来源:觅蜂科技)