134. 和谢晨聊"数据的综述":AI和机器人数据的历史、版图、金字塔与Recipe - 主题精读稿
134. 和谢晨聊"数据的综述":AI和机器人数据的历史、版图、金字塔与Recipe - 主题精读稿
前言:数据是AI的教育体系
数据、算力、算法是驱动人工智能的三驾马车,但数据这驾马车所面对的路况,在大语言模型和机器人领域截然不同:前者撞上了互联网数据耗尽的墙,后者则身处一片荒漠。光轮智能创始人谢晨从自动驾驶仿真的十年实战经验出发,提出了一个贯穿全篇的核心类比——数据之于智能,正如教育之于人。这个类比不仅帮助理解数据产业从"填鸭式教育"到"因材施教"的演化,也为理解机器人数据金字塔、仿真的本质角色、以及数据产业终局提供了一个统一的分析框架。本篇访谈可以视为一篇关于AI数据的产业综述,涵盖了数据的定义、历史、当下版图与未来走向。
一、光轮智能CEO谢晨:从北大物理到机器人仿真创业之路 (00:03 - 05:28)
谢晨的经历相当复杂。北大物理本科,哥伦比亚大学商学院量化金融博士,毕业后在电商公司Zhaidao.com做过动态定价算法负责人,做过产品经理。2018年加入Cruise负责自动驾驶仿真,后转至英伟达负责同一领域,2021年回国加入蔚来。2023年成立光轮智能。
这条看似曲折的路线背后有一条清晰的主线:他一直在寻找能让自己"成为一个前提条件来真正改变一个行业"的位置。在Cruise,他第一次验证了仿真和合成数据并非玩具,可以真正支持算法演进。在英伟达,他发现车端芯片最大的客户不是Waymo和Cruise而是蔚小理,意识到自动驾驶的下一代将在中国——于是仅入职六个月就携家带口回国。在蔚来从主机厂角度实践仿真后,一个关键思考逐渐成形:仿真对于自动驾驶可能只是加速器,但对于机器人、具身智能,它可能是先决条件。
二、谢晨的职业选择与个人特质 (05:28 - 12:40)
谢晨坦言自己"花了很多的时间发现自己不擅长什么"。北大物理从年级110名拼到前五,但意识到自己缺少物理天赋;转向金融后发现行业缺乏创新和社会贡献;投身科技行业又觉得产品经理工作不够颠覆性。他的特质是"要做就做到最好,希望找到区分度"。
本科时他组织北大学生赴美交流团,博士期间为爱犬土豆开发了一款在北美排名前三的狗友社交应用,做了三年,但因没有想清楚商业模式而主动关闭。对比巴菲特10岁就发现自己擅长投资、郎朗10岁就擅长钢琴,他说:"我必须得去通过试错才能知道自己不擅长什么。"直到2018年进入仿真领域,他才觉得找到了方向——基于颠覆性技术打造产品,用产品支撑一个产业。
三、深耕仿真领域:仿真不是玩具 (12:40 - 19:21)
在Cruise之前,仿真更多是给投资人看的demo工具——用游戏引擎渲染出看起来很真的世界,但算法团队用这些数据训练出来的模型效果反而下降。谢晨接手后,第一步不是改进仿真,而是建立评价仿真的准则。有了评价体系后,再用生成式AI和仿真结合提升数据质量,最终让算法团队看到了真实的提升。这个过程让他"真正相信了这件事"。
去英伟达是为了从供应商角度理解仿真应该怎么做。在那里他看到英伟达"在下一盘大棋"——真正侧重的是机器人仿真,因为英伟达坚信合成数据是让机器人部署到世界各地的唯一路径。去蔚来则是从主机厂客户角度补全认知。经过L4自动驾驶公司、芯片供应商、主机厂三个视角的历练,他才下定决心:出来做的不应该是自动驾驶仿真,而是整个机器人产业的数据基建。
四、外部创业的优势与数据的本质 (19:21 - 25:42)
为什么不在公司内部做?谢晨的回答直击要害:在Cruise,最好的人才一定给感知团队而非仿真团队;在Waymo,最好的数据人才给算法而非数据基建。而Scale AI之所以能成功,正是因为它在外部,能吸引全世界最优秀的算法和数据人才来打造数据飞轮。只要事情足够难、商业机会足够大,就应该在外面做。
谈到数据的本质,谢晨提出了贯穿全篇的核心框架。**数据对于智能,就像教育对于人的学习——它是第一性的需求。**他将AI数据的发展划分为三个阶段:
第一阶段是ImageNet式的静态数据集,对应一次性的填鸭式教育。第二阶段是Scale AI开创的工业化数据生产,基于大规模工厂式流程,对应量贩式教育。第三阶段是大语言模型时代,数据重心转移到后训练和评价,需要越来越高阶的人(工程师、数学金牌、律师、医生)提供因材施教式的评价和经验传授。
师者,所以传道授业解惑也。这就是一个老师根据你的因材施教,根据你的能力,根据你的阶段,基于一些对你的评价发现了一些问题,并且基于这些问题给你足够的有经验的传授反馈来帮助你去提升。
对于具身智能,数据又更加复杂——需要在真实或仿真的物理世界中,基于评价和信号,提供更有效的经验传授和反馈。数据最终应该被定义为"能够帮助你去学习的信号,以及相应的经验传递"。
五、数据标注的演变:从被动标注到经验传授 (25:42 - 34:24)
数据产业本身也在演变。传统的自动驾驶数据标注是被动的——算法团队提需求,标注团队交付,标注方对算法状态毫不了解。如今全行业可能有十万到几十万人在做人工标注。但大语言模型时代,数据商(如Macquarie、Surge)变成了评价方:他们找高阶的人与模型交互,给出反馈、出题、提供答案,刺激新的数据需求,形成闭环。这些人时薪超过100美金,他们提供的不是在已有数据上加一层标注,而是直接给数据提供反馈或生成新的数据。数据商与客户的关系从甲方乙方变成了师生关系。
在具身智能领域,一个反直觉的发现颠覆了传统认知。最有效的数据不是完美的数据,而是先失败再成功的数据。比如做披萨时蘑菇没抓牢掉到桌上,再捡起来放回去——这种"复样本"或"纠正数据"反而更有效。因为当模型的泛化能力提升后,它更能从错误中学习。这更接近人的学习过程。
六、"数据即模型"辨析:零样本泛化与架构的重要性 (34:24 - 37:14)
有观点认为"数据即模型,模型即应用"——模型本质上是一个巨大的压缩器,数据分布里没有的类型就做不好。谢晨认为这个观点揭示了现阶段的真实问题——零样本(zero-shot)能力还不够。如果机器人没见过做披萨,但见过切菜和做汉堡,能不能把披萨做出来?目前还不行。
但长期来看,**"数据即模型"不是本质观点。模型架构还需要提升,一个不具备零样本泛化能力的模型不是通往通用智能的模型。**他用马斯克做类比:马斯克的学习方式是从第一性原理出发,基于广博知识和实践迅速迁移出新知识,他的"模型"比普通人的有效得多。智能一方面需要更多有效的高质量数据,另一方面也需要模型本身的提升。
七、大模型团队与机器人团队的需求分化 (37:14 - 45:22)
过去六个月发生了质的变化。大模型客户和机器人客户对数据的需求从接近变为高度分化。
**大模型团队(含VLA团队)**关注的是零样本泛化能力。他们选择最简单的机械臂而非人形或轮式机器人,正是因为不想做硬件——他们要做的是具身智能的大脑。核心追求是:训练了一百种任务后,没见过的五个任务也能做。他们倾向使用本体无关的仿真和人类数据,关注家居、商超等容易获取数据的场景。
机器人团队则聚焦具体的落地场景——酒店、工厂车间、沙漠太阳能板更换,关注自身本体的复杂性(轮式、足式、带传感器的手),追求把特定任务执行好。
一个关键发现是:DeepMind、英伟达、OpenAI这些大模型团队都在做具身智能的VLA。它们的VLA团队与大语言模型团队、世界模型团队是"极其共生、协作"的关系——VLA会用到基础模型,如果公司具备大模型能力就用自家的,否则用开源模型。这些团队对数据的理解极其到位,对数据量的饥渴程度远超机器人公司,训练基础设施也是数量级的差异——机器人公司几千张卡已经很多,大模型团队动辄大几万张。
八、世界模型与VLA:云端与端侧大脑的共生 (45:22 - 49:03)
世界模型是云端大脑——对物理世界有理解和预测能力。VLA是端侧大脑——在物理世界有精确有效的行动力。大语言模型在数字世界已具备一定的世界模型能力,但缺乏对物理世界的理解。三者后端的训练基础设施和底层基座会越来越趋同。
世界模型和VLA之间有一个有趣的共生关系:世界模型可以作为基座给到VLA,VLA又作为落地反馈给世界模型。**一个重要的判断依据是:如果一件事的评判标准越来越接近,那么这两件事将来就会是一件事。**李飞飞团队的Behaviour Challenge同时可以评价VLA和世界模型(通过Enact),这暗示两者可能最终融合。短期内它们是共生依赖的关系,长期可能合而为一。
九、大脑公司与本体公司:特斯拉数据引擎的逻辑在机器人领域失效 (49:03 - 55:56)
特斯拉的数据引擎(Data Engine)是一个基于本体的闭环:上百万辆车在路上跑→收集数据→训练云端大脑→部署更好的自动驾驶→形成飞轮。OEM本身就是最大的数据商和大脑商。
但这个逻辑在机器人领域会被颠覆。世界上不存在上百万台机器人自动执行任务并回传数据。有人遥操成本太高、不可规模化。因此机器人的数据架构必然符合数据金字塔:最少量是端侧真机数据,中间层是仿真数据,最底层(量最大)是互联网和人类第一视角数据。下面两层的共同特点是不需要基于硬件本体,且规模化能力远高于真机。
最多的具身数据一定不是本体上提供的。这意味着不会存在一个本体商既有最广泛的本体又做全世界最好的大脑。特斯拉自己也把Optimus的大脑交给XAI来做。未来的格局是四者协作:大模型商(提供大脑)、本体公司(做微调和落地)、数据商(提供评测与数据,与大模型商共生)、场景商(OEM、医疗集团等部署需求方)。
十、系统级学习能力:AI的数据问题远未解决 (55:56 - 1:07:38)
从长远来看,不能说"知识即模型",而应该理解为不断提升的系统级能力。小孩看画本就够了,马斯克需要更高阶的知识和信号。"因材施教"不应该以人为中心,而应以系统为中心——只有这样才能提供足够规模化的言传身教。
大语言模型和机器人面对的数据问题有结构性差异。大语言模型的预训练数据已经到顶(整个互联网),痛点在后训练和评测——找越来越高阶的"老师"去出越来越难的题。而机器人两端都有问题:预训练缺乏足够数据让基础模型达到基础能力,评价能力也严重缺失。
自动驾驶的评价是"免费的"——影子模式让算法静默地与司机的操作做对比。大语言模型也有"影子模式"——上线后与用户的交互本身就是免费评价。但机器人不具备这种大规模的真实世界影子模式,唯一的方案就是基于仿真规模化评价。
如果给数据打个分:大语言模型在后训练和评测大约60分,还有很大提升空间。机器人的数据呢?假设一百万台机器人回传的数据是60分起点,现在连一万台规模的数据都没有——可能0.6分都不到。
机器人就是物理世界的Agent,大语言模型的Agent是数字世界的Agent。数字世界Agent的核心数据产品是RLINF(服务强化学习的环境)——虚拟的网站、编程环境,让Agent不断试错和提升。物理世界的Agent同理,只是还没走到Agent阶段,卡在预训练和评测两端。
十一、数据产业前世今生:从ImageNet到评测驱动 (1:07:38 - 1:14:06)
数据产业的发展与模型学习范式紧密相关。李飞飞的ImageNet定义了AI数据本身,既是训练集也是评测集,是静态的、提供正确答案的。Scale AI开创了工业级数据产业,引领了两波浪潮——先是自动驾驶的流程化标注交付,后是GPT-2时代的RLHF和评测驱动数据。Scale给自己的定位从数据标注变成Data Foundry(数据晶圆厂),有更多的流程、规范和know-how。
但下一阶段的转变将更加根本。大语言模型的RLHF仍以人为中心(Macquarie和Surge在全球有几十万到百万人的规模),但具身智能所需的数据量远大于大语言模型,不可能简单地再扩大千倍人力。这里必然发生一个从"以人为中心"到"以系统为中心"的转变——系统作为引擎,放大端侧人的信号和经验,以评测驱动而非训练驱动。
数据标注人员的时薪在大幅提升,但人数并没有减少。就像DeepSeek出现后大家以为对英伟达卡的需求会降低,实际上test-time scaling刺激了更多AI应用需求,反向增加了算力需求。越有能力的人越爱学习,每天读书量是增加而非减少的。到模型达到诺贝尔奖水平、没几个人能教它时,它需要的就是自我提升——在环境中,基于自设的成功标准和强化学习不断修炼内功。那个阶段它永远需要物理环境,永远需要评价指标。
十二、仿真派与真机派的分化:必备条件而非加速器 (1:14:06 - 1:27:03)
谢晨非常确定地表示:**仿真对于机器人是必备条件,没有仿真这件事肯定做不成。**理由有三:一是机器人没有足够真机在端侧部署来形成数据闭环,必须靠仿真;二是除仿真外想不到任何其他大规模评测来源——实验室级的小规模评测可以用真机,但要在上千个家庭评价上万个任务并每天重复验证,唯一方案是仿真;三是仿真和人类数据是本体无关数据的两大主要来源。
一个有力的市场信号是:三个月前还是坚定真机派的顶级大模型团队,现在都主动找到光轮智能做仿真评测。他们共同的问题是没办法规模化评测了——算法已经做得足够好,但没有足够多样的场景和任务来持续检验。
国内机器人公司仿真派少的原因很直接:**屁股决定脑袋。**机器人公司的底层商业模式是卖本体,需要说服客户买真机来采数据,所以必须提倡真机派。谢晨认为真机数据当然需要,增长十倍也是必须的,但按数据金字塔,它只是最顶端最少量的一层。
仿真数据带来的是sim-to-real的问题,而非泛化的问题。泛化应该通过生成极大量的仿真数据来解决。
十三、仿真的严格定义与世界模型的机会 (1:27:03 - 1:32:25)
谢晨对仿真给出了严格定义,三个必要条件:物理准确——环境和交互物体的摩擦力等物理参数要与真实世界对标,不只是几何上像;可复现——跑一百遍仿真结果基本相同;可修正——在相同环境相同起始点改变行动,能观测到不同结果。
按此定义,视频模型不是仿真:很难复现、没有准确行动、改变初始条件也难以产生可控的不同结果。但世界模型有机会成为仿真的一类,因为其底层是生成模型,可以广泛生成相对真实的世界预测。仿真和世界模型不是谁取代谁,而是共生——仿真为世界模型提供更好的物理数据以提升预测能力,世界模型为仿真数据做更好的泛化和光定。光轮智能与世界模型客户已经形成"他们用我们的数据,我们用他们的模型"的共生关系。两者共同达到的更大目标是为智能提供更好的学习能力。
十四、机器人领域不会复刻Waymo与特斯拉之争 (1:32:25 - 1:43:21)
机器人领域会跟自动驾驶很不一样。自动驾驶的智能水平相对有限(场景单一,唯一的物理是车和地面,不需要精细的物体操作),可能VA(Vision-Action,不需要语言)就是终局。但没有语言的话智能水平会大大降低。机器人则需要同时对标大语言模型和自动驾驶——是两者的结合。
做大脑的公司不像Waymo,更像OpenAI。垂直场景的机器人公司才像Waymo——先在一个场景完全落地再泛化,但每迁移到新场景都可能伤筋动骨。Figure希望成为具身领域的特斯拉(自有硬件+量产+大脑),但难度极高。
**关键逻辑:如果底层数据逻辑是本体无关的,特斯拉模式就不成立。**具身智能必须依赖仿真和人类数据,否则通用智能出不来。创业公司很难做大脑——底层需要大几万张卡,需要世界模型团队作为基座。国内OEM有机会,但创业公司做大脑不太合理。
十五、数据金字塔的构成与以仿真为中心的闭环 (1:43:21 - 1:51:12)
数据金字塔由朱一可教授提出,三层结构:顶端是真实本体数据(最准确但最难规模化)、中间是仿真数据(规模化优势但有sim-to-real问题)、底层是互联网和人类第一视角数据。过去几个月,本体无关数据产生了质的突破:李飞飞的Behaviour Challenge和英伟达Groot模型证明了仿真数据的有效性,Generalist用27万小时的人类数据看到了Scaling Law。
金字塔每一层都需要细分。仿真数据层:上面是人驱动的仿真数据(质量最高但规模化差),下面是算法驱动的自动化采集(规模化好但质量次之)。人类数据层:被动采集(人戴眼镜随机采集)和主动采集(高质量硬件+流程管控)。
但金字塔不应被理解为三层独立的结构。从实践来看,数据会是一个以仿真为中心的闭环。仿真评测需要真实场景、物理和人的轨迹——所以需要Real-to-Sim算法把真实世界数据带入仿真。仿真做完后需要在真实世界落地——所以需要Sim-to-Real的训练端和评测端对标。
十六、被高估与被低估的数据 (1:51:12 - 1:56:12)
**真实机器人数据肯定被高估了。**原来坚定的真机派现在都在大规模采购仿真数据和人类数据。仿真仍然被低估——大模型团队已完全看到仿真评测的价值,但很多机器人公司还在起步阶段,当它们的任务种类和开放场景增多时,会越来越感受到这个痛点。人类数据也被低估。
智能眼镜在这里扮演关键角色——就像自动驾驶中的车一样,所有人出去就是在给机器人收集数据。但前提是这必须是消费级硬件。谢晨对Meta Ray-Ban眼镜高度评价:首先是一副好看的眼镜,其次才有AI助手和摄像头。**理想状态是人就喜欢戴这个眼镜,而不是为了数据去戴。**人类数据公司不应该做自己的硬件,应该基于已有的消费级爆款。
人类数据为什么一定要第一视角?从第一性原理出发:人就是这么工作的。大模型追求的核心能力是跨本体能力——如果从这个角度看,人也是一个"机器人",把人的第一视角数据拿回来一起训练,就是把人当成了一个机器人本体。
十七、数据的价格与高质量数据的定义 (1:56:12 - 2:03:31)
数据越来越贵,这与直觉相反。不同阶段的数据给算法带来的价值完全不同。预训练数据最便宜,应该是标品——全世界五家大模型公司分摊成本,提升通用基础能力。后训练和评测数据价格高得多——评测驱动、提供信号和经验传授。
一小时具身数据从几十人民币到几千人民币不等。具身数据包含三要素:物理场景(真实或仿真)、经验轨迹和语言标注、评价指标。高质量数据的定义:物理场景足够多样化且交互符合真实物理;轨迹记录足够专业、有失误有修正(反直觉地,掉了菜再捡回来的数据比完美数据更贵);评价指标和标注足够准确。
电影和游戏数据有用但ROI不高:电影是2D、处理成本高;游戏虽然是3D但物理不真实。世界模型团队确实在买游戏版权让Agent去打,但效用有限。ROI最高的是基于仿真的算法驱动采集数据和人类数据。
十八、走进数据软件内部 (2:03:31 - 2:11:13)
谢晨更希望把光轮智能定位为"数据软件"而非"数据工厂"——后者暗示流水线、缺乏技术和反馈驱动。公司全职工程技术人员约一百人。
内核首先是构建物理真实的世界。打造非刚体资产(如线缆插拔场景)需要自研物理解算器。有一个"物理测量工厂",用自动化机械臂与真实物体交互,测量力学信息并导入仿真。在此基础上有两条数据管线:人驱动的遥操作(质量最高但规模化差)和算法驱动的自动化采集(偶尔人为介入)。
评测也是一条独立管线,且必须做到"难且可规模化"。真正的难点是仿真评价必须与真实世界评价对齐——光轮智能不仅有仿真基建,还有一套真实评测基建(真实机器人、真实场景、真实评价算法),目的不是直接服务客户,而是与仿真工具链做相关性对标。用相同算法在仿真和真实环境中跑,看到相关性对应,才能保证仿真评测的实质价值。
谢晨明确表示:AI不会自己为自己完全生成数据来服务自己,这个底层逻辑不通,因为"更像是一个永动机"。核心是拿到准确的世界和任务,加上人的经验示范,再通过系统放大。以仿真为中心的系统可以把人力需求缩小约100倍。
十九、数据配方的迭代与中美机器人团队的版图 (2:11:13 - 2:24:05)
数据金字塔需要被验证——到底哪一层最有效、配比如何?谢晨与约两家顶级大模型公司在不断迭代这个认知。验证需要几万张卡,不是小团队能做的。趋势是越来越偏本体无关层,而且不仅是预训练,后训练的RL阶段如何做、仿真与真实如何配比、评测如何构建,都是体系化认知。
数据的secret sauce:越来越像人的学习。不再有标准答案,能帮助"从错误中学习"的数据才是最好的。从一个老师讲题变成把每个同学当老师——一道题不同做法的分布中得出自己的结论。终局的数据公司可能跟教育公司长得很像。
中美机器人团队做数据的版图:
大模型派(大厂VLA和世界模型团队):追求零样本泛化,相信本体无关的数据、仿真和仿真评测、人类数据。在Infra上更早尝试大规模RL。今年以来这些大厂开始把资源从大语言模型转向具身智能。
机器人公司:也在分化。有些开始follow仿真评测和人类数据,有些仍坚持真机派。底层是商业模式的分化——是卖本体做数采中心,还是做大脑智能?谢晨看好宇树(定位清晰地做好本体硬件,不与大脑公司竞争),也看好智元(从Day1就把上下游打通,量产做得好)。
二十、终局:仿真环境将成为AI自我修炼的道场 (2:24:05 - 2:37:28)
机器人大脑不会一家垄断。如果数据闭环是本体无关的,大模型厂商就无法单独形成霸权。终局更可能是大脑公司、数据公司、本体公司和场景公司组成的生态系统。
数据问题的当务之急:对具身智能是评测的规模化——预训练的通路和Scaling Law已经出现,但评测是真正的卡口,无法衡量智能提升就无法前进。对大语言模型则是更高阶的评价指标——模型能力提升后需要更牛的人提供更难的考题。
Data Factory不是底层需求,知识渴求才是。谢晨最初认为15-20年后数据问题会不重要,但现在他改变了看法:**智能越强,对知识的饥渴程度会越高。**越优秀的人越爱学习——从向别人学习变为与自己的昨天对标。到终局,"所有人都不用我的数据,但都用我的环境"——在仿真中用RL不断修炼内功。
爱因斯坦的"环境"是什么?是他大脑里构建的思考实验——基于物理认知和限制条件进行大规模思想实验。广义相对论和狭义相对论在某种意义上都是"仿真"。仿真是解决具身数据问题的基石,是具身智能学习的前提条件——不是仿真唯一,而是以仿真为中心的金字塔,一套系统级的能力。