E206｜临近机器人 GPT-3 时刻，具身智能开源模型的加速演进

硅谷101

2025/09/09

Overview Shownote Highlights Transcript Chapters Pins

Shownote

今年机器人模型领域最重要的突破，就是模型的通用性大幅提升，开始了泛化能力的探索，与此同时，这个行业依然面临着长尾问题、数据采集、缺乏统一维护平台等挑战，这期节目我们就来聊聊，业内将如何面对这些挑战？中国和美国的机器人发展路径又有何区别？本期节目我们邀请了中国具身智能公司自变量机器人的 CTO 王昊，在这期节目上线时，他们刚开源了大规模真实数据训练的端到端具身基础模型 WALL - OSS；以及来自美国具身智能公司 Physical Intelligence 的研究员柯丽一鸣（Kay Ke），她是 π₀、π₀.₅论文作者。在节目中，嘉宾们表示目前具身智能模型已达到了 GPT-2 的水平，在最近 2 到 3 年将优先在半结构化场景应用，那么我们距离全场景的通用机器人又还有多远？机器人公司又该如何平衡商业化与研发的节奏？【主播】泓君，硅谷 101 创始人，播客主理人【嘉宾】王昊，自变量机器人 (https://www.x2robot.com) CTO 柯丽一鸣（Kay Ke），Physical Intelligence (https://www.physicalintelligence.company/) 研究员，π₀、π₀.₅论文作者【硅谷 101 科技峰会】《硅谷 101》的年度科技大会又回来了，这是我们将有趣的技术干货与故事带到线下的第二年，用最好的内容让大家亲身感受前沿科技的酷炫和温度一直是硅谷 101 的目标。硅谷 10 月 5 日，期待与各位见面，从这里驶向未来！欢迎点击前往 (https://luma.com/mtqq79ii) 购票地址，输入粉丝专属折扣码 “VALLEY101FANS”，享 85 折优惠。【蚂蚁外滩大会】硅谷 101 播客主理人泓君将主持 9 月 11 日～12 日在上海举行的蚂蚁外滩大会，聊聊 AI 时代的全球趋势和创新最前沿，感兴趣的朋友欢迎点击领取 (https://www.inclusionconf.com/?sl = vNoLvmF9) 硅谷 101 粉丝专属参会凭证。【你将听到】行业突破与泛化能力 05:36 2025 年关键进展：模型通用性提升，开始泛化能力探索 07:38 何为模型泛化能力：从熟悉环境到陌生环境的能力一致性 11:44 泛化核心难点：长尾问题、数据采集与缺乏标准评测体系 16:04 如何评判具身智能模型能力：对比任务学习数据量与现实应用表现数据挑战与硬件瓶颈 17:17 其他两大难点：数据质量与数量平衡、硬件维护缺乏统一平台 20:03 为何需要至少 100 万小时的数据，才能构成优秀的大模型？ 23:06 人类 VS 机器人学习机制对比：人类的进化已包含了 “预训练” 27:14 合成数据在机器人领域的应用：降低数据收集成本，但难以模拟现实物理交互模型架构与技术路径 31:35 具身智能开源模型 WALL - OSS 发布：上万小时真实数据，补足当前开源模型的欠缺能力 35:36 WALL - OSS 模型开源动机与优势：降低研究门槛，加速生态创新 38:03 架构之争：端到端统一训练 VS 分层系统设计，模型技术路径尚未统一 40:58 从 VLA（视觉语言模型）出世后，具身智能模型路线开始走向趋同化 44:10 具身模型已达到 GPT-2 的水平，将在 1～2 年时间达到 GPT-3 水平 45:31 中美机器人技术路径区别：美国自上而下、先做大模型，中国从现实需求出发、双轨并行 52:31 抓到耗子的都是好猫：算法与操控的难度平衡 54:12 模型高频控制的意义：对未来情况做决策，但更高频率无意义 58:13 视觉难以对未来做精确的预测和建模，但能弥补触觉缺失与力的反馈 01:00:20 传感器比想象更成熟，但机器人还是依赖视觉作为主要训练参数商业化与落地前景 01:01:31 家用机器人预测：2～3 年内进入半结构化场景，5～10 年全场景使用 01:05:29 如何平衡商业化与研发：尽可能服务于开放式场景，提高公司组织能力 01:08:43 现实部署的机器人量越大、场景越多样，数据反馈和模型迭代效果将越好【节目中提到的相关公司和术语】 * Physical Intelligence (PI)：美国具身智能公司，推出了 π₀、π₀.₅模型 * 自变量机器人：中国具身智能公司，开源了端到端具身基础模型 WALL - OSS * RT-2：Robotics Transformer 2，谷歌 DeepMind 推出的新一代 AI 学习模型 * Genie3：谷歌世界模型的第 3 代，是 DeepMind 首个支持 “实时交互” 的世界模型 * VLA：Vision-Language-Action，视觉 - 语言 - 动作模型架构 * Covariant Robotics：一家专注于机器人大脑软件开发的硅谷公司 * 长程任务：Long-Horizon Task，包含一系列连续步骤、需要机器人进行多步推理、规划并执行，最终才能完成的复杂任务【监制】泓君【后期】 AMEI 【运营】王梓沁、孙泽平【BGM】 Ever Forward - Francis Wells Mixed Emotions - Arthur Benson Supine - Peter Sandberg 【在这里找到我们】公众号：硅谷 101 收听渠道：Apple Podcast｜Spotify｜小宇宙｜喜马拉雅｜蜻蜓 FM｜荔枝 FM｜网易云音乐｜QQ 音乐其他平台：YouTube｜Bilibili 搜索「硅谷 101 播客」联系我们：podcast@sv101.net Special Guests: 柯丽一鸣 and 王昊.

Highlights

随着机器人技术的快速发展，具身智能正逐步从专用模型迈向具备泛化能力的通用基础模型。本期节目深入探讨了当前机器人模型在真实环境中实现自主决策与持续学习所面临的核心挑战，聚焦于数据、架构与落地路径的关键议题。