scripod.com

E206|临近机器人 GPT-3 时刻,具身智能开源模型的加速演进

硅谷101

2025/09/09
硅谷101

硅谷101

2025/09/09

Shownote

今年机器人模型领域最重要的突破,就是模型的通用性大幅提升,开始了泛化能力的探索,与此同时,这个行业依然面临着长尾问题、数据采集、缺乏统一维护平台等挑战,这期节目我们就来聊聊,业内将如何面对这些挑战?中国和美国的机器人发展路径又有何区别? 本期节目我们邀请了中国具身智能公司自变量机器人的 CTO 王昊,在这期节目上线时,他们刚开源了大规模真实数据训练的端到端具身基础模型 WALL - OSS;以及来自美国具身智能公司 Physical Intelligence 的研究员柯丽一鸣(Kay Ke),她是 π₀、π₀.₅论文作者。 在节目中,嘉宾们表示目前具身智能模型已达到了 GPT-2 的水平,在最近 2 到 3 年将优先在半结构化场景应用,那么我们距离全场景的通用机器人又还有多远?机器人公司又该如何平衡商业化与研发的节奏? 【主播】 泓君,硅谷 101 创始人,播客主理人 【嘉宾】 王昊,自变量机器人 (https://www.x2robot.com) CTO 柯丽一鸣(Kay Ke),Physical Intelligence (https://www.physicalintelligence.company/) 研究员,π₀、π₀.₅论文作者 【硅谷 101 科技峰会】 《硅谷 101》的年度科技大会又回来了,这是我们将有趣的技术干货与故事带到线下的第二年,用最好的内容让大家亲身感受前沿科技的酷炫和温度一直是硅谷 101 的目标。硅谷 10 月 5 日,期待与各位见面,从这里驶向未来! 欢迎点击前往 (https://luma.com/mtqq79ii) 购票地址,输入粉丝专属折扣码 “VALLEY101FANS”,享 85 折优惠。 【蚂蚁外滩大会】 硅谷 101 播客主理人泓君将主持 9 月 11 日~12 日在上海举行的蚂蚁外滩大会,聊聊 AI 时代的全球趋势和创新最前沿,感兴趣的朋友欢迎点击领取 (https://www.inclusionconf.com/?sl = vNoLvmF9) 硅谷 101 粉丝专属参会凭证。 【你将听到】 行业突破与泛化能力 05:36 2025 年关键进展:模型通用性提升,开始泛化能力探索 07:38 何为模型泛化能力:从熟悉环境到陌生环境的能力一致性 11:44 泛化核心难点:长尾问题、数据采集与缺乏标准评测体系 16:04 如何评判具身智能模型能力:对比任务学习数据量与现实应用表现 数据挑战与硬件瓶颈 17:17 其他两大难点:数据质量与数量平衡、硬件维护缺乏统一平台 20:03 为何需要至少 100 万小时的数据,才能构成优秀的大模型? 23:06 人类 VS 机器人学习机制对比:人类的进化已包含了 “预训练” 27:14 合成数据在机器人领域的应用:降低数据收集成本,但难以模拟现实物理交互 模型架构与技术路径 31:35 具身智能开源模型 WALL - OSS 发布:上万小时真实数据,补足当前开源模型的欠缺能力 35:36 WALL - OSS 模型开源动机与优势:降低研究门槛,加速生态创新 38:03 架构之争:端到端统一训练 VS 分层系统设计,模型技术路径尚未统一 40:58 从 VLA(视觉语言模型)出世后,具身智能模型路线开始走向趋同化 44:10 具身模型已达到 GPT-2 的水平,将在 1~2 年时间达到 GPT-3 水平 45:31 中美机器人技术路径区别:美国自上而下、先做大模型,中国从现实需求出发、双轨并行 52:31 抓到耗子的都是好猫:算法与操控的难度平衡 54:12 模型高频控制的意义:对未来情况做决策,但更高频率无意义 58:13 视觉难以对未来做精确的预测和建模,但能弥补触觉缺失与力的反馈 01:00:20 传感器比想象更成熟,但机器人还是依赖视觉作为主要训练参数 商业化与落地前景 01:01:31 家用机器人预测:2~3 年内进入半结构化场景,5~10 年全场景使用 01:05:29 如何平衡商业化与研发:尽可能服务于开放式场景,提高公司组织能力 01:08:43 现实部署的机器人量越大、场景越多样,数据反馈和模型迭代效果将越好 【节目中提到的相关公司和术语】 * Physical Intelligence (PI):美国具身智能公司,推出了 π₀、π₀.₅模型 * 自变量机器人:中国具身智能公司,开源了端到端具身基础模型 WALL - OSS * RT-2:Robotics Transformer 2,谷歌 DeepMind 推出的新一代 AI 学习模型 * Genie3:谷歌世界模型的第 3 代,是 DeepMind 首个支持 “实时交互” 的世界模型 * VLA:Vision-Language-Action,视觉 - 语言 - 动作模型架构 * Covariant Robotics:一家专注于机器人大脑软件开发的硅谷公司 * 长程任务:Long-Horizon Task,包含一系列连续步骤、需要机器人进行多步推理、规划并执行,最终才能完成的复杂任务 【监制】 泓君 【后期】 AMEI 【运营】 王梓沁、孙泽平 【BGM】 Ever Forward - Francis Wells Mixed Emotions - Arthur Benson Supine - Peter Sandberg 【在这里找到我们】 公众号:硅谷 101 收听渠道:Apple Podcast|Spotify|小宇宙|喜马拉雅|蜻蜓 FM|荔枝 FM|网易云音乐|QQ 音乐 其他平台:YouTube|Bilibili 搜索「硅谷 101 播客」 联系我们:podcast@sv101.net Special Guests: 柯丽一鸣 and 王昊.

Highlights

随着机器人技术的快速发展,具身智能正逐步从专用模型迈向具备泛化能力的通用基础模型。本期节目深入探讨了当前机器人模型在真实环境中实现自主决策与持续学习所面临的核心挑战,聚焦于数据、架构与落地路径的关键议题。
04:12
真实物理世界的动态过程数据未被记录,是机器人 AI 的核心挑战
05:37
通用机器人基础模型可同时学习和执行成百上千种任务
11:29
泛化最难的部分是对物理世界长尾效应的鲁棒性
13:03
机器人界数十年来无法在真机世界做出类似大语言模型的榜单
17:18
高质量数据需精心设计和清洗,上量有难度
22:30
可用算法优势弥补机器人硬件与人类的差距
26:15
Physical Intelligence 收集的数据量超过谷歌研究院此前总和
31:35
具身基础模型可在统一框架下同时做思维链和动作生成
35:59
开源能让更多人站在巨人肩膀上改进技术,推动整个领域进步
40:21
数据和数据驱动的算法是最看重的,模型架构、硬件设计等都为数据驱动服务
43:22
王昊认为当前机器人模型能力已达到 GPT-2 水平
45:26
预测一到两年可达到 GPT-3 水平
50:23
Covariant 在物流领域取得商业成功,但偏离了通用机器人初衷
52:31
通过算法让普通硬件实现超毫米级精确控制
57:58
模型预测能力越强,所需的控制频率越低
59:25
即使没有力反馈,机器人也能通过视觉观察物体形变和反弹来推断接触信息
1:04:50
机器人能否进入家庭取决于用户对不完美的接受度
1:05:30
创业公司不能等达到 AGI 目标后再考虑商业化
1:08:43
部署量越大、场景越多样,反馈和闭环迭代作用越强

Chapters

机器人时代的 AI 新前沿
00:00
行业突破与泛化能力
2025 年关键进展:模型通用性提升,开始泛化能力探索
05:36
何为模型泛化能力:从熟悉环境到陌生环境的能力一致性
07:38
泛化核心难点:长尾问题、数据采集与缺乏标准评测体系
11:44
如何评判具身智能模型能力:对比任务学习数据量与现实应用表现
16:04
数据挑战与硬件瓶颈
其他两大难点:数据质量与数量平衡、硬件维护缺乏统一平台
17:17
为何需要至少 100 万小时的数据,才能构成优秀的大模型?
20:03
人类 VS 机器人学习机制对比:人类的进化已包含了 “预训练”
23:06
合成数据在机器人领域的应用:降低数据收集成本,但难以模拟现实物理交互
27:14
模型架构与技术路径
具身智能开源模型 WALL - OSS 发布:上万小时真实数据,补足当前开源模型的欠缺能力
31:35
WALL - OSS 模型开源动机与优势:降低研究门槛,加速生态创新
35:56
架构之争:端到端统一训练 VS 分层系统设计,模型技术路径尚未统一
38:03
从 VLA(视觉语言模型)出世后,具身智能模型路线开始走向趋同化
40:58
具身模型已达到 GPT-2 的水平,将在 1~2 年时间达到 GPT-3 水平
44:10
中美机器人技术路径区别:美国自上而下、先做大模型,中国从现实需求出发、双轨并行
45:31
抓到耗子的都是好猫:算法与操控的难度平衡
52:31
模型高频控制的意义:对未来情况做决策,但更高频率无意义
54:12
视觉难以对未来做精确的预测和建模,但能弥补触觉缺失与力的反馈
58:13
传感器比想象更成熟,但机器人还是依赖视觉作为主要训练参数
1:00:20
商业化与落地前景
家用机器人预测:2~3 年内进入半结构化场景,5~10 年全场景使用
1:01:31
如何平衡商业化与研发:尽可能服务于开放式场景,提高公司组织能力
1:05:29
现实部署的机器人量越大、场景越多样,数据反馈和模型迭代效果将越好
1:08:43

Transcript

泓君: 欢迎收听硅谷 101, 我是泓君,那上一期节目我们预告了硅谷 101 全球创业挑战赛。我收到了好多听众的来信啊。大家说有没有今年硅谷 101 科技峰会的报名链接,那现在呢我就把我们的购票链接放在了 show notes 当中。去年我们的活动是半天的时间,今年我们就把活动升级成了整整一天,有上下两层的会场与大家相聚。那在我们今年的活动中,我们邀请到了全球顶尖的科学家,投资人,创业者。他们有些甚至是第一次在现场,跟大家去分享一些最新的研究成果,与行业洞察。除此之外,我们也会聊一聊,硅谷 101 内容创作...