scripod.com

E206|临近机器人 GPT-3 时刻,具身智能开源模型的加速演进

硅谷101

2025/09/09
硅谷101

硅谷101

2025/09/09
随着机器人技术的快速发展,具身智能正逐步从专用模型迈向具备泛化能力的通用基础模型。本期节目深入探讨了当前机器人模型在真实环境中实现自主决策与持续学习所面临的核心挑战,聚焦于数据、架构与落地路径的关键议题。
当前具身智能模型已迈入强调通用性与泛化能力的新阶段,但仍受限于长尾问题、高质量数据稀缺及评测体系缺失。嘉宾指出,百万小时级真实数据是构建强大模型的基础,合成数据和人类视频可辅助但无法替代物理交互的真实性。中美发展路径不同:美国倾向自上而下的大模型探索,中国则结合场景需求双轨并行。端到端模型与分层系统之争尚未收敛,VLA 架构正推动技术趋同。尽管模型水平相当于 GPT-2,预计 1-2 年内可达 GPT-3,短期内机器人将优先落地半结构化家庭场景。商业化需与研发协同,通过大规模部署获取反馈,实现数据闭环迭代,视觉仍是主要感知输入,触觉与力控可在演进中逐步融合。
04:12
04:12
真实物理世界的动态过程数据未被记录,是机器人 AI 的核心挑战
05:37
05:37
通用机器人基础模型可同时学习和执行成百上千种任务
11:29
11:29
泛化最难的部分是对物理世界长尾效应的鲁棒性
13:03
13:03
机器人界数十年来无法在真机世界做出类似大语言模型的榜单
17:18
17:18
高质量数据需精心设计和清洗,上量有难度
22:30
22:30
可用算法优势弥补机器人硬件与人类的差距
26:15
26:15
Physical Intelligence 收集的数据量超过谷歌研究院此前总和
31:35
31:35
具身基础模型可在统一框架下同时做思维链和动作生成
35:59
35:59
开源能让更多人站在巨人肩膀上改进技术,推动整个领域进步
40:21
40:21
数据和数据驱动的算法是最看重的,模型架构、硬件设计等都为数据驱动服务
43:22
43:22
王昊认为当前机器人模型能力已达到 GPT-2 水平
45:26
45:26
预测一到两年可达到 GPT-3 水平
50:23
50:23
Covariant 在物流领域取得商业成功,但偏离了通用机器人初衷
52:31
52:31
通过算法让普通硬件实现超毫米级精确控制
57:58
57:58
模型预测能力越强,所需的控制频率越低
59:25
59:25
即使没有力反馈,机器人也能通过视觉观察物体形变和反弹来推断接触信息
1:04:50
1:04:50
机器人能否进入家庭取决于用户对不完美的接受度
1:05:30
1:05:30
创业公司不能等达到 AGI 目标后再考虑商业化
1:08:43
1:08:43
部署量越大、场景越多样,反馈和闭环迭代作用越强