E206｜临近机器人 GPT-3 时刻，具身智能开源模型的加速演进

硅谷101

2025/09/09

Overview Shownote Highlights Transcript Chapters Pins

随着机器人技术的快速发展，具身智能正逐步从专用模型迈向具备泛化能力的通用基础模型。本期节目深入探讨了当前机器人模型在真实环境中实现自主决策与持续学习所面临的核心挑战，聚焦于数据、架构与落地路径的关键议题。

当前具身智能模型已迈入强调通用性与泛化能力的新阶段，但仍受限于长尾问题、高质量数据稀缺及评测体系缺失。嘉宾指出，百万小时级真实数据是构建强大模型的基础，合成数据和人类视频可辅助但无法替代物理交互的真实性。中美发展路径不同：美国倾向自上而下的大模型探索，中国则结合场景需求双轨并行。端到端模型与分层系统之争尚未收敛，VLA 架构正推动技术趋同。尽管模型水平相当于 GPT-2，预计 1-2 年内可达 GPT-3，短期内机器人将优先落地半结构化家庭场景。商业化需与研发协同，通过大规模部署获取反馈，实现数据闭环迭代，视觉仍是主要感知输入，触觉与力控可在演进中逐步融合。