scripod.com

98. 逐篇讲解机器人基座模型和 VLA 经典论文 ——“人就是最智能的 VLA”

Shownote

今天的嘉宾是清华大学交叉信息研究院助理教授、星动纪元创始人陈建宇。他的研究和创业方向都是人形机器人。 大语言模型浪潮爆发后,学界和工业界看见了机器人从专用走向通用的可能迹象,机器人革命随之而来。其中,本轮革命最重要的是,对机器人底层架构,也就是机器人 “大脑” 的探索。 但通用机器人还在科学研究阶段,处于产业发展早期。这集节目,陈老师将带领大家,概览式阅读机器人基座模型和当下最前沿的架构 VLA 架构(Vision-Language-Action Model,视觉语言动作模型)的经典论文。 希望我们的节目能直...

Highlights

本期节目邀请了清华大学交叉信息研究院助理教授、星动纪元创始人陈建宇,探讨人形机器人从专用到通用的可能性。通过讲解机器人基座模型和 VLA 架构的经典论文,带领听众了解当前机器人领域的前沿研究和技术发展。
00:03
机器人从专用走向通用,展现技术变革潜力
02:31
研究方向为具身智能与人形机器人
15:05
预计五年后机器人将普及至家庭
18:59
用更大规模的 Robotic Function Model 实现通用性
21:12
先将现有语言或视觉语言模型用于机器人
22:00
语言模型能够拆解做咖啡任务并假设所需工具
23:55
Google 研究通过自然语言命令让机器人做事
27:06
基于大语言模型的视觉推理更通用,可处理多任务
27:53
执行行为后需依据环境反馈进行推理修正
31:18
改进后的实时反馈能显著减少任务中的错误和时间浪费
36:57
现有方法无法通向通用机器人大模型,因架构设计与单纯语言模型不同
38:36
VLA 模型包含视觉、语言指令和动作三种模态
41:33
Action Chunking Transformer 架构使用四个摄像头输入生成动作序列
48:58
Aloha 成本低一套三万多美金可更低
50:15
用统一模型完成多种任务包括视觉、语言等
57:14
数据多样性不足会导致性能下降,极端情况下影响显著
1:00:14
开源版 RT-1 的核心特点是支持灵活的动作空间扩展
1:05:54
用一个大脑控制不同肢体,相当于共用大脑
1:08:28
Transformer 模型输出未来图像而非动作或语言
1:16:39
PaLM-E 能通过长指令规划并调用 RT1 完成任务
1:24:18
VLM 在未见过的任务上比 RT1 表现更好
1:27:41
Google 开源部分质量较高的数据集
1:31:22
OpenVLA 是开源版 RT-2,模型调优较好
1:35:44
Action Policy 运行频率高且参数小,适合动态任务处理
1:38:54
系统 2 结合 VLM 与 Transformer 实现分频率处理
1:39:37
提到一种新型 diffusion flow matching 网络架构,未做分频率处理
1:41:36
NVIDIA 模型使用仿真数据增强和 Diffusion 架构进行训练
1:44:19
Diffusion Policy 利用加噪和降噪学习生成动作
1:47:43
Diffusion policy 引入创新 Unified Action Space,优于 Crossformer 的 Actionhead 方式
1:55:57
模型能准确预测深度并脑补遮挡关系
2:05:58
强化学习增强 SFT 基础的机器人训练效果更好
2:25:38
机器人能力每月提升可解锁新商业机会

Chapters

人形机器人的未来与通用化
00:00
陈建宇的研究和创业方向
02:30
讲解开始前,先提问几个小问题
04:11
当下最大变量: 从专用模型到通用模型(robot foundation model)的可能性
17:36
大模型浪潮爆发后,机器人领域经历了两个阶段: 从利用基础模型进行机器人研究(leveraging foundation models in robotics)到为机器人预训练基础模型(pretraining foundation models for robotics)
21:12
第一阶段: 利用基础模型进行机器人研究
21:59
由 Google Robotics 团队提出的具身智能开创性论文 Say Can《Do As I Can, Not As I Say: Grounding Language in Robotic Affordances》
23:54
第二步,用 VLM(Vision-Language Models,视觉语言模型)替代 Perception
27:03
来自 Google 的论文《Inner Monologue: Embodied Reasoning through Planning with Language Models》
27:52
由清华和上海姚期智研究院提出的《DoReMi: Grounding Language Model by Detecting and Recovering from Plan-Execution Misalignment》
29:51
第三步,想把 Actuation 进一步自动化,用 Code LM(专门用于代码相关任务的大型语言模型)来替代 Actuation
32:47
第二阶段: 为机器人预训练基础模型
38:36
关于 VLA 的经典论文及分类:
39:53
Mobile Aloha 论文《Mobile ALOHA: Learning Bimanual Mobile Manipulation with Low-Cost Whole-Body Teleoperation》
47:36
论文《A Generalist Agent》介绍了一个名为 Gato 的通用型人工智能代理
50:15
RT-1 论文《RT-1: Robotics Transformer for Real-World Control at Scale》
52:45
Octo 论文《Octo: An Open-Source Generalist Robot Policy》
59:02
CrossFormer 论文《Scaling Cross-Embodied Learning: One Policy for Manipulation, Navigation, Locomotion and Aviation》
1:02:20
字节跳动 AI Lab 的两个工作 GR-1 和 GR-2:
1:06:58
Palm-E 论文《PaLM-E: An Embodied Multimodal Language Model》
1:15:02
当前 VLA 最有名的开山工作: Google 推出的 RT-2 论文《RT-2:Vision-Language-Action Models Transfer Web Knowledge to Robotic Control》
1:20:02
RT - X 论文《Open X-Embodiment: Robotic Learning Datasets and RT - X Models》
1:26:05
《OpenVLA: An Open-Source Vision-Language-Action Model》(约等于开源版 RT-2)
1:31:16
陈建宇课题组《HiRT: Enhancing Robotic Control with Hierarchical Robot Transformers》
1:32:56
Figure AI Helix,没发论文,但是今年 Figure 最新架构
1:38:40
Pi0 论文《π₀: A Vision-Language-Action Flow Model for General Robot Control》
1:39:28
英伟达最近发布的 GROOT N1 模型《GR00T N1: An Open Foundation Model for Generalist Humanoid Robots》
1:41:36
《Diffusion Policy: Visuomotor Policy Learning via Action Diffusion》
1:42:32
清华发布的《RDT - 1B: A Diffusion Foundation Model for Bimanual Manipulation》
1:47:39
《Prediction with Action: Visual Policy Learning via Joint Denoising Process》(动作预测: 通过联合去噪过程进行视觉策略学习)
1:51:04
两个未来方向:《UP - VLA: A Unified Understanding and Prediction Model for Embodied Agent》(UP - VLA: 具身智能体的统一理解与预测模型)
2:03:06
最后的提问
2:09:22

Transcript

陈建宇: 人就是一个标准的通用的 VLA 模型大佬,人就是一个 AGI。之前的机器人是什么?是 100 种场景,100 个任务,我要重新开发 100 种机器人。那么 XGB 的出现,使得我们看到这样一种曙光,这样一个希望。我们不用去再做专用的,开发专用的模型,这个是完全没法 scale 的,包括这个 Sergia 11,就包括刚才的 RT 系列工作的话,像 Sergea,Chessive 这些都参与的比较多,然后他们其实后面,如果了解也知道。他们后来创立了 Pi 这一套都是他们这一帮人,Google,Ber...
小宇宙
Open in 小宇宙