scripod.com

98. 逐篇讲解机器人基座模型和VLA经典论文——“人就是最智能的VLA”

Overview

Shownote

Highlights

Transcript

Chapters

Pins

98. 逐篇讲解机器人基座模型和 VLA 经典论文 ——“人就是最智能的 VLA”

张小珺Jùn｜商业访谈录

2025/04/06

98. 逐篇讲解机器人基座模型和 VLA 经典论文 ——“人就是最智能的 VLA”

98. 逐篇讲解机器人基座模型和 VLA 经典论文 ——“人就是最智能的 VLA”

张小珺Jùn｜商业访谈录

张小珺Jùn｜商业访谈录

2025/04/06

Overview Shownote Highlights Transcript Chapters Pins

Shownote

今天的嘉宾是清华大学交叉信息研究院助理教授、星动纪元创始人陈建宇。他的研究和创业方向都是人形机器人。大语言模型浪潮爆发后，学界和工业界看见了机器人从专用走向通用的可能迹象，机器人革命随之而来。其中，本轮革命最重要的是，对机器人底层架构，也就是机器人 “大脑” 的探索。但通用机器人还在科学研究阶段，处于产业发展早期。这集节目，陈老师将带领大家，概览式阅读机器人基座模型和当下最前沿的架构 VLA 架构（Vision-Language-Action Model，视觉语言动作模型）的经典论文。希望我们的节目能直...

Highlights

本期节目邀请了清华大学交叉信息研究院助理教授、星动纪元创始人陈建宇，探讨人形机器人从专用到通用的可能性。通过讲解机器人基座模型和 VLA 架构的经典论文，带领听众了解当前机器人领域的前沿研究和技术发展。

00:03

机器人从专用走向通用，展现技术变革潜力

02:31

研究方向为具身智能与人形机器人

15:05

预计五年后机器人将普及至家庭

18:59

用更大规模的 Robotic Function Model 实现通用性

21:12

先将现有语言或视觉语言模型用于机器人

22:00

语言模型能够拆解做咖啡任务并假设所需工具

23:55

Google 研究通过自然语言命令让机器人做事

27:06

基于大语言模型的视觉推理更通用，可处理多任务

27:53

执行行为后需依据环境反馈进行推理修正

31:18

改进后的实时反馈能显著减少任务中的错误和时间浪费

36:57

现有方法无法通向通用机器人大模型，因架构设计与单纯语言模型不同

38:36

VLA 模型包含视觉、语言指令和动作三种模态

41:33

Action Chunking Transformer 架构使用四个摄像头输入生成动作序列

48:58

Aloha 成本低一套三万多美金可更低

50:15

用统一模型完成多种任务包括视觉、语言等

57:14

数据多样性不足会导致性能下降，极端情况下影响显著

1:00:14

开源版 RT-1 的核心特点是支持灵活的动作空间扩展

1:05:54

用一个大脑控制不同肢体，相当于共用大脑

1:08:28

Transformer 模型输出未来图像而非动作或语言

1:16:39

PaLM-E 能通过长指令规划并调用 RT1 完成任务

1:24:18

VLM 在未见过的任务上比 RT1 表现更好

1:27:41

Google 开源部分质量较高的数据集

1:31:22

OpenVLA 是开源版 RT-2，模型调优较好

1:35:44

Action Policy 运行频率高且参数小，适合动态任务处理

1:38:54

系统 2 结合 VLM 与 Transformer 实现分频率处理

1:39:37

提到一种新型 diffusion flow matching 网络架构，未做分频率处理

1:41:36

NVIDIA 模型使用仿真数据增强和 Diffusion 架构进行训练

1:44:19

Diffusion Policy 利用加噪和降噪学习生成动作

1:47:43

Diffusion policy 引入创新 Unified Action Space，优于 Crossformer 的 Actionhead 方式

1:55:57

模型能准确预测深度并脑补遮挡关系

2:05:58

强化学习增强 SFT 基础的机器人训练效果更好

2:25:38

机器人能力每月提升可解锁新商业机会

Chapters

人形机器人的未来与通用化

00:00

陈建宇的研究和创业方向

02:30

讲解开始前，先提问几个小问题

04:11

当下最大变量: 从专用模型到通用模型（robot foundation model）的可能性

17:36

大模型浪潮爆发后，机器人领域经历了两个阶段: 从利用基础模型进行机器人研究（leveraging foundation models in robotics）到为机器人预训练基础模型（pretraining foundation models for robotics）

21:12

第一阶段: 利用基础模型进行机器人研究

21:59

由 Google Robotics 团队提出的具身智能开创性论文 Say Can《Do As I Can, Not As I Say: Grounding Language in Robotic Affordances》

23:54

第二步，用 VLM（Vision-Language Models，视觉语言模型）替代 Perception

27:03

来自 Google 的论文《Inner Monologue: Embodied Reasoning through Planning with Language Models》

27:52

由清华和上海姚期智研究院提出的《DoReMi: Grounding Language Model by Detecting and Recovering from Plan-Execution Misalignment》

29:51

第三步，想把 Actuation 进一步自动化，用 Code LM（专门用于代码相关任务的大型语言模型）来替代 Actuation

32:47

第二阶段: 为机器人预训练基础模型

38:36

关于 VLA 的经典论文及分类:

39:53

Mobile Aloha 论文《Mobile ALOHA: Learning Bimanual Mobile Manipulation with Low-Cost Whole-Body Teleoperation》

47:36

论文《A Generalist Agent》介绍了一个名为 Gato 的通用型人工智能代理

50:15

RT-1 论文《RT-1: Robotics Transformer for Real-World Control at Scale》

52:45

Octo 论文《Octo: An Open-Source Generalist Robot Policy》

59:02

CrossFormer 论文《Scaling Cross-Embodied Learning: One Policy for Manipulation, Navigation, Locomotion and Aviation》

1:02:20

字节跳动 AI Lab 的两个工作 GR-1 和 GR-2:

1:06:58

Palm-E 论文《PaLM-E: An Embodied Multimodal Language Model》

1:15:02

当前 VLA 最有名的开山工作: Google 推出的 RT-2 论文《RT-2:Vision-Language-Action Models Transfer Web Knowledge to Robotic Control》

1:20:02

RT - X 论文《Open X-Embodiment: Robotic Learning Datasets and RT - X Models》

1:26:05

《OpenVLA: An Open-Source Vision-Language-Action Model》（约等于开源版 RT-2）

1:31:16

陈建宇课题组《HiRT: Enhancing Robotic Control with Hierarchical Robot Transformers》

1:32:56

Figure AI Helix，没发论文，但是今年 Figure 最新架构

1:38:40

Pi0 论文《π₀: A Vision-Language-Action Flow Model for General Robot Control》

1:39:28

英伟达最近发布的 GROOT N1 模型《GR00T N1: An Open Foundation Model for Generalist Humanoid Robots》

1:41:36

《Diffusion Policy: Visuomotor Policy Learning via Action Diffusion》

1:42:32

清华发布的《RDT - 1B: A Diffusion Foundation Model for Bimanual Manipulation》

1:47:39

《Prediction with Action: Visual Policy Learning via Joint Denoising Process》（动作预测: 通过联合去噪过程进行视觉策略学习）

1:51:04

两个未来方向:《UP - VLA: A Unified Understanding and Prediction Model for Embodied Agent》（UP - VLA: 具身智能体的统一理解与预测模型）

2:03:06

最后的提问

2:09:22

Transcript

陈建宇: 人就是一个标准的通用的 VLA 模型大佬，人就是一个 AGI。之前的机器人是什么？是 100 种场景，100 个任务，我要重新开发 100 种机器人。那么 XGB 的出现，使得我们看到这样一种曙光，这样一个希望。我们不用去再做专用的，开发专用的模型，这个是完全没法 scale 的，包括这个 Sergia 11，就包括刚才的 RT 系列工作的话，像 Sergea，Chessive 这些都参与的比较多，然后他们其实后面，如果了解也知道。他们后来创立了 Pi 这一套都是他们这一帮人，Google，Ber...

小宇宙

Open in 小宇宙