scripod.com

98. 逐篇讲解机器人基座模型和VLA经典论文——“人就是最智能的VLA”

Overview

Shownote

Highlights

Transcript

Chapters

Pins

98. 逐篇讲解机器人基座模型和 VLA 经典论文 ——“人就是最智能的 VLA”

张小珺Jùn｜商业访谈录

2025/04/06

98. 逐篇讲解机器人基座模型和 VLA 经典论文 ——“人就是最智能的 VLA”

98. 逐篇讲解机器人基座模型和 VLA 经典论文 ——“人就是最智能的 VLA”

张小珺Jùn｜商业访谈录

张小珺Jùn｜商业访谈录

2025/04/06

Overview Shownote Highlights Transcript Chapters Pins

本期节目邀请了清华大学交叉信息研究院助理教授、星动纪元创始人陈建宇，探讨人形机器人从专用到通用的可能性。通过讲解机器人基座模型和 VLA 架构的经典论文，带领听众了解当前机器人领域的前沿研究和技术发展。

陈建宇在节目中阐述了机器人从专用向通用发展的趋势和技术挑战。他认为大语言模型为人形机器人带来新思路，特别是在规划、感知和执行三方面。第一阶段是用基础模型研究机器人，第二阶段则关注预训练基础模型如 VLA 架构。他还解析了 Google Robotics、字节跳动 AI Lab 等机构的经典论文。最后，他展望了强化学习优化 VLA 模型的重要性，并分享了从学术到创业的经历1。

00:03

00:03

机器人从专用走向通用，展现技术变革潜力

02:31

02:31

研究方向为具身智能与人形机器人

15:05

15:05

预计五年后机器人将普及至家庭

18:59

18:59

用更大规模的 Robotic Function Model 实现通用性

21:12

21:12

先将现有语言或视觉语言模型用于机器人

22:00

22:00

语言模型能够拆解做咖啡任务并假设所需工具

23:55

23:55

Google 研究通过自然语言命令让机器人做事

27:06

27:06

基于大语言模型的视觉推理更通用，可处理多任务

27:53

27:53

执行行为后需依据环境反馈进行推理修正

31:18

31:18

改进后的实时反馈能显著减少任务中的错误和时间浪费

36:57

36:57

现有方法无法通向通用机器人大模型，因架构设计与单纯语言模型不同

38:36

38:36

VLA 模型包含视觉、语言指令和动作三种模态

41:33

41:33

Action Chunking Transformer 架构使用四个摄像头输入生成动作序列

48:58

48:58

Aloha 成本低一套三万多美金可更低

50:15

50:15

用统一模型完成多种任务包括视觉、语言等

57:14

57:14

数据多样性不足会导致性能下降，极端情况下影响显著

1:00:14

1:00:14

开源版 RT-1 的核心特点是支持灵活的动作空间扩展

1:05:54

1:05:54

用一个大脑控制不同肢体，相当于共用大脑

1:08:28

1:08:28

Transformer 模型输出未来图像而非动作或语言

1:16:39

1:16:39

PaLM-E 能通过长指令规划并调用 RT1 完成任务

1:24:18

1:24:18

VLM 在未见过的任务上比 RT1 表现更好

1:27:41

1:27:41

Google 开源部分质量较高的数据集

1:31:22

1:31:22

OpenVLA 是开源版 RT-2，模型调优较好

1:35:44

1:35:44

Action Policy 运行频率高且参数小，适合动态任务处理

1:38:54

1:38:54

系统 2 结合 VLM 与 Transformer 实现分频率处理

1:39:37

1:39:37

提到一种新型 diffusion flow matching 网络架构，未做分频率处理

1:41:36

1:41:36

NVIDIA 模型使用仿真数据增强和 Diffusion 架构进行训练

1:44:19

1:44:19

Diffusion Policy 利用加噪和降噪学习生成动作

1:47:43

1:47:43

Diffusion policy 引入创新 Unified Action Space，优于 Crossformer 的 Actionhead 方式

1:55:57

1:55:57

模型能准确预测深度并脑补遮挡关系

2:05:58

2:05:58

强化学习增强 SFT 基础的机器人训练效果更好

2:25:38

2:25:38

机器人能力每月提升可解锁新商业机会