scripod.com

98. 逐篇讲解机器人基座模型和 VLA 经典论文 ——“人就是最智能的 VLA”

本期节目邀请了清华大学交叉信息研究院助理教授、星动纪元创始人陈建宇,探讨人形机器人从专用到通用的可能性。通过讲解机器人基座模型和 VLA 架构的经典论文,带领听众了解当前机器人领域的前沿研究和技术发展。
陈建宇在节目中阐述了机器人从专用向通用发展的趋势和技术挑战。他认为大语言模型为人形机器人带来新思路,特别是在规划、感知和执行三方面。第一阶段是用基础模型研究机器人,第二阶段则关注预训练基础模型如 VLA 架构。他还解析了 Google Robotics、字节跳动 AI Lab 等机构的经典论文。最后,他展望了强化学习优化 VLA 模型的重要性,并分享了从学术到创业的经1
00:03
00:03
机器人从专用走向通用,展现技术变革潜力
02:31
02:31
研究方向为具身智能与人形机器人
15:05
15:05
预计五年后机器人将普及至家庭
18:59
18:59
用更大规模的 Robotic Function Model 实现通用性
21:12
21:12
先将现有语言或视觉语言模型用于机器人
22:00
22:00
语言模型能够拆解做咖啡任务并假设所需工具
23:55
23:55
Google 研究通过自然语言命令让机器人做事
27:06
27:06
基于大语言模型的视觉推理更通用,可处理多任务
27:53
27:53
执行行为后需依据环境反馈进行推理修正
31:18
31:18
改进后的实时反馈能显著减少任务中的错误和时间浪费
36:57
36:57
现有方法无法通向通用机器人大模型,因架构设计与单纯语言模型不同
38:36
38:36
VLA 模型包含视觉、语言指令和动作三种模态
41:33
41:33
Action Chunking Transformer 架构使用四个摄像头输入生成动作序列
48:58
48:58
Aloha 成本低一套三万多美金可更低
50:15
50:15
用统一模型完成多种任务包括视觉、语言等
57:14
57:14
数据多样性不足会导致性能下降,极端情况下影响显著
1:00:14
1:00:14
开源版 RT-1 的核心特点是支持灵活的动作空间扩展
1:05:54
1:05:54
用一个大脑控制不同肢体,相当于共用大脑
1:08:28
1:08:28
Transformer 模型输出未来图像而非动作或语言
1:16:39
1:16:39
PaLM-E 能通过长指令规划并调用 RT1 完成任务
1:24:18
1:24:18
VLM 在未见过的任务上比 RT1 表现更好
1:27:41
1:27:41
Google 开源部分质量较高的数据集
1:31:22
1:31:22
OpenVLA 是开源版 RT-2,模型调优较好
1:35:44
1:35:44
Action Policy 运行频率高且参数小,适合动态任务处理
1:38:54
1:38:54
系统 2 结合 VLM 与 Transformer 实现分频率处理
1:39:37
1:39:37
提到一种新型 diffusion flow matching 网络架构,未做分频率处理
1:41:36
1:41:36
NVIDIA 模型使用仿真数据增强和 Diffusion 架构进行训练
1:44:19
1:44:19
Diffusion Policy 利用加噪和降噪学习生成动作
1:47:43
1:47:43
Diffusion policy 引入创新 Unified Action Space,优于 Crossformer 的 Actionhead 方式
1:55:57
1:55:57
模型能准确预测深度并脑补遮挡关系
2:05:58
2:05:58
强化学习增强 SFT 基础的机器人训练效果更好
2:25:38
2:25:38
机器人能力每月提升可解锁新商业机会