98. 逐篇讲解机器人基座模型和 VLA 经典论文 ——“人就是最智能的 VLA”
张小珺Jùn|商业访谈录
2025/04/06
98. 逐篇讲解机器人基座模型和 VLA 经典论文 ——“人就是最智能的 VLA”
98. 逐篇讲解机器人基座模型和 VLA 经典论文 ——“人就是最智能的 VLA”

张小珺Jùn|商业访谈录
2025/04/06
Shownote
Shownote
今天的嘉宾是清华大学交叉信息研究院助理教授、星动纪元创始人陈建宇。他的研究和创业方向都是人形机器人。 大语言模型浪潮爆发后,学界和工业界看见了机器人从专用走向通用的可能迹象,机器人革命随之而来。其中,本轮革命最重要的是,对机器人底层架构,也就是机器人 “大脑” 的探索。 但通用机器人还在科学研究阶段,处于产业发展早期。这集节目,陈老师将带领大家,概览式阅读机器人基座模型和当下最前沿的架构 VLA 架构(Vision-Language-Action Model,视觉语言动作模型)的经典论文。 希望我们的节目能直...
Highlights
Highlights
本期节目邀请了清华大学交叉信息研究院助理教授、星动纪元创始人陈建宇,探讨人形机器人从专用到通用的可能性。通过讲解机器人基座模型和 VLA 架构的经典论文,带领听众了解当前机器人领域的前沿研究和技术发展。
Chapters
Chapters
人形机器人的未来与通用化
00:00陈建宇的研究和创业方向
02:30讲解开始前,先提问几个小问题
04:11当下最大变量: 从专用模型到通用模型(robot foundation model)的可能性
17:36大模型浪潮爆发后,机器人领域经历了两个阶段: 从利用基础模型进行机器人研究(leveraging foundation models in robotics)到为机器人预训练基础模型(pretraining foundation models for robotics)
21:12第一阶段: 利用基础模型进行机器人研究
21:59由 Google Robotics 团队提出的具身智能开创性论文 Say Can《Do As I Can, Not As I Say: Grounding Language in Robotic Affordances》
23:54第二步,用 VLM(Vision-Language Models,视觉语言模型)替代 Perception
27:03来自 Google 的论文《Inner Monologue: Embodied Reasoning through Planning with Language Models》
27:52由清华和上海姚期智研究院提出的《DoReMi: Grounding Language Model by Detecting and Recovering from Plan-Execution Misalignment》
29:51第三步,想把 Actuation 进一步自动化,用 Code LM(专门用于代码相关任务的大型语言模型)来替代 Actuation
32:47第二阶段: 为机器人预训练基础模型
38:36关于 VLA 的经典论文及分类:
39:53Mobile Aloha 论文《Mobile ALOHA: Learning Bimanual Mobile Manipulation with Low-Cost Whole-Body Teleoperation》
47:36论文《A Generalist Agent》介绍了一个名为 Gato 的通用型人工智能代理
50:15RT-1 论文《RT-1: Robotics Transformer for Real-World Control at Scale》
52:45Octo 论文《Octo: An Open-Source Generalist Robot Policy》
59:02CrossFormer 论文《Scaling Cross-Embodied Learning: One Policy for Manipulation, Navigation, Locomotion and Aviation》
1:02:20字节跳动 AI Lab 的两个工作 GR-1 和 GR-2:
1:06:58Palm-E 论文《PaLM-E: An Embodied Multimodal Language Model》
1:15:02当前 VLA 最有名的开山工作: Google 推出的 RT-2 论文《RT-2:Vision-Language-Action Models Transfer Web Knowledge to Robotic Control》
1:20:02RT - X 论文《Open X-Embodiment: Robotic Learning Datasets and RT - X Models》
1:26:05《OpenVLA: An Open-Source Vision-Language-Action Model》(约等于开源版 RT-2)
1:31:16陈建宇课题组《HiRT: Enhancing Robotic Control with Hierarchical Robot Transformers》
1:32:56Figure AI Helix,没发论文,但是今年 Figure 最新架构
1:38:40Pi0 论文《π₀: A Vision-Language-Action Flow Model for General Robot Control》
1:39:28英伟达最近发布的 GROOT N1 模型《GR00T N1: An Open Foundation Model for Generalist Humanoid Robots》
1:41:36《Diffusion Policy: Visuomotor Policy Learning via Action Diffusion》
1:42:32清华发布的《RDT - 1B: A Diffusion Foundation Model for Bimanual Manipulation》
1:47:39《Prediction with Action: Visual Policy Learning via Joint Denoising Process》(动作预测: 通过联合去噪过程进行视觉策略学习)
1:51:04两个未来方向:《UP - VLA: A Unified Understanding and Prediction Model for Embodied Agent》(UP - VLA: 具身智能体的统一理解与预测模型)
2:03:06最后的提问
2:09:22Transcript
Transcript
陈建宇: 人就是一个标准的通用的 VLA 模型大佬,人就是一个 AGI。之前的机器人是什么?是 100 种场景,100 个任务,我要重新开发 100 种机器人。那么 XGB 的出现,使得我们看到这样一种曙光,这样一个希望。我们不用去再做专用的,开发专用的模型,这个是完全没法 scale 的,包括这个 Sergia 11,就包括刚才的 RT 系列工作的话,像 Sergea,Chessive 这些都参与的比较多,然后他们其实后面,如果了解也知道。他们后来创立了 Pi 这一套都是他们这一帮人,Google,Ber...

Open in 小宇宙