scripod.com

55.揭秘「机器人造脑」幕后：VLM、VLA，不变的是感知能力的提升

Overview

Shownote

Highlights

Transcript

Chapters

Pins

55. 揭秘「机器人造脑」幕后：VLM、VLA，不变的是感知能力的提升

卫诗婕｜漫谈Light the Star

2025/11/24

55. 揭秘「机器人造脑」幕后：VLM、VLA，不变的是感知能力的提升

55. 揭秘「机器人造脑」幕后：VLM、VLA，不变的是感知能力的提升

卫诗婕｜漫谈Light the Star

卫诗婕｜漫谈Light the Star

2025/11/24

Overview Shownote Highlights Transcript Chapters Pins

Shownote

上周我受到一个邀约，主持了一场围绕具身大脑的技术分享直播。（本期视频将很快登陆 b 站账号。图片从左至右为：诗婕、鞠笑竹、Joy、Selina、Yoyo）主办方是北京人形机器人创新中心，他们也是今年机器人马拉松大赛的冠军、天工机器人的主创团队。在当下具身智能这股为机器人造脑的热潮中，北京人形这个团队也交出了自己的研究成果 —— 他们最新开源了具身大脑 Pelican-VL。围绕这个最大尺寸（70B）的开源具身多模态脑模型，我们逐步还原了为机器人造脑背后的全过程，并进行了包含 VLM、VLA 等一系列具身...

Highlights

在人工智能迈向具身智能的新阶段，机器人不再只是执行预设指令的机械体，而是通过与物理世界的互动实现认知进化。本期节目深入探讨了为机器人造脑的技术路径，聚焦北京人形机器人创新中心最新开源的具身大脑模型 Pelican-VL，揭示其背后的研发逻辑与技术突破。

05:37

自动驾驶和人形机器人需先感知环境、判断任务，常用传感器都是摄像头和激光雷达。

08:53

具身大脑大模型能让机器人像人一样自主思考

11:26

VLA 可理解为 VLM 加上 action 的 head

15:38

Pelican 模型使机器人能直接调用通用 AI 能力

21:32

大模型连一层积木都搭不好，暴露空间推理严重缺陷

35:55

发布当前开源中参数量最大的 72B 具身脑模型

39:04

只有我们的模型能正确判断机器人下一步操作

1:02:09

实习生是大模型训练中的第一生产力，团队中北大实习生来自吉林大学信息计算专业。

1:07:20

开源 Pelican-VL 模型为具身智能提供优秀基座

Chapters

揭秘具身大脑 Pelican-VL

00:00

从自动驾驶到具身智能：传感器、摄像头与激光雷达

04:28

AI 浪潮下，机器人运控与造脑的发展

05:37

概念科普：VLM（Vision- Language-Model，视觉语言模型） & VLA（Vision- Language-Action，视觉语言动作模型）

09:56

从通用模型到具身脑模型

14:10

过往 VLM 的卡点及突破

16:33

具身智能的 Scaling Law 何时出现：视频数据 VS 具身数据

30:40

一款具身脑模型，能有哪些感知 + 认知能力的表现？

37:46

具身智能数据集规模、内容及清洗

1:00:45

全女模型研究团队：从未遇见过性别阻力

1:03:41

Transcript

Joy: 我们通常把 VLM 和 VLA 比喻成大脑和小脑，VLM 它是我们的大脑，它负责感知环境。给到 VLA 模型一个可执行的指令。鞠笑竹: 不管 VLA 怎么变，始终核心的就是 VLA 的这一部分，它是不变的。现在的训练方式并不是很高效的。非常充足的资金，很多的卡，很多的数据。像一个大象，每天要吃几十公斤的食物，才能够长一点点的体重。 Joy: 我们每天面对着那么多的卡，账单是非常惊人的。鞠笑竹: 具身智能是人工智能的下一个阶段。如果说机器人，他没有和真实的物理世界发生接触，那苹果对他来说就是一堆...

小宇宙

Open in 小宇宙