55. 揭秘「机器人造脑」幕后:VLM、VLA,不变的是感知能力的提升
卫诗婕|漫谈Light the Star
2025/11/24
55. 揭秘「机器人造脑」幕后:VLM、VLA,不变的是感知能力的提升
55. 揭秘「机器人造脑」幕后:VLM、VLA,不变的是感知能力的提升

卫诗婕|漫谈Light the Star
2025/11/24
Shownote
Shownote
上周我受到一个邀约,主持了一场围绕具身大脑的技术分享直播。 (本期视频将很快登陆 b 站账号。图片从左至右为:诗婕、鞠笑竹、Joy、Selina、Yoyo) 主办方是北京人形机器人创新中心,他们也是今年机器人马拉松大赛的冠军、天工机器人的主创团队。 在当下具身智能这股为机器人造脑的热潮中,北京人形这个团队也交出了自己的研究成果 —— 他们最新开源了具身大脑 Pelican-VL。围绕这个最大尺寸(70B)的开源具身多模态脑模型,我们逐步还原了为机器人造脑背后的全过程,并进行了包含 VLM、VLA 等一系列具身...
Highlights
Highlights
在人工智能迈向具身智能的新阶段,机器人不再只是执行预设指令的机械体,而是通过与物理世界的互动实现认知进化。本期节目深入探讨了为机器人造脑的技术路径,聚焦北京人形机器人创新中心最新开源的具身大脑模型 Pelican-VL,揭示其背后的研发逻辑与技术突破。
Chapters
Chapters
揭秘具身大脑 Pelican-VL
00:00从自动驾驶到具身智能:传感器、摄像头与激光雷达
04:28AI 浪潮下,机器人运控与造脑的发展
05:37概念科普:VLM(Vision- Language-Model,视觉语言模型) & VLA(Vision- Language-Action,视觉语言动作模型)
09:56从通用模型到具身脑模型
14:10过往 VLM 的卡点及突破
16:33具身智能的 Scaling Law 何时出现:视频数据 VS 具身数据
30:40一款具身脑模型,能有哪些感知 + 认知能力的表现?
37:46具身智能数据集规模、内容及清洗
1:00:45全女模型研究团队:从未遇见过性别阻力
1:03:41Transcript
Transcript
Joy: 我们通常把 VLM 和 VLA 比喻成大脑和小脑,VLM 它是我们的大脑,它负责感知环境。给到 VLA 模型一个可执行的指令。
鞠笑竹: 不管 VLA 怎么变,始终核心的就是 VLA 的这一部分,它是不变的。现在的训练方式并不是很高效的。非常充足的资金,很多的卡,很多的数据。像一个大象,每天要吃几十公斤的食物,才能够长一点点的体重。
Joy: 我们每天面对着那么多的卡,账单是非常惊人的。
鞠笑竹: 具身智能是人工智能的下一个阶段。如果说机器人,他没有和真实的物理世界发生接触,那苹果对他来说就是一堆...

Open in 小宇宙