scripod.com

55. 揭秘「机器人造脑」幕后:VLM、VLA,不变的是感知能力的提升

Shownote

上周我受到一个邀约,主持了一场围绕具身大脑的技术分享直播。 (本期视频将很快登陆 b 站账号。图片从左至右为:诗婕、鞠笑竹、Joy、Selina、Yoyo) 主办方是北京人形机器人创新中心,他们也是今年机器人马拉松大赛的冠军、天工机器人的主创团队。 在当下具身智能这股为机器人造脑的热潮中,北京人形这个团队也交出了自己的研究成果 —— 他们最新开源了具身大脑 Pelican-VL。围绕这个最大尺寸(70B)的开源具身多模态脑模型,我们逐步还原了为机器人造脑背后的全过程,并进行了包含 VLM、VLA 等一系列具身...

Highlights

在人工智能迈向具身智能的新阶段,机器人不再只是执行预设指令的机械体,而是通过与物理世界的互动实现认知进化。本期节目深入探讨了为机器人造脑的技术路径,聚焦北京人形机器人创新中心最新开源的具身大脑模型 Pelican-VL,揭示其背后的研发逻辑与技术突破。
05:37
自动驾驶和人形机器人需先感知环境、判断任务,常用传感器都是摄像头和激光雷达。
08:53
具身大脑大模型能让机器人像人一样自主思考
11:26
VLA 可理解为 VLM 加上 action 的 head
15:38
Pelican 模型使机器人能直接调用通用 AI 能力
21:32
大模型连一层积木都搭不好,暴露空间推理严重缺陷
35:55
发布当前开源中参数量最大的 72B 具身脑模型
39:04
只有我们的模型能正确判断机器人下一步操作
1:02:09
实习生是大模型训练中的第一生产力,团队中北大实习生来自吉林大学信息计算专业。
1:07:20
开源 Pelican-VL 模型为具身智能提供优秀基座

Chapters

揭秘具身大脑 Pelican-VL
00:00
从自动驾驶到具身智能:传感器、摄像头与激光雷达
04:28
AI 浪潮下,机器人运控与造脑的发展
05:37
概念科普:VLM(Vision- Language-Model,视觉语言模型) & VLA(Vision- Language-Action,视觉语言动作模型)
09:56
从通用模型到具身脑模型
14:10
过往 VLM 的卡点及突破
16:33
具身智能的 Scaling Law 何时出现:视频数据 VS 具身数据
30:40
一款具身脑模型,能有哪些感知 + 认知能力的表现?
37:46
具身智能数据集规模、内容及清洗
1:00:45
全女模型研究团队:从未遇见过性别阻力
1:03:41

Transcript

Joy: 我们通常把 VLM 和 VLA 比喻成大脑和小脑,VLM 它是我们的大脑,它负责感知环境。给到 VLA 模型一个可执行的指令。 鞠笑竹: 不管 VLA 怎么变,始终核心的就是 VLA 的这一部分,它是不变的。现在的训练方式并不是很高效的。非常充足的资金,很多的卡,很多的数据。像一个大象,每天要吃几十公斤的食物,才能够长一点点的体重。 Joy: 我们每天面对着那么多的卡,账单是非常惊人的。 鞠笑竹: 具身智能是人工智能的下一个阶段。如果说机器人,他没有和真实的物理世界发生接触,那苹果对他来说就是一堆...
小宇宙
Open in 小宇宙