scripod.com

55. 揭秘「机器人造脑」幕后:VLM、VLA,不变的是感知能力的提升

在人工智能迈向具身智能的新阶段,机器人不再只是执行预设指令的机械体,而是通过与物理世界的互动实现认知进化。本期节目深入探讨了为机器人造脑的技术路径,聚焦北京人形机器人创新中心最新开源的具身大脑模型 Pelican-VL,揭示其背后的研发逻辑与技术突破。
具身智能要求模型具备环境感知、空间理解与时序推理能力,传统通用大模型难以满足机器人在真实场景中的泛化需求。Pelican-VL 通过强化视觉语言模型(VLM)的空间认知,并融合动作控制形成视觉语言动作模型(VLA),实现了从感知到决策的闭环。团队采用 DPPO 算法结合监督微调,提升小数据下的训练效率,避免知识遗忘。模型支持函数调用,能分解任务并生成可执行动作,在商超、实验室等场景展现应用潜力。尽管当前具身数据稀缺且训练成本高,团队仍开源 7B 与 72B 版本模型,推动技术普惠。高质量数据清洗与多模态输入处理是关键环节,而全女性算法团队的深度参与也展现了科技领域多元协作的力量。
05:37
05:37
自动驾驶和人形机器人需先感知环境、判断任务,常用传感器都是摄像头和激光雷达。
08:53
08:53
具身大脑大模型能让机器人像人一样自主思考
11:26
11:26
VLA 可理解为 VLM 加上 action 的 head
15:38
15:38
Pelican 模型使机器人能直接调用通用 AI 能力
21:32
21:32
大模型连一层积木都搭不好,暴露空间推理严重缺陷
35:55
35:55
发布当前开源中参数量最大的 72B 具身脑模型
39:04
39:04
只有我们的模型能正确判断机器人下一步操作
1:02:09
1:02:09
实习生是大模型训练中的第一生产力,团队中北大实习生来自吉林大学信息计算专业。
1:07:20
1:07:20
开源 Pelican-VL 模型为具身智能提供优秀基座