55. 揭秘「机器人造脑」幕后：VLM、VLA，不变的是感知能力的提升

卫诗婕｜漫谈Light the Star

2025/11/24

Overview Shownote Highlights Transcript Chapters Pins

在人工智能迈向具身智能的新阶段，机器人不再只是执行预设指令的机械体，而是通过与物理世界的互动实现认知进化。本期节目深入探讨了为机器人造脑的技术路径，聚焦北京人形机器人创新中心最新开源的具身大脑模型 Pelican-VL，揭示其背后的研发逻辑与技术突破。

具身智能要求模型具备环境感知、空间理解与时序推理能力，传统通用大模型难以满足机器人在真实场景中的泛化需求。Pelican-VL 通过强化视觉语言模型（VLM）的空间认知，并融合动作控制形成视觉语言动作模型（VLA），实现了从感知到决策的闭环。团队采用 DPPO 算法结合监督微调，提升小数据下的训练效率，避免知识遗忘。模型支持函数调用，能分解任务并生成可执行动作，在商超、实验室等场景展现应用潜力。尽管当前具身数据稀缺且训练成本高，团队仍开源 7B 与 72B 版本模型，推动技术普惠。高质量数据清洗与多模态输入处理是关键环节，而全女性算法团队的深度参与也展现了科技领域多元协作的力量。