scripod.com

121. 对 DeepMind 谭捷的访谈:机器人、跨本体、世界模型、Gemini Robotics 1.5 和 Google

Shownote

今天的嘉宾是 Google DeepMind 机器人团队的高级研究科学家兼技术负责人谭捷,他的研究方向是将基础模型和深度强化学习方法应用于机器人领域。 中美在机器人领域一直存在两种叙事:市场普遍认为,中国在硬件上发展更快,美国在机器人大脑设计上更领先。 本期节目中,谭捷将带我们一窥硅谷视角,尤其是 Google DeepMind 视角下的机器人前沿叙事。 前不久,他们刚发布了新工作 “Gemini Robotics 1.5 brings AI agents into the physical world”(G...

Highlights

在本期节目中,我们深入探讨了机器人技术的前沿发展,特别是从 Google DeepMind 的视角出发,审视基础模型与强化学习如何重塑机器人智能。嘉宾谭捷结合自身从图形学转向机器人研究的经历,分享了技术演进中的关键转折与现实挑战。
10:44
大语言模型让机器人理解人类语言并执行复杂任务
22:42
硅谷 AI 从业者进入 996 模式以保持竞争力
23:44
数据是制约机器人领域发展的主要瓶颈,当前数据量无法满足模型需求。
46:25
机器人可通过搜索谷歌地图定位垃圾处理点并依当地法规执行分类
52:43
生成物理正确的视频已成为新的仿真形式,可能取代传统物理仿真
1:06:37
世界模型是 VLV,输入视觉和语言可生成下一帧图像
1:11:11
灵巧手执行复杂任务时触觉必不可少
1:41:42
未来两三年将迎来机器人领域的 GPT 时刻

Chapters

揭秘机器人未来的中美叙事差异
00:00
机器人是在真实世界里做图形学,图形学是在 simulation 里做机器人
02:00
机器人基座大模型到底是不是一个非常独立的学科?So far, not yet
13:06
Robotics 最大问题是数据,它在一个非常复杂的 unstructured environment 里,可以发生任何事情
23:44
Gemini Robotics 1.5:我们有一个方法叫 motion transfer,这是独门秘诀
27:52
生成极大量仿真数据,是弥补它缺点的一个重要手段
47:32
世界模型就是 Vision-Language-Vision,vision 和 language in,生成下一帧的图像
1:03:48
如果你有灵巧手,触觉就非常重要,之所以我前面觉得触觉不重要,是受限于当时的硬件
1:08:29
一个有使命感的人,他不会容忍说 “I’m on a wrong ship”
1:17:35

Transcript

谭捷: 我觉得在硅谷大家都觉得,机器人可能是即将发生的一个最重要的变革。所以所有的公司都投入巨资,去组建他们的机器人团队,去做机器人大模型。然后到最近就是你可以看 Gemini Robotics。第一代就是 3 月份的那个版本,那个时候可能已经是 120 个人在 ArXiv 上,这次可能 160 到 180 个人。楼顶招人,然后有一个就是白人,在美国的一个 PhD 毕业了。然后他就跟我说,我真的希望你们 team 就是能多招点华人。然后他说他还学到一个词,叫牛马,牛马。对他说他特别喜欢,自己做牛做马,对他自...
小宇宙
Open in 小宇宙