scripod.com

112: 与千寻高阳聊具身:一个像机器人的人,怎么做像人的机器人

晚点聊 LateTalk

Shownote

「伯克利 BAIR 博士、清华叉院助理教授,跳进具身创业。」 高阳是清华大学交叉信息研究院的助理教授,同时也是具身智能公司千寻的联合创始人和首席科学家。 高阳在具身智能领域深耕多年,他是清华计算机系本科,UC Berkeley 博士,师从国际计算机视觉大师 Trevor Darrell。在 2016 年时,他就和许华哲一起做了端到端自动驾驶的课题,这在当时是个小众的方向,但如今已经成为自动驾驶行业的共识。 这几年在具身智能领域崭露头角的早期公司,多多少少有 UC Berkeley 学子的身影 —— 刚才提到的许华哲是星海图的首席科学家,星动纪元的创始人陈建宇、最近刚刚加入估值最高的智元机器人的罗建兰,都曾在 UC Berkeley 深造过;创立边塞科技的吴翼也是毕业于 UC Berkeley。 在 2024 年,高阳与有产业经历的韩峰涛共同创立了千寻,千寻在非共识中找到的切入点是端到端 + 具身大脑 + 机器人本体 + 互联网视频预训练、模仿学习、强化学习。成立至今,千寻已经获得了四轮融资。最近他们也发布了 VLA Spirit v1 的 demo,机器人可以叠衣服了。 这次我们不仅聊到了高阳的技术理解,也聊到了他的思维方式和过往经历。 创业者们都在尝试怎么把机器人做得更像人,而高阳像一个融入人类世界的机器人:他从不熬夜,早晨七点半 “开机”,每天骑 31-33 分钟的共享单车前往工作地点,在每周固定时间健身;他相信 COT(Chain-of-Thought,思维链),认为所有事情都可以按照 COT 一步一步走向结果,不仅是生活,也包括学术研究和创业,甚至 “一步一步,每一个链条都做好,自然会导向具身智能的 L2、L3 的实现”。 这位 91 年出生的具身研究者和创业者,不倾向输出斩钉截铁的结论,但他相信他推理出的一切,不管和别人的声音是否一致。 本期嘉宾: 高阳,千寻智能首席科学家,清华叉院助理教授,个人主页(内有邮箱联系方式) (https://people.iiis.tsinghua.edu.cn/~gaoyang/yang-gao.weebly.com/index.html) 时间线跳转: -“中国速度” 在具身智能的体现:修机器 02:02 创业 moment:科学家能做的探索越来越少,这在大语言模型领域已经发生 04:09 团队搭建:产业老炮 + 年轻科学家 07:18 Figure 02 的 demo 很好,展示了快慢系统 09:38 中国相对美国优势在于修机器人快,不然修机器人的速度赶不上做实验的速度 12:12 具身智能的阶段划分 14:23 现在中国具身智能在从 L1 到 L2 的路上 - 机器人必须得是 “人” 形吗? 14:41 机器人不一定是人形,但 L2 以后可能需要双臂 + 轮式底盘 15:31 没有操作、只有移动,不能解决主要矛盾 18:52 双足不难,没有本质的卡点 21:31 虽然操作重要,但一定得有上半身吗?其实是从成本角度考虑的,像 “人” 一定可行 23:53 人形机器人,到底是更精细分工,还是更泛化? -“端到端是走向具身智能的共识,分层只是短期工程选择” 27:00 端到端(VLA,Vision-Language-Action)是现在具身智能的共识吗? 28:53 训练过程:互联网视频预训练、模仿学习、强化学习 29:51 为什么叠衣服这样的操作会成为具身智能领域的 “智商测试”? 34:14 快慢系统在叠衣服这件事里怎么配合的? 35:35 当前机器人的主要挑战是泛化性 -“人是分布式,机器人是中心式” 36:28 视频数据的可用量只有 1%,机器人学习怎么操作、预测轨迹 38:44 人类的肌肉记忆,机器人也有 43:33 跨任务泛化:强化学习成功率取决于基模的训练和 SFT(监督微调 Supervised Fine-Tun-ing) 45:00 具身智能也有 Scaling Laws 吗?做到 GPT3.5,可能需要 100 亿条有效数据、1 亿遥操数据、几千万强化学习数据 49:05 Scaling Laws 在仿真数据不成立 -“具身智能做到 GPT-4 那种程度还得 5 年” 50:32 为什么只做大脑不行?驯化新的躯体很难的 51:55 为什么只做本体不行?价值在大脑端,现在有了大脑能力才引起的风潮 53:06 机器人未来会像汽车产业链 55:10 关于朱啸虎说的没有商业化,高阳觉得现在最重要的还是把技术做好 56:41 行业何时收敛?当具身智能走向 L2 时 57:57 现在具身智能的瓶颈还是在 AI,要补齐才能成为 “木盆” - 个人成长:一位信奉 COT 的 “小天才” 59:35 伯克利 “归国几子” 的介绍 01:01:27 同一个实验室的,还有许华哲、贾扬清等 01:03:22 2016 年博士最开始做自动驾驶,那时端到端自动驾驶还不被相信 01:06:41 学术不需要灵光乍现,个人的思考方式就是 COT 01:07:11 所以在明年 6 月具身智能会到 L2,再过一年半到两年 L3 01:07:34 读书时在 waymo 实习三个月:感觉脑子要坏掉了 01:10:15 读博想创业,但没好机会;毕业后回国做科研,伯克利 “归国几子” 兼职 “HR” 01:12:43 跟许华哲最近讨论:看起来具身智能是个非共识行业,但这已经是坍缩、收敛后的结果 01:15:54 大学教授出来创业,会拍拍屁股走人吗? 01:17:37 一个崇尚规律的 ISTJ:不熬夜、骑共享单车上下班、规律健身 相关链接: 晚点聊 86:We,Robot-2,清华叉院/星海图许华哲看 “Optimus” 的门道 (https://www.xiaoyuzhoufm.com/episode/671eaa8fd6db5bf9593a1e6f?s = eyJ1IjogIjYwZDg0ZWU1ZTBmNWU3MjNiYjc3YjhmMCJ9) 晚点聊 65:信仰充值的威力,与逐际谌华聊 GTC 和人形机器人新进展 (https://www.xiaoyuzhoufm.com/episode/660ba14925e97345b65cc5b4?s = eyJ1IjogIjYwZDg0ZWU1ZTBmNWU3MjNiYjc3YjhmMCJ9) 晚点聊 40:与梅卡邵天兰聊通用机器人,AI 的下一个浪潮? (https://www.xiaoyuzhoufm.com/episode/64c239d70f7b199a693a55fa?s = eyJ1IjogIjYwZDg0ZWU1ZTBmNWU3MjNiYjc3YjhmMCJ9) 剪辑制作:甜食 本期主播:即刻 @王与桐 (https://okjk.co/UmgW69) https://cdn.z.wiki/autoupload/20250313/tAbq/2062X376/% E4% B8%8E% E6% A1%90-shownotes_% E7% AD% BE% E5%90%8D.png ☆《晚点聊 LateTalk》建立「 播客听友群」啦!☆ 欢迎关注科技、商业大公司动态和创业创新的小伙伴进群交流,第一时间收听新节目。 这里有更多互动,更多话题讨论。欢迎贡献选题 & 推荐嘉宾。 请先添加「晚点」小助手的微信号,备注:“晚点聊”,我们邀请您入群。 https://tc.z.wiki/autoupload/f/vF9vElnh05iCqwr0xfm9iL4wP3sHaC7Y1psXYbgMe5eyl5f0KlZfm6UsKj-HyTuv/20250730/YNjr/907X339/WechatIMG1646.jpg 关注公众号《晚点 LatePost》和《晚点对话》,阅读更多商业、科技文章: https://hv.z.wiki/autoupload/20250129/DqTi/1452X514/% E6%92% AD% E5% AE% A2% E7% BB%93% E5% B0% BE% E6%88% AA% E5%9B% BE.png

Highlights

高阳作为清华大学交叉信息研究院的助理教授及具身智能公司千寻的联合创始人,分享了他在具身智能领域的深入见解和创业经历。他从 UC Berkeley 博士毕业后,选择回国加入清华,并投身于具身智能的研究与实践。千寻智能已发布 VLA Spirit V1 抢先版,实现了机器人叠衣服的全流程操作,标志着具身智能技术的重要进展。
00:04
具身智能是非共识行业还是技术收敛结果?
03:30
技术成熟使科学家转向工程和社会角度的应用探索
05:24
产业老炮与年轻科学家的配置是投资人信任的关键
07:21
Figure 02 是两个全人类型机器人,能按人类要求收拾物品并相互交流合作。
10:48
国内公司在机器人维修速度上远超美国
13:57
L5 级别代表不限场景的全面智能应用
14:23
具身智能不一定要人形,L1 单个工业装置即可
16:53
短期内出货量最大的机器人形态可能是轮式底盘加双臂
18:54
双足技术没那么难,实验室能实现物理世界行走
21:34
世界为人设计,仿人机器人更符合实际需求
25:08
长期来看,人型机器人可能覆盖人工几年的成本
27:06
端到端技术被认为是自动驾驶发展的关键趋势
28:58
操作角度采用端到端 VLA 模型,可结合视觉场景理解和动作生成任务动作
33:41
单任务中最难的是技术追求中的必经之路,下一步是多线程操作
34:18
L2 到 L3 的主要挑战是泛化性
35:37
叠衣服不仅是操作难题,也存在泛化性挑战
37:47
机器人学习物品操作方法,而不仅仅是识别物品
39:55
强化学习微调与大语言模型类似,需自主思考才能降低失败率
43:33
强化学习效果取决于基模训练和 SFT
46:26
具身智能的性能与数据量呈对数线性关系
49:08
仿真数据因 diversity 有限,Scaling Law 对其不生效
50:32
只做大模型(大脑)虽可做方法论,但缺乏跨具身能力
51:55
大脑端能力的提升或可使市场达千万级别
54:35
朱啸虎质疑人形机器人商业化路径,对话者提出不同见解
56:26
L2 阶段商业场景可能增加十倍甚至几十倍
57:50
按照一步一步的逻辑链条做完事情,总会达成目标
57:57
具身智能的 GPT 时刻需综合各要素、行业共同成熟
1:00:39
读博生活丰富,包括吃火锅、打牌和跨实验室合作
1:01:27
贾扬清是深度学习框架 Caffe 的作者,并参与开发 TensorFlow 和 PyTorch
1:03:22
2016 年做了端到端自动驾驶项目,认为是未来趋势
1:06:45
应做好 COT 推理过程的每一个链条
1:08:23
从伯克利博士后毕业后选择回清华做研究而非加入 Waymo
1:10:15
主播被吴翼老师邀请回国,认为这是美国高校向中国输送人才的趋势
1:14:10
学术研究话题逐渐趋同,部分路径被认为缺乏前景
1:17:13
人生是个过程,享受其中就好
1:21:34
每个人都有局限性,技术工程化需要丰富经验

Chapters

具身智能的未来与实践
00:00
“中国速度” 在具身智能的体现: 修机器
创业 moment: 科学家能做的探索越来越少,这在大语言模型领域已经发生
02:02
团队搭建: 产业老炮 + 年轻科学家
04:09
Figure 02 的 demo 很好,展示了快慢系统
07:18
中国相对美国优势在于修机器人快,不然修机器人的速度赶不上做实验的速度
09:38
具身智能的阶段划分
12:12
现在中国具身智能在从 L1 到 L2 的路上
14:23
机器人必须得是 “人” 形吗?
没有操作、只有移动,不能解决主要矛盾
15:31
双足不难,没有本质的卡点
18:52
虽然操作重要,但一定得有上半身吗?其实是从成本角度考虑的,像 “人” 一定可行
21:31
人形机器人,到底是更精细分工,还是更泛化?
23:53
“端到端是走向具身智能的共识,分层只是短期工程选择”
端到端(VLA,Vision-Language-Action)是现在具身智能的共识吗?
27:00
训练过程: 互联网视频预训练、模仿学习、强化学习
28:53
为什么叠衣服这样的操作会成为具身智能领域的 “智商测试”?
29:51
快慢系统在叠衣服这件事里怎么配合的?
34:14
当前机器人的主要挑战是泛化性
35:35
“人是分布式,机器人是中心式”
视频数据的可用量只有 1%,机器人学习怎么操作、预测轨迹
36:28
人类的肌肉记忆,机器人也有
38:44
跨任务泛化: 强化学习成功率取决于基模的训练和 SFT(监督微调 Supervised Fine-Tun-ing)
43:33
具身智能也有 Scaling Laws 吗?做到 GPT3.5,可能需要 100 亿条有效数据、1 亿遥操数据、几千万强化学习数据
45:00
Scaling Laws 在仿真数据不成立
49:05
“具身智能做到 GPT-4 那种程度还得 5 年”
为什么只做大脑不行?驯化新的躯体很难的
50:32
为什么只做本体不行?价值在大脑端,现在有了大脑能力才引起的风潮
51:55
机器人未来会像汽车产业链
53:06
关于朱啸虎说的没有商业化,高阳觉得现在最重要的还是把技术做好
55:10
行业何时收敛?当具身智能走向 L2 时
56:41
现在具身智能的瓶颈还是在 AI,要补齐才能成为 “木盆”
57:57
个人成长: 一位信奉 COT 的 “小天才”
伯克利 “归国几子” 的介绍
59:35
同一个实验室的,还有许华哲、贾扬清等
1:01:27
2016 年博士最开始做自动驾驶,那时端到端自动驾驶还不被相信
1:03:22
学术不需要灵光乍现,个人的思考方式就是 COT
1:06:41
所以在明年 6 月具身智能会到 L2,再过一年半到两年 L3
1:07:11
读博想创业,但没好机会;毕业后回国做科研,伯克利 “归国几子” 兼职 “HR”
1:10:15
跟许华哲最近讨论: 看起来具身智能是个非共识行业,但这已经是坍缩、收敛后的结果
1:12:43
大学教授出来创业,会拍拍屁股走人吗?
1:15:54
一个崇尚规律的 ISTJ: 不熬夜、骑共享单车上下班、规律健身
1:17:37

Transcript

王与桐: 大家好,欢迎收听本期晚点聊,这期的主播是关注具身智能的王与桐。今天我们非常荣幸地邀请到了高阳老师。他是清华大学交叉信息研究院的助理教授。同时也是具身智能公司千寻的联合创始人和首席科学家。高阳老师在具身智能领域深耕多年。他是清华计算机系的本科和 UC Berkeley 的博士,那 UC Berkeley 现在已经成为近期具身智能热潮的重要发源地。这得益于 Trival,Peter,Sergi 这几位教授,在机器人学习领域的卓越成就。那高阳老师在博士和博士后期间,师从国际计算机视觉大师 Trival,...