112: 与千寻高阳聊具身:一个像机器人的人,怎么做像人的机器人
晚点聊 LateTalk
2025/04/29
112: 与千寻高阳聊具身:一个像机器人的人,怎么做像人的机器人
112: 与千寻高阳聊具身:一个像机器人的人,怎么做像人的机器人

晚点聊 LateTalk
2025/04/29
高阳作为清华大学交叉信息研究院的助理教授及具身智能公司千寻的联合创始人,分享了他在具身智能领域的深入见解和创业经历。他从 UC Berkeley 博士毕业后,选择回国加入清华,并投身于具身智能的研究与实践。千寻智能已发布 VLA Spirit V1 抢先版,实现了机器人叠衣服的全流程操作,标志着具身智能技术的重要进展。
高阳在访谈中详细阐述了具身智能的发展历程和未来方向。他认为具身智能并非非共识行业,而是技术发展的必然结果。从创业到团队搭建,他强调了科学家与产业老炮合作的重要性,并指出中国在机器人维修速度上的优势。他还讨论了具身智能的不同发展阶段,当前正从 L1 向 L2 迈进,主要挑战在于泛化能力。关于机器人形态,他认为人形设计并非必要,但现阶段更具可行性。端到端技术被视为未来发展的重要方向,尽管面临传感器性能等挑战。叠衣服作为具身智能领域的 “智商测试”,展示了技术复杂性。此外,高阳提到数据量对具身智能发展的重要性,以及 Scaling Laws 的应用限制。他认为技术提升应优先于商业化,并预计具身智能将在未来五年内达到 GPT-4 水平。最后,他分享了个人成长经历和思考方式,强调规律生活与高效工作的重要性。
00:04
00:04
具身智能是非共识行业还是技术收敛结果?
03:30
03:30
技术成熟使科学家转向工程和社会角度的应用探索
05:24
05:24
产业老炮与年轻科学家的配置是投资人信任的关键
07:21
07:21
Figure 02 是两个全人类型机器人,能按人类要求收拾物品并相互交流合作。
10:48
10:48
国内公司在机器人维修速度上远超美国
13:57
13:57
L5 级别代表不限场景的全面智能应用
14:23
14:23
具身智能不一定要人形,L1 单个工业装置即可
16:53
16:53
短期内出货量最大的机器人形态可能是轮式底盘加双臂
18:54
18:54
双足技术没那么难,实验室能实现物理世界行走
21:34
21:34
世界为人设计,仿人机器人更符合实际需求
25:08
25:08
长期来看,人型机器人可能覆盖人工几年的成本
27:06
27:06
端到端技术被认为是自动驾驶发展的关键趋势
28:58
28:58
操作角度采用端到端 VLA 模型,可结合视觉场景理解和动作生成任务动作
33:41
33:41
单任务中最难的是技术追求中的必经之路,下一步是多线程操作
34:18
34:18
L2 到 L3 的主要挑战是泛化性
35:37
35:37
叠衣服不仅是操作难题,也存在泛化性挑战
37:47
37:47
机器人学习物品操作方法,而不仅仅是识别物品
39:55
39:55
强化学习微调与大语言模型类似,需自主思考才能降低失败率
43:33
43:33
强化学习效果取决于基模训练和 SFT
46:26
46:26
具身智能的性能与数据量呈对数线性关系
49:08
49:08
仿真数据因 diversity 有限,Scaling Law 对其不生效
50:32
50:32
只做大模型(大脑)虽可做方法论,但缺乏跨具身能力
51:55
51:55
大脑端能力的提升或可使市场达千万级别
54:35
54:35
朱啸虎质疑人形机器人商业化路径,对话者提出不同见解
56:26
56:26
L2 阶段商业场景可能增加十倍甚至几十倍
57:50
57:50
按照一步一步的逻辑链条做完事情,总会达成目标
57:57
57:57
具身智能的 GPT 时刻需综合各要素、行业共同成熟
1:00:39
1:00:39
读博生活丰富,包括吃火锅、打牌和跨实验室合作
1:01:27
1:01:27
贾扬清是深度学习框架 Caffe 的作者,并参与开发 TensorFlow 和 PyTorch
1:03:22
1:03:22
2016 年做了端到端自动驾驶项目,认为是未来趋势
1:06:45
1:06:45
应做好 COT 推理过程的每一个链条
1:08:23
1:08:23
从伯克利博士后毕业后选择回清华做研究而非加入 Waymo
1:10:15
1:10:15
主播被吴翼老师邀请回国,认为这是美国高校向中国输送人才的趋势
1:14:10
1:14:10
学术研究话题逐渐趋同,部分路径被认为缺乏前景
1:17:13
1:17:13
人生是个过程,享受其中就好
1:21:34
1:21:34
每个人都有局限性,技术工程化需要丰富经验