scripod.com

102. 和张祥雨聊，多模态研究的挣扎史和未来两年的2个“GPT-4时刻”

Overview

Shownote

Highlights

Transcript

Chapters

Pins

102. 和张祥雨聊，多模态研究的挣扎史和未来两年的 2 个 “GPT-4 时刻”

张小珺Jùn｜商业访谈录

2025/06/02

102. 和张祥雨聊，多模态研究的挣扎史和未来两年的 2 个 “GPT-4 时刻”

102. 和张祥雨聊，多模态研究的挣扎史和未来两年的 2 个 “GPT-4 时刻”

张小珺Jùn｜商业访谈录

张小珺Jùn｜商业访谈录

2025/06/02

Overview Shownote Highlights Transcript Chapters Pins

本期《商业访谈录》首次迎来 co-host 李广密，他邀请了大模型公司阶跃星辰的首席科学家张祥雨，深入探讨多模态技术的过去、现在与未来。张祥雨分享了其十年来的多模态研究历程，并揭示了在模型训练中发现的怪现象及解决方案，同时展望了多模态领域的下一个 “GPT-4 时刻”。

张祥雨回顾了多模态研究的十年历史，指出纯视觉领域难以实现生成、理解和人类对齐的统一。他在研究中发现，随着模型规模增大，通用对话能力、情商和知识量增强，但推理能力尤其是数学能力却呈现先升后降的趋势。这是由于 next token prediction 方法存在本质缺陷，导致模型倾向于跳步计算。为解决这一问题，团队引入强化学习（RL），通过优化思维链 pattern 提升了模型性能。此外，他还提到 o1 范式的核心是 Meta-CoT，能够泛化不同领域的思考模式。未来，多模态领域可能通过扩充预训练语料和扩展动作空间实现突破，预计两年内在自主学习领域取得进展，推动模型具备在线学习能力。最后，张祥雨强调架构服务于算法和系统，认为多模态融合将成为机器人、自动驾驶等领域的共同目标。

04:49

04:49

模型宽度和深度扩展是 AI 发展的重要突破点

14:37

14:37

CV 设计的不变性依赖人工，缺乏规模扩展效果

17:27

17:27

做 NLP 的同行已研究推理和更高级智能特性，而自己研究多年还停留在表征层面

20:08

20:08

静态图像模型仅靠建模联合分布无法实现理解

24:31

24:31

真正的 AGI 系统需要视觉模块，当前 Context Learning 难以实现视觉智能

36:21

36:21

生成模型常生成违反物理约束和空间透视关系的内容

38:47

38:47

模型训练投入巨大，资源需求超预期

42:48

42:48

大模型常放弃逐步推导，直接得出结果

43:14

43:14

Next token prediction 存在本质缺陷，导致跳步现象

44:49

44:49

更大压缩率未必对应更高计算精度

47:17

47:17

该答案正确率约为 90%，但可能存在错误

47:27

47:27

大模型做复杂题时跳过必要步骤，最终错误率较高

52:38

52:38

o1 成功的关键在于找到最佳思维链组织方式

58:39

58:39

语言模型即便随机尝试也能对简单问题有较高成功率，但关键在于提升稳定性

1:06:21

1:06:21

预训练压缩动作空间导致反思 token 概率低

1:10:21

1:10:21

AutoRequest 网络需在单步推理中完成区域绘制

1:12:38

1:12:38

生成模型缺少链式思维，落后语言模型两代

1:15:13

1:15:13

视觉空间的问题需在图像而非文本领域解决

1:17:19

1:17:19

使用 RL 算法训练模型解决视觉空间问题并允许反悔

1:20:33

1:20:33

o1 思维链模式能将思考模式完美迁移到文学场景

1:21:34

1:21:34

模型在斗地主残局中出现数错扑克牌张数的低级错误

1:23:39

1:23:39

团队成员同时通晓语言、视觉和语音，能利用跨模态思维诊断问题

1:31:04

1:31:04

生成图像的控制信号需完全理解上下文内容

1:33:27

1:33:27

只给模型答案而不给出推理过程会使模型困惑

1:43:56

1:43:56

多模态研究中理解问题解决后，带 o1 和 Long CoT 的生成变得可行

1:57:20

1:57:20

用小 Context 产品建模短期记忆，用无限长序列建模全局信息

2:07:12

2:07:12

对话提到 train 也是一种 inference，架构要服务于算法

2:12:26

2:12:26

当前 RL 方法将每条评价单独加权打分，丢失了丰富评价维度，这是做 generative RM 的困境。

2:23:49

2:23:49

生存作为监督模式及人想象未来无需具化的观点

2:25:00

2:25:00

世界模型训练方式及未来多模态融合趋势

2:26:35

2:26:35

技术发展路线未必按 AGI 主线，但终会实现