102. 和张祥雨聊,多模态研究的挣扎史和未来两年的 2 个 “GPT-4 时刻”
张小珺Jùn|商业访谈录
2025/06/02
102. 和张祥雨聊,多模态研究的挣扎史和未来两年的 2 个 “GPT-4 时刻”
102. 和张祥雨聊,多模态研究的挣扎史和未来两年的 2 个 “GPT-4 时刻”

张小珺Jùn|商业访谈录
2025/06/02
本期《商业访谈录》首次迎来 co-host 李广密,他邀请了大模型公司阶跃星辰的首席科学家张祥雨,深入探讨多模态技术的过去、现在与未来。张祥雨分享了其十年来的多模态研究历程,并揭示了在模型训练中发现的怪现象及解决方案,同时展望了多模态领域的下一个 “GPT-4 时刻”。
张祥雨回顾了多模态研究的十年历史,指出纯视觉领域难以实现生成、理解和人类对齐的统一。他在研究中发现,随着模型规模增大,通用对话能力、情商和知识量增强,但推理能力尤其是数学能力却呈现先升后降的趋势。这是由于 next token prediction 方法存在本质缺陷,导致模型倾向于跳步计算。为解决这一问题,团队引入强化学习(RL),通过优化思维链 pattern 提升了模型性能。此外,他还提到 o1 范式的核心是 Meta-CoT,能够泛化不同领域的思考模式。未来,多模态领域可能通过扩充预训练语料和扩展动作空间实现突破,预计两年内在自主学习领域取得进展,推动模型具备在线学习能力。最后,张祥雨强调架构服务于算法和系统,认为多模态融合将成为机器人、自动驾驶等领域的共同目标。
04:49
04:49
模型宽度和深度扩展是 AI 发展的重要突破点
14:37
14:37
CV 设计的不变性依赖人工,缺乏规模扩展效果
17:27
17:27
做 NLP 的同行已研究推理和更高级智能特性,而自己研究多年还停留在表征层面
20:08
20:08
静态图像模型仅靠建模联合分布无法实现理解
24:31
24:31
真正的 AGI 系统需要视觉模块,当前 Context Learning 难以实现视觉智能
36:21
36:21
生成模型常生成违反物理约束和空间透视关系的内容
38:47
38:47
模型训练投入巨大,资源需求超预期
42:48
42:48
大模型常放弃逐步推导,直接得出结果
43:14
43:14
Next token prediction 存在本质缺陷,导致跳步现象
44:49
44:49
更大压缩率未必对应更高计算精度
47:17
47:17
该答案正确率约为 90%,但可能存在错误
47:27
47:27
大模型做复杂题时跳过必要步骤,最终错误率较高
52:38
52:38
o1 成功的关键在于找到最佳思维链组织方式
58:39
58:39
语言模型即便随机尝试也能对简单问题有较高成功率,但关键在于提升稳定性
1:06:21
1:06:21
预训练压缩动作空间导致反思 token 概率低
1:10:21
1:10:21
AutoRequest 网络需在单步推理中完成区域绘制
1:12:38
1:12:38
生成模型缺少链式思维,落后语言模型两代
1:15:13
1:15:13
视觉空间的问题需在图像而非文本领域解决
1:17:19
1:17:19
使用 RL 算法训练模型解决视觉空间问题并允许反悔
1:20:33
1:20:33
o1 思维链模式能将思考模式完美迁移到文学场景
1:21:34
1:21:34
模型在斗地主残局中出现数错扑克牌张数的低级错误
1:23:39
1:23:39
团队成员同时通晓语言、视觉和语音,能利用跨模态思维诊断问题
1:31:04
1:31:04
生成图像的控制信号需完全理解上下文内容
1:33:27
1:33:27
只给模型答案而不给出推理过程会使模型困惑
1:43:56
1:43:56
多模态研究中理解问题解决后,带 o1 和 Long CoT 的生成变得可行
1:57:20
1:57:20
用小 Context 产品建模短期记忆,用无限长序列建模全局信息
2:07:12
2:07:12
对话提到 train 也是一种 inference,架构要服务于算法
2:12:26
2:12:26
当前 RL 方法将每条评价单独加权打分,丢失了丰富评价维度,这是做 generative RM 的困境。
2:23:49
2:23:49
生存作为监督模式及人想象未来无需具化的观点
2:25:00
2:25:00
世界模型训练方式及未来多模态融合趋势
2:26:35
2:26:35
技术发展路线未必按 AGI 主线,但终会实现