scripod.com

102. 和张祥雨聊，多模态研究的挣扎史和未来两年的2个“GPT-4时刻”

Overview

Shownote

Highlights

Transcript

Chapters

Pins

102. 和张祥雨聊，多模态研究的挣扎史和未来两年的 2 个 “GPT-4 时刻”

张小珺Jùn｜商业访谈录

2025/06/02

102. 和张祥雨聊，多模态研究的挣扎史和未来两年的 2 个 “GPT-4 时刻”

102. 和张祥雨聊，多模态研究的挣扎史和未来两年的 2 个 “GPT-4 时刻”

张小珺Jùn｜商业访谈录

张小珺Jùn｜商业访谈录

2025/06/02

Overview Shownote Highlights Transcript Chapters Pins

Shownote

今天这集，《商业访谈录》第一次迎来一位 co-host，是大家熟悉的李广密。广密邀请了大模型公司阶跃星辰的首席科学家张祥雨，来聊聊，多模态的前世今生和未来技术的前沿走向。张祥雨在这集节目详细阐述了：他参与的多模态的 10 年历史，对多模态的全新思考，以及所预见的下一个 “GPT-4 时刻”。他提到一个细节：在训练过程中他曾经发现一件百思不得其解的现象 —— 模型的通用对话能力、情商和知识量都是随着模型变大变得更强，但模型的推理能力（尤其是数学）表现却是先上升后平缓，再扩大反而是下降 —— 这点在业界还未引发广泛讨...

Highlights

本期《商业访谈录》首次迎来 co-host 李广密，他邀请了大模型公司阶跃星辰的首席科学家张祥雨，深入探讨多模态技术的过去、现在与未来。张祥雨分享了其十年来的多模态研究历程，并揭示了在模型训练中发现的怪现象及解决方案，同时展望了多模态领域的下一个 “GPT-4 时刻”。

04:49

模型宽度和深度扩展是 AI 发展的重要突破点

14:37

CV 设计的不变性依赖人工，缺乏规模扩展效果

17:27

做 NLP 的同行已研究推理和更高级智能特性，而自己研究多年还停留在表征层面

20:08

静态图像模型仅靠建模联合分布无法实现理解

24:31

真正的 AGI 系统需要视觉模块，当前 Context Learning 难以实现视觉智能

36:21

生成模型常生成违反物理约束和空间透视关系的内容

38:47

模型训练投入巨大，资源需求超预期

42:48

大模型常放弃逐步推导，直接得出结果

43:14

Next token prediction 存在本质缺陷，导致跳步现象

44:49

更大压缩率未必对应更高计算精度

47:17

该答案正确率约为 90%，但可能存在错误

47:27

大模型做复杂题时跳过必要步骤，最终错误率较高

52:38

o1 成功的关键在于找到最佳思维链组织方式

58:39

语言模型即便随机尝试也能对简单问题有较高成功率，但关键在于提升稳定性

1:06:21

预训练压缩动作空间导致反思 token 概率低

1:10:21

AutoRequest 网络需在单步推理中完成区域绘制

1:12:38

生成模型缺少链式思维，落后语言模型两代

1:15:13

视觉空间的问题需在图像而非文本领域解决

1:17:19

使用 RL 算法训练模型解决视觉空间问题并允许反悔

1:20:33

o1 思维链模式能将思考模式完美迁移到文学场景

1:21:34

模型在斗地主残局中出现数错扑克牌张数的低级错误

1:23:39

团队成员同时通晓语言、视觉和语音，能利用跨模态思维诊断问题

1:31:04

生成图像的控制信号需完全理解上下文内容

1:33:27

只给模型答案而不给出推理过程会使模型困惑

1:43:56

多模态研究中理解问题解决后，带 o1 和 Long CoT 的生成变得可行

1:57:20

用小 Context 产品建模短期记忆，用无限长序列建模全局信息

2:07:12

对话提到 train 也是一种 inference，架构要服务于算法

2:12:26

当前 RL 方法将每条评价单独加权打分，丢失了丰富评价维度，这是做 generative RM 的困境。

2:23:49

生存作为监督模式及人想象未来无需具化的观点

2:25:00

世界模型训练方式及未来多模态融合趋势

2:26:35

技术发展路线未必按 AGI 主线，但终会实现

Chapters

多模态研究与模型能力趋势

00:00

多模态研究的 10 年史: 迷茫和转机

张祥雨的学术经历和个人研究主线

02:00

CV（计算机学习）向 NLP（自然语言处理）的学习历史

12:25

2022 年我开始对单纯靠视觉学出 “CV 领域的 GPT 时刻” 比较悲观

17:14

纯视觉这个 domain 有什么问题？GPT 这样的生成模型你可以同时拥有生成、理解和人类对齐，而静态图像这三者是割裂的

18:22

我停止了对静态图像表征的研究，构思新的研究主题: 短期内利用视觉和语言的对齐关系

24:23

经过尝试还是没做到图像的理解、生成和对齐一体化，我得到一个越来越强的生成模型，和一个越来越强的理解模型，没有起到叠加效果 —— 为什么如此难以融合？

29:10

做了大半年十分迷茫，但在此刻出现了转机

38:45

训练大模型发现的怪事、蛛丝马迹与办法

训练过程中发现了一件百思不得其解的怪事: 模型的通用对话能力、情商、知识量确实模型越大越强，但模型的推理能力（尤其是数学）表现是先上升后平缓，再扩大反而是下降

41:11

一些蛛丝马迹: 更大的模型做数学题倾向于跳步，不老实

43:10

经过分析，这是 next token prediction 的本质缺陷

44:33

更大的压缩率未必对应更高的计算精度，我们来做一个思想实验

45:42

生成模型的 “特征坍缩现象”

47:27

解决方案就是引入 RL（强化学习）

50:48

o1 的核心是思维链的 pattern——“做思考模型，pattern is all you need”

53:28

当模型走到某一步，摆在面前有两个分支 —— 走左边？还是走右边？—— 一个 token 之内到底能不能解决？（critical decision）—— 不能，所以引入反思 pattern

1:01:52

o1 范式的本质是一种 Meta-CoT ，是 CoT 的 CoT

1:10:16

对多模态研究的新思考和新进展

研究完 o1，返回研究为什么视觉生成可控性这么差，就有了眉目

1:10:57

简单把生成和理解做到一起，难度非常大，缺失了重要一环 CoT

1:15:13

去年中开启新的 project: 视觉理解（视觉空间的 Long CoT）

1:15:54

尝试了半年，结果给大家透露一下吧！

1:19:06

o 系列不仅泛化了 domain，更吸引人的是泛化了 pattern

1:21:30

博弈类问题是难以泛化的领域，有很多无效思考和低级错误

1:22:16

o1 激发的反思 pattern，在预训练语料中都有分布了

1:24:07

关于预训练加多模态数据有两种说法: 影响了 text 智商？还是增强了 scaling law？

1:31:31

往后两条腿走: 扩充预训练语料和扩展动作空间

1:36:43

多模态的 “GPT-4 时刻” 还有多久

1:45:42

预见下一个 “GPT-4 时刻”

long context 和多模型协作

1:46:56

架构不重要，架构是服务算法和系统的（为什么我说 Linear Transformer 不本质）

2:07:09

下一个 “GPT-4 时刻”？模型的在线学习 / 自主学习

2:08:30

澄清一些有关 Agent 的观点

2:21:22

人虽然没有生成器官，但人有世界模型

2:25:00

我们的智能水平还在为视觉挣扎，机器人领域在抢跑

2:26:34

Transcript

李广密: 大家都知道图像是大自然创造的，它不管你人类对它怎么理解，它就在那里。但是当时发生了一件事，让我们就觉得就百思不得其解了。然后是发现了一些蛛丝马迹，就比如说更大的模型，它在做数学题，它更倾向于跳跃。它可能直接指向了，我们做那个 Next token prediction 这样一个本质的缺陷。Hello，大家好，欢迎收听张小珺商业访谈录，我是晓俊，这是一档提供一手高密度信息的商业访谈节目。今天这集商业访谈录第一次迎来了一位 cohost，是大家熟悉的李广密。广蜜邀请了大模型公司，阶跃星辰的首席科学家张...

小宇宙

Open in 小宇宙