102. 和张祥雨聊,多模态研究的挣扎史和未来两年的 2 个 “GPT-4 时刻”
张小珺Jùn|商业访谈录
2025/06/02
102. 和张祥雨聊,多模态研究的挣扎史和未来两年的 2 个 “GPT-4 时刻”
102. 和张祥雨聊,多模态研究的挣扎史和未来两年的 2 个 “GPT-4 时刻”

张小珺Jùn|商业访谈录
2025/06/02
Shownote
Shownote
今天这集,《商业访谈录》第一次迎来一位 co-host,是大家熟悉的李广密。 广密邀请了大模型公司阶跃星辰的首席科学家张祥雨,来聊聊,多模态的前世今生和未来技术的前沿走向。 张祥雨在这集节目详细阐述了:他参与的多模态的 10 年历史,对多模态的全新思考,以及所预见的下一个 “GPT-4 时刻”。 他提到一个细节:在训练过程中他曾经发现一件百思不得其解的现象 —— 模型的通用对话能力、情商和知识量都是随着模型变大变得更强,但模型的推理能力(尤其是数学)表现却是先上升后平缓,再扩大反而是下降 —— 这点在业界还未引发广泛讨...
Highlights
Highlights
本期《商业访谈录》首次迎来 co-host 李广密,他邀请了大模型公司阶跃星辰的首席科学家张祥雨,深入探讨多模态技术的过去、现在与未来。张祥雨分享了其十年来的多模态研究历程,并揭示了在模型训练中发现的怪现象及解决方案,同时展望了多模态领域的下一个 “GPT-4 时刻”。
Chapters
Chapters
多模态研究与模型能力趋势
00:00多模态研究的 10 年史: 迷茫和转机
张祥雨的学术经历和个人研究主线
02:00CV(计算机学习)向 NLP(自然语言处理)的学习历史
12:252022 年我开始对单纯靠视觉学出 “CV 领域的 GPT 时刻” 比较悲观
17:14纯视觉这个 domain 有什么问题?GPT 这样的生成模型你可以同时拥有生成、理解和人类对齐,而静态图像这三者是割裂的
18:22我停止了对静态图像表征的研究,构思新的研究主题: 短期内利用视觉和语言的对齐关系
24:23经过尝试还是没做到图像的理解、生成和对齐一体化,我得到一个越来越强的生成模型,和一个越来越强的理解模型,没有起到叠加效果 —— 为什么如此难以融合?
29:10做了大半年十分迷茫,但在此刻出现了转机
38:45训练大模型发现的怪事、蛛丝马迹与办法
训练过程中发现了一件百思不得其解的怪事: 模型的通用对话能力、情商、知识量确实模型越大越强,但模型的推理能力(尤其是数学)表现是先上升后平缓,再扩大反而是下降
41:11一些蛛丝马迹: 更大的模型做数学题倾向于跳步,不老实
43:10经过分析,这是 next token prediction 的本质缺陷
44:33更大的压缩率未必对应更高的计算精度,我们来做一个思想实验
45:42生成模型的 “特征坍缩现象”
47:27解决方案就是引入 RL(强化学习)
50:48o1 的核心是思维链的 pattern——“做思考模型,pattern is all you need”
53:28当模型走到某一步,摆在面前有两个分支 —— 走左边?还是走右边?—— 一个 token 之内到底能不能解决?(critical decision)—— 不能,所以引入反思 pattern
1:01:52o1 范式的本质是一种 Meta-CoT ,是 CoT 的 CoT
1:10:16对多模态研究的新思考和新进展
研究完 o1,返回研究为什么视觉生成可控性这么差,就有了眉目
1:10:57简单把生成和理解做到一起,难度非常大,缺失了重要一环 CoT
1:15:13去年中开启新的 project: 视觉理解(视觉空间的 Long CoT)
1:15:54尝试了半年,结果给大家透露一下吧!
1:19:06o 系列不仅泛化了 domain,更吸引人的是泛化了 pattern
1:21:30博弈类问题是难以泛化的领域,有很多无效思考和低级错误
1:22:16o1 激发的反思 pattern,在预训练语料中都有分布了
1:24:07关于预训练加多模态数据有两种说法: 影响了 text 智商?还是增强了 scaling law?
1:31:31往后两条腿走: 扩充预训练语料和扩展动作空间
1:36:43多模态的 “GPT-4 时刻” 还有多久
1:45:42预见下一个 “GPT-4 时刻”
long context 和多模型协作
1:46:56架构不重要,架构是服务算法和系统的(为什么我说 Linear Transformer 不本质)
2:07:09下一个 “GPT-4 时刻”?模型的在线学习 / 自主学习
2:08:30澄清一些有关 Agent 的观点
2:21:22人虽然没有生成器官,但人有世界模型
2:25:00我们的智能水平还在为视觉挣扎,机器人领域在抢跑
2:26:34Transcript
Transcript
李广密: 大家都知道图像是大自然创造的,它不管你人类对它怎么理解,它就在那里。但是当时发生了一件事,让我们就觉得就百思不得其解了。然后是发现了一些蛛丝马迹,就比如说更大的模型,它在做数学题,它更倾向于跳跃。它可能直接指向了,我们做那个 Next token prediction 这样一个本质的缺陷。Hello,大家好,欢迎收听张小珺商业访谈录,我是晓俊,这是一档提供一手高密度信息的商业访谈节目。今天这集商业访谈录第一次迎来了一位 cohost,是大家熟悉的李广密。广蜜邀请了大模型公司,阶跃星辰的首席科学家张...

Open in 小宇宙