scripod.com

102. 和张祥雨聊,多模态研究的挣扎史和未来两年的 2 个 “GPT-4 时刻”

Shownote

今天这集,《商业访谈录》第一次迎来一位 co-host,是大家熟悉的李广密。 广密邀请了大模型公司阶跃星辰的首席科学家张祥雨,来聊聊,多模态的前世今生和未来技术的前沿走向。 张祥雨在这集节目详细阐述了:他参与的多模态的 10 年历史,对多模态的全新思考,以及所预见的下一个 “GPT-4 时刻”。 他提到一个细节:在训练过程中他曾经发现一件百思不得其解的现象 —— 模型的通用对话能力、情商和知识量都是随着模型变大变得更强,但模型的推理能力(尤其是数学)表现却是先上升后平缓,再扩大反而是下降 —— 这点在业界还未引发广泛讨...

Highlights

本期《商业访谈录》首次迎来 co-host 李广密,他邀请了大模型公司阶跃星辰的首席科学家张祥雨,深入探讨多模态技术的过去、现在与未来。张祥雨分享了其十年来的多模态研究历程,并揭示了在模型训练中发现的怪现象及解决方案,同时展望了多模态领域的下一个 “GPT-4 时刻”。
04:49
模型宽度和深度扩展是 AI 发展的重要突破点
14:37
CV 设计的不变性依赖人工,缺乏规模扩展效果
17:27
做 NLP 的同行已研究推理和更高级智能特性,而自己研究多年还停留在表征层面
20:08
静态图像模型仅靠建模联合分布无法实现理解
24:31
真正的 AGI 系统需要视觉模块,当前 Context Learning 难以实现视觉智能
36:21
生成模型常生成违反物理约束和空间透视关系的内容
38:47
模型训练投入巨大,资源需求超预期
42:48
大模型常放弃逐步推导,直接得出结果
43:14
Next token prediction 存在本质缺陷,导致跳步现象
44:49
更大压缩率未必对应更高计算精度
47:17
该答案正确率约为 90%,但可能存在错误
47:27
大模型做复杂题时跳过必要步骤,最终错误率较高
52:38
o1 成功的关键在于找到最佳思维链组织方式
58:39
语言模型即便随机尝试也能对简单问题有较高成功率,但关键在于提升稳定性
1:06:21
预训练压缩动作空间导致反思 token 概率低
1:10:21
AutoRequest 网络需在单步推理中完成区域绘制
1:12:38
生成模型缺少链式思维,落后语言模型两代
1:15:13
视觉空间的问题需在图像而非文本领域解决
1:17:19
使用 RL 算法训练模型解决视觉空间问题并允许反悔
1:20:33
o1 思维链模式能将思考模式完美迁移到文学场景
1:21:34
模型在斗地主残局中出现数错扑克牌张数的低级错误
1:23:39
团队成员同时通晓语言、视觉和语音,能利用跨模态思维诊断问题
1:31:04
生成图像的控制信号需完全理解上下文内容
1:33:27
只给模型答案而不给出推理过程会使模型困惑
1:43:56
多模态研究中理解问题解决后,带 o1 和 Long CoT 的生成变得可行
1:57:20
用小 Context 产品建模短期记忆,用无限长序列建模全局信息
2:07:12
对话提到 train 也是一种 inference,架构要服务于算法
2:12:26
当前 RL 方法将每条评价单独加权打分,丢失了丰富评价维度,这是做 generative RM 的困境。
2:23:49
生存作为监督模式及人想象未来无需具化的观点
2:25:00
世界模型训练方式及未来多模态融合趋势
2:26:35
技术发展路线未必按 AGI 主线,但终会实现

Chapters

多模态研究与模型能力趋势
00:00
多模态研究的 10 年史: 迷茫和转机
张祥雨的学术经历和个人研究主线
02:00
CV(计算机学习)向 NLP(自然语言处理)的学习历史
12:25
2022 年我开始对单纯靠视觉学出 “CV 领域的 GPT 时刻” 比较悲观
17:14
纯视觉这个 domain 有什么问题?GPT 这样的生成模型你可以同时拥有生成、理解和人类对齐,而静态图像这三者是割裂的
18:22
我停止了对静态图像表征的研究,构思新的研究主题: 短期内利用视觉和语言的对齐关系
24:23
经过尝试还是没做到图像的理解、生成和对齐一体化,我得到一个越来越强的生成模型,和一个越来越强的理解模型,没有起到叠加效果 —— 为什么如此难以融合?
29:10
做了大半年十分迷茫,但在此刻出现了转机
38:45
训练大模型发现的怪事、蛛丝马迹与办法
训练过程中发现了一件百思不得其解的怪事: 模型的通用对话能力、情商、知识量确实模型越大越强,但模型的推理能力(尤其是数学)表现是先上升后平缓,再扩大反而是下降
41:11
一些蛛丝马迹: 更大的模型做数学题倾向于跳步,不老实
43:10
经过分析,这是 next token prediction 的本质缺陷
44:33
更大的压缩率未必对应更高的计算精度,我们来做一个思想实验
45:42
生成模型的 “特征坍缩现象”
47:27
解决方案就是引入 RL(强化学习)
50:48
o1 的核心是思维链的 pattern——“做思考模型,pattern is all you need”
53:28
当模型走到某一步,摆在面前有两个分支 —— 走左边?还是走右边?—— 一个 token 之内到底能不能解决?(critical decision)—— 不能,所以引入反思 pattern
1:01:52
o1 范式的本质是一种 Meta-CoT ,是 CoT 的 CoT
1:10:16
对多模态研究的新思考和新进展
研究完 o1,返回研究为什么视觉生成可控性这么差,就有了眉目
1:10:57
简单把生成和理解做到一起,难度非常大,缺失了重要一环 CoT
1:15:13
去年中开启新的 project: 视觉理解(视觉空间的 Long CoT)
1:15:54
尝试了半年,结果给大家透露一下吧!
1:19:06
o 系列不仅泛化了 domain,更吸引人的是泛化了 pattern
1:21:30
博弈类问题是难以泛化的领域,有很多无效思考和低级错误
1:22:16
o1 激发的反思 pattern,在预训练语料中都有分布了
1:24:07
关于预训练加多模态数据有两种说法: 影响了 text 智商?还是增强了 scaling law?
1:31:31
往后两条腿走: 扩充预训练语料和扩展动作空间
1:36:43
多模态的 “GPT-4 时刻” 还有多久
1:45:42
预见下一个 “GPT-4 时刻”
long context 和多模型协作
1:46:56
架构不重要,架构是服务算法和系统的(为什么我说 Linear Transformer 不本质)
2:07:09
下一个 “GPT-4 时刻”?模型的在线学习 / 自主学习
2:08:30
澄清一些有关 Agent 的观点
2:21:22
人虽然没有生成器官,但人有世界模型
2:25:00
我们的智能水平还在为视觉挣扎,机器人领域在抢跑
2:26:34

Transcript

李广密: 大家都知道图像是大自然创造的,它不管你人类对它怎么理解,它就在那里。但是当时发生了一件事,让我们就觉得就百思不得其解了。然后是发现了一些蛛丝马迹,就比如说更大的模型,它在做数学题,它更倾向于跳跃。它可能直接指向了,我们做那个 Next token prediction 这样一个本质的缺陷。Hello,大家好,欢迎收听张小珺商业访谈录,我是晓俊,这是一档提供一手高密度信息的商业访谈节目。今天这集商业访谈录第一次迎来了一位 cohost,是大家熟悉的李广密。广蜜邀请了大模型公司,阶跃星辰的首席科学家张...
小宇宙
Open in 小宇宙