scripod.com

一堂「强化学习」大师课|对谈清华叉院助理教授吴翼

42章经

2025/04/05
42章经

42章经

2025/04/05

Shownote

当 AI 预训练的 scaling law 开始放缓,强化学习 (RL) 接过接力棒,拉出了一条漂亮的第二曲线。 在当下的 Agent 热里,有 RL 能力的团队,也是最被看好和押注的。 但很多人对 RL 都没有一个足够清晰的理解,包括我自己。 所以这期我们请到了国内 RL 领域的专家、清华大学交叉信息研究院助理教授吴翼,来讲讲 RL 的原理到底是啥、RL + LLM 的路径是怎么发展起来的、目前存在哪些非共识、未来还会怎么演变等等(聊完感觉像上了一堂免费大师课)。 而且聊着聊着,我们发现,人生就是一个...

Highlights

随着 AI 预训练的扩展规律逐渐放缓,强化学习(RL)成为推动技术发展的新动力。本期节目邀请了清华大学交叉信息研究院助理教授吴翼,深入探讨 RL 的基本原理、与大语言模型(LLM)结合的发展路径、当前的非共识以及未来演变方向。同时,通过 RL 的视角,我们也能重新思考人生的意义和决策过程。
01:41
很多人对强化学习的发展历程和细节不太了解
03:14
强化学习更具一般性,可建模生活中的多种问题
04:29
强化学习适合处理复杂决策问题
12:08
慢思考模型让大模型在推理时先思考再输出答案
19:37
做强化学习需要强大的基座模型和训练引擎支撑
22:27
训练范式从 Instruct GPT 的一轮范式发展到 Chat GPT 的多轮范式
27:49
单纯 LLM 难以具备复杂决策能力,需结合多模态模型
32:18
预训练对激发强化学习能力很重要
38:05
强化学习训练需依赖指标衡量过程
41:02
AI 时代团队成员需有破圈意识
47:02
答案往往简单,只是事后看来如此
48:48
若总等最后能用才行动,不如趁早投资
50:52
强化学习曾是冷门领域,很多人转向机器人领域
58:47
基于 RL 的推理能够理解过去并做出正确决定
1:02:28
团队目标是追赶并超越主干 scaling law
1:02:51
美国在强化学习领域较国内更为领先
1:04:42
数据和基建比算法更关键
1:08:44
人们因恐惧而避免探索,导致困于局部最优

Chapters

强化学习的概念与发展
00:00
时光机
到底什么是 RL?
01:51
人生就是一个强化学习的过程
04:25
RL 和 LLM 是怎么结合起来的?
06:22
为什么说 Anthropic RL 做得特别好?
16:10
行业对 RL + LLM 的最优路径形成共识了吗?
21:17
RL 起来之后,对 Agent 的影响是什么?
25:11
Intelligence = LLM (理解) × RL (决策),二者缺一不可
32:11
Scaling law 的未来
34:14
大模型团队的组织架构要如何设计?
40:02
一个反常识: 对 AI 来说,理解比生成更难,token 消耗更大
43:21
现在做 Agent 一定需要一个懂 RL 的人吗?
47:38
为什么 RL 人才这么稀缺?
49:32
RL 目前三大分支: 泛化 (DeepSeek)、代码 (Anthropic)、Agent (OpenAI)
56:10
框架对 RL 意味着什么?
58:55
RL 在海内外进展还有明显差距
1:02:51
想做好 RL,基建≫数据>算法
1:04:42
研究 RL 收获的一些人生启发
1:06:05

Transcript

KaiQu: 我们今天很开心请到了,吴翼来跟我们一起来聊 RL 强化学习这件事情。这个的初衷呢?我觉得是因为去年 RL 这件事已经开始活起来。对,但今年我一个特别明显的体感,是在今天大家都在讲 Agent,然后 Agent 团队里面,如果有一个 RL 算法能力特别强的人,好像就特别吃香。就这件事是,基本上现在彻底起来了,就大家非常非常认这件事。所以今天我们可以聊一下,强化学习尽量把它了透吧。首先还是先请你自我介绍一下,大家好。 吴翼: 我叫吴翼,20 年从 OpenAI 回国,然后在清华当老师的,然后一直都...
小宇宙
Open in 小宇宙