scripod.com

一堂「强化学习」大师课｜对谈清华叉院助理教授吴翼

Overview

Shownote

Highlights

Transcript

Chapters

Pins

一堂「强化学习」大师课｜对谈清华叉院助理教授吴翼

42章经

2025/04/05

一堂「强化学习」大师课｜对谈清华叉院助理教授吴翼

一堂「强化学习」大师课｜对谈清华叉院助理教授吴翼

42章经

42章经

2025/04/05

Overview Shownote Highlights Transcript Chapters Pins

Shownote

当 AI 预训练的 scaling law 开始放缓，强化学习 (RL) 接过接力棒，拉出了一条漂亮的第二曲线。在当下的 Agent 热里，有 RL 能力的团队，也是最被看好和押注的。但很多人对 RL 都没有一个足够清晰的理解，包括我自己。所以这期我们请到了国内 RL 领域的专家、清华大学交叉信息研究院助理教授吴翼，来讲讲 RL 的原理到底是啥、RL + LLM 的路径是怎么发展起来的、目前存在哪些非共识、未来还会怎么演变等等（聊完感觉像上了一堂免费大师课）。而且聊着聊着，我们发现，人生就是一个...

Highlights

随着 AI 预训练的扩展规律逐渐放缓，强化学习（RL）成为推动技术发展的新动力。本期节目邀请了清华大学交叉信息研究院助理教授吴翼，深入探讨 RL 的基本原理、与大语言模型（LLM）结合的发展路径、当前的非共识以及未来演变方向。同时，通过 RL 的视角，我们也能重新思考人生的意义和决策过程。

01:41

很多人对强化学习的发展历程和细节不太了解

03:14

强化学习更具一般性，可建模生活中的多种问题

04:29

强化学习适合处理复杂决策问题

12:08

慢思考模型让大模型在推理时先思考再输出答案

19:37

做强化学习需要强大的基座模型和训练引擎支撑

22:27

训练范式从 Instruct GPT 的一轮范式发展到 Chat GPT 的多轮范式

27:49

单纯 LLM 难以具备复杂决策能力，需结合多模态模型

32:18

预训练对激发强化学习能力很重要

38:05

强化学习训练需依赖指标衡量过程

41:02

AI 时代团队成员需有破圈意识

47:02

答案往往简单，只是事后看来如此

48:48

若总等最后能用才行动，不如趁早投资

50:52

强化学习曾是冷门领域，很多人转向机器人领域

58:47

基于 RL 的推理能够理解过去并做出正确决定

1:02:28

团队目标是追赶并超越主干 scaling law

1:02:51

美国在强化学习领域较国内更为领先

1:04:42

数据和基建比算法更关键

1:08:44

人们因恐惧而避免探索，导致困于局部最优

Chapters

强化学习的概念与发展

00:00

时光机

到底什么是 RL？

01:51

人生就是一个强化学习的过程

04:25

RL 和 LLM 是怎么结合起来的？

06:22

为什么说 Anthropic RL 做得特别好？

16:10

行业对 RL + LLM 的最优路径形成共识了吗？

21:17

RL 起来之后，对 Agent 的影响是什么？

25:11

Intelligence = LLM (理解) × RL (决策)，二者缺一不可

32:11

Scaling law 的未来

34:14

大模型团队的组织架构要如何设计？

40:02

一个反常识: 对 AI 来说，理解比生成更难，token 消耗更大

43:21

现在做 Agent 一定需要一个懂 RL 的人吗？

47:38

为什么 RL 人才这么稀缺？

49:32

RL 目前三大分支: 泛化 (DeepSeek)、代码 (Anthropic)、Agent (OpenAI)

56:10

框架对 RL 意味着什么？

58:55

RL 在海内外进展还有明显差距

1:02:51

想做好 RL，基建≫数据＞算法

1:04:42

研究 RL 收获的一些人生启发

1:06:05

Transcript

KaiQu: 我们今天很开心请到了，吴翼来跟我们一起来聊 RL 强化学习这件事情。这个的初衷呢？我觉得是因为去年 RL 这件事已经开始活起来。对，但今年我一个特别明显的体感，是在今天大家都在讲 Agent，然后 Agent 团队里面，如果有一个 RL 算法能力特别强的人，好像就特别吃香。就这件事是，基本上现在彻底起来了，就大家非常非常认这件事。所以今天我们可以聊一下，强化学习尽量把它了透吧。首先还是先请你自我介绍一下，大家好。吴翼: 我叫吴翼，20 年从 OpenAI 回国，然后在清华当老师的，然后一直都...

小宇宙

Open in 小宇宙