一堂「强化学习」大师课|对谈清华叉院助理教授吴翼
42章经
2025/04/05
一堂「强化学习」大师课|对谈清华叉院助理教授吴翼
一堂「强化学习」大师课|对谈清华叉院助理教授吴翼

42章经
2025/04/05
Shownote
Shownote
当 AI 预训练的 scaling law 开始放缓,强化学习 (RL) 接过接力棒,拉出了一条漂亮的第二曲线。 在当下的 Agent 热里,有 RL 能力的团队,也是最被看好和押注的。 但很多人对 RL 都没有一个足够清晰的理解,包括我自己。 所以这期我们请到了国内 RL 领域的专家、清华大学交叉信息研究院助理教授吴翼,来讲讲 RL 的原理到底是啥、RL + LLM 的路径是怎么发展起来的、目前存在哪些非共识、未来还会怎么演变等等(聊完感觉像上了一堂免费大师课)。 而且聊着聊着,我们发现,人生就是一个...
Highlights
Highlights
随着 AI 预训练的扩展规律逐渐放缓,强化学习(RL)成为推动技术发展的新动力。本期节目邀请了清华大学交叉信息研究院助理教授吴翼,深入探讨 RL 的基本原理、与大语言模型(LLM)结合的发展路径、当前的非共识以及未来演变方向。同时,通过 RL 的视角,我们也能重新思考人生的意义和决策过程。
Chapters
Chapters
强化学习的概念与发展
00:00时光机
到底什么是 RL?
01:51人生就是一个强化学习的过程
04:25RL 和 LLM 是怎么结合起来的?
06:22为什么说 Anthropic RL 做得特别好?
16:10行业对 RL + LLM 的最优路径形成共识了吗?
21:17RL 起来之后,对 Agent 的影响是什么?
25:11Intelligence = LLM (理解) × RL (决策),二者缺一不可
32:11Scaling law 的未来
34:14大模型团队的组织架构要如何设计?
40:02一个反常识: 对 AI 来说,理解比生成更难,token 消耗更大
43:21现在做 Agent 一定需要一个懂 RL 的人吗?
47:38为什么 RL 人才这么稀缺?
49:32RL 目前三大分支: 泛化 (DeepSeek)、代码 (Anthropic)、Agent (OpenAI)
56:10框架对 RL 意味着什么?
58:55RL 在海内外进展还有明显差距
1:02:51想做好 RL,基建≫数据>算法
1:04:42研究 RL 收获的一些人生启发
1:06:05Transcript
Transcript
KaiQu: 我们今天很开心请到了,吴翼来跟我们一起来聊 RL 强化学习这件事情。这个的初衷呢?我觉得是因为去年 RL 这件事已经开始活起来。对,但今年我一个特别明显的体感,是在今天大家都在讲 Agent,然后 Agent 团队里面,如果有一个 RL 算法能力特别强的人,好像就特别吃香。就这件事是,基本上现在彻底起来了,就大家非常非常认这件事。所以今天我们可以聊一下,强化学习尽量把它了透吧。首先还是先请你自我介绍一下,大家好。
吴翼: 我叫吴翼,20 年从 OpenAI 回国,然后在清华当老师的,然后一直都...

Open in 小宇宙