scripod.com

一堂「强化学习」大师课|对谈清华叉院助理教授吴翼

42章经

2025/04/05
42章经

42章经

2025/04/05
随着 AI 预训练的扩展规律逐渐放缓,强化学习(RL)成为推动技术发展的新动力。本期节目邀请了清华大学交叉信息研究院助理教授吴翼,深入探讨 RL 的基本原理、与大语言模型(LLM)结合的发展路径、当前的非共识以及未来演变方向。同时,通过 RL 的视角,我们也能重新思考人生的意义和决策过程。
强化学习是一种处理多步骤决策的机器学习方法,与传统方式不同,它在任务完成后获得反馈。吴翼介绍了 RL 与 LLM 结合的过程,从 InstructGPT 实现指令遵从到 RLHF 对齐人类价值观。虽然行业尚未确定最佳路径,但 RL 显著提升了 Agent 的理解和决策能力。未来的发展方向是预训练和 RL 的结合,数据来源和合成数据尤为重要。理解比生成更难,需要更多 token 消耗。尽管中国 RL 人才稀缺且起步较晚,但 DeepSeek、Anthropic 和 OpenAI 等团队正在专注三大分支。框架对 RL 至关重要,速度和稳定性是关键。国内外在 RL 上的发展存在差距,基建比算法更重要。研究 RL 不仅能推动技术进步,还能带来人生启示,如通过多样化生活寻找奖励函1
01:41
01:41
很多人对强化学习的发展历程和细节不太了解
03:14
03:14
强化学习更具一般性,可建模生活中的多种问题
04:29
04:29
强化学习适合处理复杂决策问题
12:08
12:08
慢思考模型让大模型在推理时先思考再输出答案
19:37
19:37
做强化学习需要强大的基座模型和训练引擎支撑
22:27
22:27
训练范式从 Instruct GPT 的一轮范式发展到 Chat GPT 的多轮范式
27:49
27:49
单纯 LLM 难以具备复杂决策能力,需结合多模态模型
32:18
32:18
预训练对激发强化学习能力很重要
38:05
38:05
强化学习训练需依赖指标衡量过程
41:02
41:02
AI 时代团队成员需有破圈意识
47:02
47:02
答案往往简单,只是事后看来如此
48:48
48:48
若总等最后能用才行动,不如趁早投资
50:52
50:52
强化学习曾是冷门领域,很多人转向机器人领域
58:47
58:47
基于 RL 的推理能够理解过去并做出正确决定
1:02:28
1:02:28
团队目标是追赶并超越主干 scaling law
1:02:51
1:02:51
美国在强化学习领域较国内更为领先
1:04:42
1:04:42
数据和基建比算法更关键
1:08:44
1:08:44
人们因恐惧而避免探索,导致困于局部最优