scripod.com

#84 强化学习的前世今生

科技慢半拍

2025/03/30
科技慢半拍

科技慢半拍

2025/03/30

Shownote

【节目介绍】 本期节目聚焦强化学习,带你走进这一人工智能核心领域。从图灵奖得主巴托(Andrew Barto)和萨顿(Richard S. Sutton)的卓越成就,到强化学习从游戏到大模型的广泛应用,我们将回顾这段发展历程,探索 RL 的未来潜力。这是一场关于深度学习的历史和现状的回顾之旅,重新带你领略人工智能与各个学科的融合魅力。 【时间线】 01:40 从 AlphaGo 到 RLHF(基于人类反馈的强化学习) 03:56 关于萨顿的《苦涩的教训》(The Bitter Lesson) 09:15 强...

Highlights

本期节目深入探讨了强化学习(Reinforcement Learning)这一人工智能领域的核心支柱。从早期心理学和数学理论的奠基,到现代大模型中的广泛应用,强化学习的发展历程充满了跨学科的融合与创新。通过回顾关键人物的研究贡献和历史节点,我们将了解强化学习如何从理论走向实践,并探索其未来潜力。
00:42
强化学习虽不如深度学习知名,但其理念和方法被广泛了解
01:40
强化学习助 ChatGPT 优化对话能力
03:56
萨顿的文章被 OpenAI 员工视为必读,体现了 scaling law 的信仰基础
10:52
奖励比惩罚更能激励人,成功后应立即兑现奖励
18:47
SNARC 机器通过奖励机制建立了事件因果关系,并能模仿老鼠的学习行为
22:38
亚瑟・塞缪尔开发首个成功自学习计算机程序
38:54
强化学习与监督、无监督学习并称三大学习范式
45:00
大模型爆发推动 RLHF 新训练方法诞生,提升大模型安全度和可用性
45:33
强化学习能促进与世界互动,解决无目标问题

Chapters

强化学习的发展与意义
00:00
从 AlphaGo 到 RLHF(基于人类反馈的强化学习)
01:40
关于萨顿的《苦涩的教训》(The Bitter Lesson)
03:56
强化学习的启蒙奠基
09:15
人工智能领域的早期发展
15:35
游戏让强化学习续命
21:04
强化学习的诞生
25:49
强化学习的后继演化
40:35
萨顿最新的观点,《去中心化神经网络》(Decentralized Neural Networks)
45:30

Transcript

Speaker 1: 仪式上 ACM 的主席也提到,巴托和萨顿,他们在工作方面展示了很多。我们在一些应用领域,长期面临的一些挑战。从认知科学,心理学到神经科学的研究,都激发了强化学习的发展。强化学习呢,也为 AI 的一些其他领域的重要发展,奠定了基础。并且呢,让我们能够更深入的了解到,人类大脑的工作原理。大家可能都或多或少的听说过强化学习,也就是 reinforcement learning 这个算法的名称,虽然它不如像 deep learning 或者是 machine learning 这样的名词这么熟...
小宇宙
Open in 小宇宙