scripod.com

#84 强化学习的前世今生

Overview

Shownote

Highlights

Transcript

Chapters

Pins

#84 强化学习的前世今生

科技慢半拍

2025/03/30

#84 强化学习的前世今生

#84 强化学习的前世今生

科技慢半拍

科技慢半拍

2025/03/30

Overview Shownote Highlights Transcript Chapters Pins

Shownote

【节目介绍】本期节目聚焦强化学习，带你走进这一人工智能核心领域。从图灵奖得主巴托（Andrew Barto）和萨顿（Richard S. Sutton）的卓越成就，到强化学习从游戏到大模型的广泛应用，我们将回顾这段发展历程，探索 RL 的未来潜力。这是一场关于深度学习的历史和现状的回顾之旅，重新带你领略人工智能与各个学科的融合魅力。【时间线】 01:40 从 AlphaGo 到 RLHF（基于人类反馈的强化学习） 03:56 关于萨顿的《苦涩的教训》（The Bitter Lesson） 09:15 强...

Highlights

本期节目深入探讨了强化学习（Reinforcement Learning）这一人工智能领域的核心支柱。从早期心理学和数学理论的奠基，到现代大模型中的广泛应用，强化学习的发展历程充满了跨学科的融合与创新。通过回顾关键人物的研究贡献和历史节点，我们将了解强化学习如何从理论走向实践，并探索其未来潜力。

00:42

强化学习虽不如深度学习知名，但其理念和方法被广泛了解

01:40

强化学习助 ChatGPT 优化对话能力

03:56

萨顿的文章被 OpenAI 员工视为必读，体现了 scaling law 的信仰基础

10:52

奖励比惩罚更能激励人，成功后应立即兑现奖励

18:47

SNARC 机器通过奖励机制建立了事件因果关系，并能模仿老鼠的学习行为

22:38

亚瑟・塞缪尔开发首个成功自学习计算机程序

38:54

强化学习与监督、无监督学习并称三大学习范式

45:00

大模型爆发推动 RLHF 新训练方法诞生，提升大模型安全度和可用性

45:33

强化学习能促进与世界互动，解决无目标问题

Chapters

强化学习的发展与意义

00:00

从 AlphaGo 到 RLHF（基于人类反馈的强化学习）

01:40

关于萨顿的《苦涩的教训》（The Bitter Lesson）

03:56

强化学习的启蒙奠基

09:15

人工智能领域的早期发展

15:35

游戏让强化学习续命

21:04

强化学习的诞生

25:49

强化学习的后继演化

40:35

萨顿最新的观点，《去中心化神经网络》（Decentralized Neural Networks）

45:30

Transcript

Speaker 1: 仪式上 ACM 的主席也提到，巴托和萨顿，他们在工作方面展示了很多。我们在一些应用领域，长期面临的一些挑战。从认知科学，心理学到神经科学的研究，都激发了强化学习的发展。强化学习呢，也为 AI 的一些其他领域的重要发展，奠定了基础。并且呢，让我们能够更深入的了解到，人类大脑的工作原理。大家可能都或多或少的听说过强化学习，也就是 reinforcement learning 这个算法的名称，虽然它不如像 deep learning 或者是 machine learning 这样的名词这么熟...

小宇宙

Open in 小宇宙