scripod.com

#84 强化学习的前世今生

科技慢半拍

2025/03/30
科技慢半拍

科技慢半拍

2025/03/30
本期节目深入探讨了强化学习(Reinforcement Learning)这一人工智能领域的核心支柱。从早期心理学和数学理论的奠基,到现代大模型中的广泛应用,强化学习的发展历程充满了跨学科的融合与创新。通过回顾关键人物的研究贡献和历史节点,我们将了解强化学习如何从理论走向实践,并探索其未来潜力。
强化学习作为 AI 的重要分支,经历了从心理学、神经科学到计算机科学的多领域发展。早期行为主义代表桑代克的效果法则和马尔科夫决策过程为强化学习奠定了理论基础。随后,图灵和明斯基等人的研究推动了机器学习的萌芽。游戏领域成为强化学习发展的催化剂,亚瑟・塞缪尔的跳棋程序和贝尔曼方程为后续研究铺平道路。巴托和萨顿的合作开创了现代强化学习,TD-Gammon 展示了其在复杂任务中的潜力。近年来,深度强化学习结合大模型技术,在 AlphaGo 和 ChatGPT 中取得了显著成果。萨顿最新的观点提出去中心化神经网络,以解决灾难性遗忘等问题,并强调合作机制的重要性。强化学习不仅推动了 AI 的进步,也为理解人类学习机制提供了新视角。
00:42
00:42
强化学习虽不如深度学习知名,但其理念和方法被广泛了解
01:40
01:40
强化学习助 ChatGPT 优化对话能力
03:56
03:56
萨顿的文章被 OpenAI 员工视为必读,体现了 scaling law 的信仰基础
10:52
10:52
奖励比惩罚更能激励人,成功后应立即兑现奖励
18:47
18:47
SNARC 机器通过奖励机制建立了事件因果关系,并能模仿老鼠的学习行为
22:38
22:38
亚瑟・塞缪尔开发首个成功自学习计算机程序
38:54
38:54
强化学习与监督、无监督学习并称三大学习范式
45:00
45:00
大模型爆发推动 RLHF 新训练方法诞生,提升大模型安全度和可用性
45:33
45:33
强化学习能促进与世界互动,解决无目标问题