scripod.com

89. 逐句讲解DeepSeek-R1、Kimi K1.5、OpenAI o1技术报告——“最优美的算法最干净”

Overview

Shownote

Highlights

Transcript

Chapters

Pins

89. 逐句讲解 DeepSeek-R1、Kimi K1.5、OpenAI o1 技术报告 ——“最优美的算法最干净”

张小珺Jùn｜商业访谈录

2025/02/04

89. 逐句讲解 DeepSeek-R1、Kimi K1.5、OpenAI o1 技术报告 ——“最优美的算法最干净”

89. 逐句讲解 DeepSeek-R1、Kimi K1.5、OpenAI o1 技术报告 ——“最优美的算法最干净”

张小珺Jùn｜商业访谈录

张小珺Jùn｜商业访谈录

2025/02/04

Overview Shownote Highlights Transcript Chapters Pins

Shownote

2025 年这个春节，DeepSeek 一举改写了全球 AGI 大叙事。在万般热闹之际，我们特别想沉下来做一些基础科普工作，一起来研读这几篇关键的技术报道。今天这集节目，我邀请加州大学伯克利分校人工智能实验室在读博士生潘家怡，来做技术解读。他的研究方向是语言模型的后训练。这期播客中，家怡将带着大家一起来读，春节前 DeepSeek 发布的关键技术报告，他在报告中发布了两个模型 DeepSeek-R1-Zero 和 DeepSeek-R1；并对照讲解 Kimi 发布的 K1.5 技术报告，以及 OpenAI 更早之前发布的 o1 的技...

Highlights

本期播客邀请了加州大学伯克利分校人工智能实验室在读博士生潘家怡，深入解读了 DeepSeek、Kimi 和 OpenAI 发布的几篇关键技术报告。通过这些报告，听众可以了解大语言模型在强化学习领域的最新进展，感受算法之美，并理解当前的技术拐点。

00:06

DeepSeek R1 在重新验算过程中发现了问题并自行解决了它。

08:44

R1 模型发布后对视觉语言模型推理领域的影响显著

22:23

模型在 AIME 任务上的精度从 30% 提升到接近 80%

33:11

通过对比算法设计、数据构造及奖励函数，探讨强化学习让模型自我摸索出更优解

35:25

R1-Zero 通过大规模强化学习训练，展现了强大的推理能力

38:58

DeepSeek 通过简单的强化学习方法实现强大的推理能力，成本极低

45:49

知识蒸馏技术使大模型能力迁移至小模型，效果优于直接后训练

47:15

研究团队观察到模型能够自行发展出各种推理模式

52:08

DeepSeek-R1 和 Kimi K1.5 选择放弃价值函数，转而使用更简单的策略梯度训练方法

1:01:47

模型可能会通过利用奖励函数中的漏洞来获得高分

1:05:06

模板要求模型先展示推理过程，再给出最终答案

1:13:54

模型的自纠错能力是通过强化学习涌现出来的

1:14:54

AI 模型在某些任务上的表现已经超越人类

1:20:43

通过拒绝采样生成高质量蒸馏数据

1:26:07

AlphaGo Zero 完全从零开始，不借助任何人类先验知识

1:34:15

Kimi K1.5 模型通过蒸馏和强化学习显著提高性能

1:35:28

DeepSeek 通过多次输出并选择得分最高的结果作为最终答案的方法表现出色

1:42:34

K1.5 提供了很多工程化的细节，适合学习和复现

1:43:54

每步训练生成约一万个 token，总计 1000 亿个 token，总成本约为 20 万美元

2:01:08

Kimi 模型的错误率从 15% 降至 1.5%

2:20:14

R1 和 O1 模型在处理非中文和非英文的语言时会切换到英文，影响用户体验

2:24:36

DeepSeek 不再需要有监督微调，可能预示新的范式出现

Chapters

解读 DeepSeek 及其它 AI 模型的强化学习进展

00:00

讲解开始前，先提问几个小问题

03:46

OpenAI o1 技术报告《Learning to reason with LLMs》讲解

16:06

DeepSeek-R1-Zero and DeepSeek-R1 技术报告《DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning》讲解

33:03

摘要（Abstract）

35:24

导论（Introduction）

37:39

发布的两个模型中，R1-Zero 更重要还是 R1 更重要？

44:35

研究方法（Approach）

47:14

GRPO（Group Relative Policy Optimization，一种与强化学习相关的优化算法）

48:13

奖励建模（Reward Modeling）

57:22

训练模版（Training Template）

1:05:01

R1-Zero 的性能、自我进化过程和顿悟时刻（Performance, Self-evolution Process and Aha Moment）

1:06:43

模型能涌现意识吗？

1:14:52

DeepSeek-R1: 冷启动强化学习（ Reinforcement Learning with Cold Start）

1:16:18

为什么同时发布两个模型？取名 “Zero” 的渊源故事？

1:24:48

蒸馏: 赋予小模型推理能力（Distillation: Empower Small Models with Reasoning Capability）

1:28:51

失败的尝试: 过程奖励模型（PRM）与蒙特卡罗树搜索（MCTS）

1:35:27

DeepSeek-R1 技术报告是一片优美精妙的算法论文，有很多 “发现”，这是它成为爆款报告的原因

1:42:33

对 DeepSeek-R1 训练成本的估算

1:43:50

KIMI K1.5 技术报告《KIMI K1.5: SCALING REINFORCEMENT LEARNING WITH LLMS》讲解

1:49:05

DeepSeek 论文的结尾谈未来往哪里发展？

2:20:07

以上是三篇报告所有内容，接下来是提问时间，我们继续强化学习一下！

2:24:35

Transcript

潘家怡: 然后我们这里可以看一下 DeepSeek R1 的 Paper。它的标题叫做 Incentivizing reasoning capability in LMS while reinforcing learning。叫做通过强化学习的方式，激励语言模型激发它的推理能力。这个地方有个非常有意思的词，叫做 incentivizing，这个词其实业内人士大家也谈论了很多，它其实是有一些，之前有一些小故事的。就是之前 OpenAI 的一个研究员叫做 Hongyu，他在 MIT 有个演讲，演讲的标题叫做 D...

小宇宙

Open in 小宇宙