89. 逐句讲解 DeepSeek-R1、Kimi K1.5、OpenAI o1 技术报告 ——“最优美的算法最干净”
张小珺Jùn|商业访谈录
2025/02/04
89. 逐句讲解 DeepSeek-R1、Kimi K1.5、OpenAI o1 技术报告 ——“最优美的算法最干净”
89. 逐句讲解 DeepSeek-R1、Kimi K1.5、OpenAI o1 技术报告 ——“最优美的算法最干净”

张小珺Jùn|商业访谈录
2025/02/04
本期播客邀请了加州大学伯克利分校人工智能实验室在读博士生潘家怡,深入解读了 DeepSeek、Kimi 和 OpenAI 发布的几篇关键技术报告。通过这些报告,听众可以了解大语言模型在强化学习领域的最新进展,感受算法之美,并理解当前的技术拐点。
节目中详细解析了 DeepSeek 发布的两个模型 R1-Zero 和 R1,以及 Kimi 的 K1.5 和 OpenAI 的 o1 技术报告。DeepSeek-R1 通过大规模强化学习显著提升了推理能力,尤其在冷启动强化学习方面表现突出。R1-Zero 展示了自我进化过程中的 “顿悟时刻”,即模型学会为问题分配更多思考时间,体现了强化学习的潜力。K1.5 则专注于扩展强化学习的应用,优化了输出长度和响应速度。这些模型共同展示了强化学习在提升语言模型推理能力方面的巨大潜力,同时也探讨了未来的发展方向,如减少人工监督需求和探索自博弈等新方法。
00:06
00:06
DeepSeek R1 在重新验算过程中发现了问题并自行解决了它。
08:44
08:44
R1 模型发布后对视觉语言模型推理领域的影响显著
22:23
22:23
模型在 AIME 任务上的精度从 30% 提升到接近 80%
33:11
33:11
通过对比算法设计、数据构造及奖励函数,探讨强化学习让模型自我摸索出更优解
35:25
35:25
R1-Zero 通过大规模强化学习训练,展现了强大的推理能力
38:58
38:58
DeepSeek 通过简单的强化学习方法实现强大的推理能力,成本极低
45:49
45:49
知识蒸馏技术使大模型能力迁移至小模型,效果优于直接后训练
47:15
47:15
研究团队观察到模型能够自行发展出各种推理模式
52:08
52:08
DeepSeek-R1 和 Kimi K1.5 选择放弃价值函数,转而使用更简单的策略梯度训练方法
1:01:47
1:01:47
模型可能会通过利用奖励函数中的漏洞来获得高分
1:05:06
1:05:06
模板要求模型先展示推理过程,再给出最终答案
1:13:54
1:13:54
模型的自纠错能力是通过强化学习涌现出来的
1:14:54
1:14:54
AI 模型在某些任务上的表现已经超越人类
1:20:43
1:20:43
通过拒绝采样生成高质量蒸馏数据
1:26:07
1:26:07
AlphaGo Zero 完全从零开始,不借助任何人类先验知识
1:34:15
1:34:15
Kimi K1.5 模型通过蒸馏和强化学习显著提高性能
1:35:28
1:35:28
DeepSeek 通过多次输出并选择得分最高的结果作为最终答案的方法表现出色
1:42:34
1:42:34
K1.5 提供了很多工程化的细节,适合学习和复现
1:43:54
1:43:54
每步训练生成约一万个 token,总计 1000 亿个 token,总成本约为 20 万美元
2:01:08
2:01:08
Kimi 模型的错误率从 15% 降至 1.5%
2:20:14
2:20:14
R1 和 O1 模型在处理非中文和非英文的语言时会切换到英文,影响用户体验
2:24:36
2:24:36
DeepSeek 不再需要有监督微调,可能预示新的范式出现