89. 逐句讲解 DeepSeek-R1、Kimi K1.5、OpenAI o1 技术报告 ——“最优美的算法最干净”
张小珺Jùn|商业访谈录
2025/02/04
89. 逐句讲解 DeepSeek-R1、Kimi K1.5、OpenAI o1 技术报告 ——“最优美的算法最干净”
89. 逐句讲解 DeepSeek-R1、Kimi K1.5、OpenAI o1 技术报告 ——“最优美的算法最干净”

张小珺Jùn|商业访谈录
2025/02/04
Shownote
Shownote
2025 年这个春节,DeepSeek 一举改写了全球 AGI 大叙事。在万般热闹之际,我们特别想沉下来做一些基础科普工作,一起来研读这几篇关键的技术报道。 今天这集节目,我邀请加州大学伯克利分校人工智能实验室在读博士生潘家怡,来做技术解读。他的研究方向是语言模型的后训练。 这期播客中,家怡将带着大家一起来读,春节前 DeepSeek 发布的关键技术报告,他在报告中发布了两个模型 DeepSeek-R1-Zero 和 DeepSeek-R1;并对照讲解 Kimi 发布的 K1.5 技术报告,以及 OpenAI 更早之前发布的 o1 的技...
Highlights
Highlights
本期播客邀请了加州大学伯克利分校人工智能实验室在读博士生潘家怡,深入解读了 DeepSeek、Kimi 和 OpenAI 发布的几篇关键技术报告。通过这些报告,听众可以了解大语言模型在强化学习领域的最新进展,感受算法之美,并理解当前的技术拐点。
Chapters
Chapters
解读 DeepSeek 及其它 AI 模型的强化学习进展
00:00讲解开始前,先提问几个小问题
03:46OpenAI o1 技术报告《Learning to reason with LLMs》讲解
16:06DeepSeek-R1-Zero and DeepSeek-R1 技术报告《DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning》讲解
33:03摘要(Abstract)
35:24导论(Introduction)
37:39发布的两个模型中,R1-Zero 更重要还是 R1 更重要?
44:35研究方法(Approach)
47:14GRPO(Group Relative Policy Optimization,一种与强化学习相关的优化算法)
48:13奖励建模(Reward Modeling)
57:22训练模版(Training Template)
1:05:01R1-Zero 的性能、自我进化过程和顿悟时刻(Performance, Self-evolution Process and Aha Moment)
1:06:43模型能涌现意识吗?
1:14:52DeepSeek-R1: 冷启动强化学习( Reinforcement Learning with Cold Start)
1:16:18为什么同时发布两个模型?取名 “Zero” 的渊源故事?
1:24:48蒸馏: 赋予小模型推理能力(Distillation: Empower Small Models with Reasoning Capability)
1:28:51失败的尝试: 过程奖励模型(PRM)与蒙特卡罗树搜索(MCTS)
1:35:27DeepSeek-R1 技术报告是一片优美精妙的算法论文,有很多 “发现”,这是它成为爆款报告的原因
1:42:33对 DeepSeek-R1 训练成本的估算
1:43:50KIMI K1.5 技术报告《KIMI K1.5: SCALING REINFORCEMENT LEARNING WITH LLMS》讲解
1:49:05DeepSeek 论文的结尾谈未来往哪里发展?
2:20:07以上是三篇报告所有内容,接下来是提问时间,我们继续强化学习一下!
2:24:35Transcript
Transcript
潘家怡: 然后我们这里可以看一下 DeepSeek R1 的 Paper。它的标题叫做 Incentivizing reasoning capability in LMS while reinforcing learning。叫做通过强化学习的方式,激励语言模型激发它的推理能力。这个地方有个非常有意思的词,叫做 incentivizing,这个词其实业内人士大家也谈论了很多,它其实是有一些,之前有一些小故事的。就是之前 OpenAI 的一个研究员叫做 Hongyu,他在 MIT 有个演讲,演讲的标题叫做 D...

Open in 小宇宙