scripod.com

91. 逐篇讲解 DeepSeek 关键 9 篇论文及创新点 ——“勇敢者的游戏”

Shownote

2025 年这个春节,DeepSeek 一举改写了全球 AGI 大叙事。在万般热闹之际,我们特别想沉下来做一些基础科普工作。 在《商业访谈录》89 集节目中,我邀请了加州大学伯克利分校人工智能实验室在读博士生潘家怡,为大家对照解读了春节前的 DeepSeek-R1-Zero、R1、Kimi 发布的 K1.5,以及 OpenAI 更早发布的 o1 技术报告。这些模型聚焦的都是大模型最新技术范式,RL 强化学习,简单来说就是 o1 路线。 今天这集,我邀请的是香港科技大学计算机系助理教授何俊贤。他的研究方向是大模型推理,从很早就开始关注...

Highlights

本期节目聚焦于 DeepSeek 在大模型推理领域的技术创新与复现工作,通过解读其 9 篇关键论文,从技术底层视角剖析 DeepSeek 的研究路径。嘉宾何俊贤教授将带领听众深入理解 DeepSeek 的技术发展脉络及其对 AI 行业的贡献。
13:03
DeepSeek 以学术界风格进行开源和技术细节公布
40:42
DeepSeek 揭示刷榜行为并保持诚实态度
53:22
只需激活模型部分知识即可降低成本
1:17:34
DeepSeek 通过低维映射到高维处理 K 和 V,显著减少存储量
1:50:02
DeepSeek V3 首次在大规模语言模型中成功应用 FP8 混合精度训练
2:10:49
Coding 模型帮助程序员写代码,成为生产力提升的关键工具
2:28:23
DeepSeek 通过 GRPO 方法显著降低了强化学习的成本
2:49:14
定理证明引擎规则由引擎定义而非人为设定,确保客观性
3:17:13
DPO 方法因其简单和高效成为强化学习的热门选择

Chapters

解读 DeepSeek 的论文与技术发展
00:00
DeepSeek 基座模型
《DeepSeek LLM Scaling Open-Source Language Models with Longtermism》技术讲解
21:00
《DeepSeekMoE: Towards Ultimate Expert Specialization in Mixture-of-Experts Language Models》技术讲解
45:48
《DeepSeek-V2: A Strong, Economical, and Efficient Mixture-of-Experts Language Model》技术讲解
1:06:40
《DeepSeek-V3 Technical Report》技术讲解
1:40:17
DeepSeek 推理模型
《DeepSeek-Coder: When the Large Language Model Meets Programming - The Rise of Code Intelligence》技术讲解
2:05:03
《DeepSeek-Coder-V2: Breaking the Barrier of Closed-Source Models in Code Intelligence》技术讲解
2:12:16
《DeepSeek-Prover: Advancing Theorem Proving in LLMs through Large-Scale Synthetic Data》和《DeepSeek-Prover-V1.5: Harnessing Proof Assistant Feedback for Reinforcement Learning and Monte-Carlo Tree Search》技术讲解
2:47:18
《DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning》技术讲解
2:52:40

Transcript

何俊贤: 让我觉得非常的就是尊重他们的工作。其实他们的第一线 paper 放出来,就是他们的第一个成果,就是 DeepSeek 的第一个大模型的 paper,就是 DeepSeek LLM。对今天等会儿我也会讲到那篇 paper。我今天的对他们 paper 的讲解。主要会分为两个方面,一个方面是讲他们的基础模型的发展,然后另外的一个方面。我今天想讲到主要是他们在 reasoning 方面的东西,总结一下做一个概况。就是我觉得,从很早的时候开始,Deepseek 就有这样一种,文化或者追求,就不是纯粹的 fo...
小宇宙
Open in 小宇宙