91. 逐篇讲解 DeepSeek 关键 9 篇论文及创新点 ——“勇敢者的游戏”

张小珺Jùn｜商业访谈录

2025/02/11

Overview Shownote Highlights Transcript Chapters Pins

本期节目聚焦于 DeepSeek 在大模型推理领域的技术创新与复现工作，通过解读其 9 篇关键论文，从技术底层视角剖析 DeepSeek 的研究路径。嘉宾何俊贤教授将带领听众深入理解 DeepSeek 的技术发展脉络及其对 AI 行业的贡献。

DeepSeek 以开放透明和严谨科学的态度，在大模型领域展现了独特价值。其首个工作优化了 Lama 2 的数据准备流程，并深入研究了 Scaling Law 和 Scanning Law，强调数据质量的重要性。DeepSeek MOE 采用混合专家模型降低训练和推理成本，同时通过增加专家数量提升性能。DeepSeek V2 和 V3 进一步优化了效率，引入低秩映射、Loss Free Balancing 等技术，显著降低了部署和训练成本。此外，DeepSeek Coder 系列专注于代码智能，提升了程序员的工作效率，而 DeepSeek Prover 则探索了定理证明和强化学习的应用。最后，DeepSeek-R1 通过简单规则实现显著效果，推动了强化学习在大模型中的应用，展示了技术之美与创新潜力。