Highlights

Transcript

Chapters

Pins

【北雍读书】DeepSeek-R1 推理模型解读（英文）

北雍ECC｜中国视野趣谈世界

2025/03/17

Overview Shownote

Highlights

Transcript

Chapters

Pins

Unprocessed episode, you can be the first!

Shownote

论文链接：https://arxiv.org/pdf/2501.12948 论文发表时间：2025 年 1 月 22 日论文解读 DeepSeek-R1 是 DeepSeek 团队于 2025 年发布的一款通过强化学习（Reinforcement Learning, RL）显著提升推理能力的大型语言模型（LLM）。其核心目标是通过创新的训练方法，突破传统依赖监督微调（SFT）的局限，实现模型在数学、编程、逻辑等复杂任务中的自主推理能力。一、模型架构与训练方法 1. DeepSeek-R1-Zero：纯强化学习的...

Highlights

Chapters

Transcript

Open in 小宇宙