scripod.com

EP 67. 解析DeepSeek R1技术创新与生态影响：强化学习，Long CoT，数据，Agent与开源生态

Overview

Shownote

Highlights

Transcript

Chapters

Pins

EP 67. 解析 DeepSeek R1 技术创新与生态影响：强化学习，Long CoT，数据，Agent 与开源生态

OnBoard!

2025/03/03

EP 67. 解析 DeepSeek R1 技术创新与生态影响：强化学习，Long CoT，数据，Agent 与开源生态

EP 67. 解析 DeepSeek R1 技术创新与生态影响：强化学习，Long CoT，数据，Agent 与开源生态

OnBoard!

OnBoard!

2025/03/03

Overview Shownote Highlights Transcript Chapters Pins

本期 OnBoard 节目聚焦于 DeepSeek R1 开源推理模型的发布及其对中国 AI 领域的深远影响。几位来自中美的一线研究者和从业者，深入探讨了 DeepSeek 的技术创新、推理模型的核心挑战以及其对开源大模型生态的影响。通过多角度的分析，节目揭示了技术本质，并展望了未来的发展方向。

节目中详细解析了 DeepSeek R1 的技术核心，包括强化学习的应用及长思维链（Long CoT）的研究进展。嘉宾们讨论了 R1 在数学、代码等推理能力上的表现，并指出低成本训练和完全开源的特点是其亮点。同时，强化学习在模型训练中的作用被深入探讨，尤其是在复杂任务中的应用潜力。此外，开源与闭源模型的差距、数据开源的必要性以及未来模型发展的趋势也成为讨论焦点。嘉宾一致认为，随着技术进步，开源模型将逐渐缩小与闭源模型的差距，并可能推动整个 AI 生态向更开放的方向发展。最后，节目展望了 2025 年的技术趋势，强调了强化学习的重要性以及 AGI 时代人类意义的思考。

00:04

00:04

DeepSeek R1 模型成本低且开源，性能比肩 OpenAI O1

17:37

17:37

单纯使用基于规则的奖励模型可激励模型自我探索生成新内容

22:15

22:15

R1-Zero 通过强化学习直接在基础模型上获得推理能力

32:16

32:16

强化学习在无阻碍情况下可通过尝试实现目标

47:40

47:40

模型涌现能力可能在一定规模和训练后随机出现

48:32

48:32

讨论模型生成特定句子可提高奖励以强化行为

51:33

51:33

通过提升 RL 计算能力可让模型出现涌现行为

57:15

57:15

Agent 场景需实现异步调用或使用 replay buffer 以提升训练效率

59:49

59:49

思维链技巧将模型精度从 85% 提升至 98%

1:06:43

1:06:43

合成数据是低成本且性能好的训练路径

1:13:13

1:13:13

核心是要有经验丰富、懂底层技术的人才组成的团队

1:18:49

1:18:49

基于规则的奖励模型学到的智能可能泛化到其他领域

1:31:08

1:31:08

低成本找到多样且答案可验证的 query 能让训练更便宜、效果更好、泛化性更强

1:44:50

1:44:50

Deepseek V3 通过 infra 优化显著降低训练成本并加速推理

1:48:44

1:48:44

当老师模型与学生模型能力差距大时，蒸馏才更有效

1:53:40

1:53:40

模型蒸馏难以使性能超越被蒸馏模型

2:02:37

2:02:37

开源模型规模和数据不断扩大，闭源模型也可能未来开源

2:04:24

2:04:24

Deepseek R1 可能成为未来开源推理模型的研究方向

2:09:10

2:09:10

大厂跟进速度相近，现阶段算法和基础建设是瓶颈而非算力

2:11:41

2:11:41

开源模型畅销有其特殊性，此前 Llama 第一，现在 Deepseek 领先

2:18:02

2:18:02

开源模型变强后，与闭源模型差距缩小，OpenAI 可能开源早期或小尺寸模型

2:28:05

2:28:05

后训练阶段通过强化学习可在多种环境取得持续突破

2:31:42

2:31:42

Deepseek R1 带来很大震撼，想尝试 AI 辅助创作

2:35:22

2:35:22

推理能力是模型智能重要一环，未来希望模型能为基础学科带来突破

2:42:25

2:42:25

AI 助手让过程不再重要，经历更重要

2:45:33

2:45:33

AGI 实现后不仅是技术问题，更是社会学问题