scripod.com

EP 67. 解析DeepSeek R1技术创新与生态影响：强化学习，Long CoT，数据，Agent与开源生态

Overview

Shownote

Highlights

Transcript

Chapters

Pins

EP 67. 解析 DeepSeek R1 技术创新与生态影响：强化学习，Long CoT，数据，Agent 与开源生态

OnBoard!

2025/03/03

EP 67. 解析 DeepSeek R1 技术创新与生态影响：强化学习，Long CoT，数据，Agent 与开源生态

EP 67. 解析 DeepSeek R1 技术创新与生态影响：强化学习，Long CoT，数据，Agent 与开源生态

OnBoard!

OnBoard!

2025/03/03

Overview Shownote Highlights Transcript Chapters Pins

Shownote

2025 年第一期 OnBoard! 让大家久等了！没错，这个话题我们怎么能绕的过去：Deepseek! Deepseek 春节前夕发布的开源推理模型 Deepseek r1，无疑是整个世界最令人关注的新闻，不论你过去是否关注 AI，相信都已经被关于 Deepseek 的各种新闻和解读轰炸了好久。但是 OnBoard! 的硬核讨论，迟来却不过时。 Hello World, who is OnBoard!? Deepseek R1 在数学、代码和各种推理能力比肩市面上最强的 OpenAI o1 正式版模型，...

Highlights

本期 OnBoard 节目聚焦于 DeepSeek R1 开源推理模型的发布及其对中国 AI 领域的深远影响。几位来自中美的一线研究者和从业者，深入探讨了 DeepSeek 的技术创新、推理模型的核心挑战以及其对开源大模型生态的影响。通过多角度的分析，节目揭示了技术本质，并展望了未来的发展方向。

00:04

DeepSeek R1 模型成本低且开源，性能比肩 OpenAI O1

17:37

单纯使用基于规则的奖励模型可激励模型自我探索生成新内容

22:15

R1-Zero 通过强化学习直接在基础模型上获得推理能力

32:16

强化学习在无阻碍情况下可通过尝试实现目标

47:40

模型涌现能力可能在一定规模和训练后随机出现

48:32

讨论模型生成特定句子可提高奖励以强化行为

51:33

通过提升 RL 计算能力可让模型出现涌现行为

57:15

Agent 场景需实现异步调用或使用 replay buffer 以提升训练效率

59:49

思维链技巧将模型精度从 85% 提升至 98%

1:06:43

合成数据是低成本且性能好的训练路径

1:13:13

核心是要有经验丰富、懂底层技术的人才组成的团队

1:18:49

基于规则的奖励模型学到的智能可能泛化到其他领域

1:31:08

低成本找到多样且答案可验证的 query 能让训练更便宜、效果更好、泛化性更强

1:44:50

Deepseek V3 通过 infra 优化显著降低训练成本并加速推理

1:48:44

当老师模型与学生模型能力差距大时，蒸馏才更有效

1:53:40

模型蒸馏难以使性能超越被蒸馏模型

2:02:37

开源模型规模和数据不断扩大，闭源模型也可能未来开源

2:04:24

Deepseek R1 可能成为未来开源推理模型的研究方向

2:09:10

大厂跟进速度相近，现阶段算法和基础建设是瓶颈而非算力

2:11:41

开源模型畅销有其特殊性，此前 Llama 第一，现在 Deepseek 领先

2:18:02

开源模型变强后，与闭源模型差距缩小，OpenAI 可能开源早期或小尺寸模型

2:28:05

后训练阶段通过强化学习可在多种环境取得持续突破

2:31:42

Deepseek R1 带来很大震撼，想尝试 AI 辅助创作

2:35:22

推理能力是模型智能重要一环，未来希望模型能为基础学科带来突破

2:42:25

AI 助手让过程不再重要，经历更重要

2:45:33

AGI 实现后不仅是技术问题，更是社会学问题

Chapters

探讨 DeepSeek R1 模型及其影响

00:00

解析 DeepSeek R1 技术核心

几位嘉宾自我介绍，fun fact: DeepSeek R1 让你惊艳的使用场景是什么？好的文笔是背诵还是理解？

03:34

如果用 RL 生产数据越来越重要，还需要人类标注数据吗？

17:53

DeepSeek R1-Zero 为什么值得关注？跟 R1 是什么关系？TinyZero 复现 R1 的过程中有什么启发？

23:52

为什么看似简单的 Long CoT 的做法，一直到现在才被广泛用起来？Long CoT 的研究沿革和进展是怎样的？

35:11

推理模型的 Aha Moment 是什么？跟模型的 “涌现能力” 有什么关系？

48:29

澄清一下！正确理解 “成本 30 美金”！

51:13

Long CoT 的实现有什么难点？DeepSeek 做了哪些值得关注的创新？

52:36

做 Coding agent 的经验: 模型 coding 能力能泛化到更广泛的 Agent 能力吗？

58:33

SFT 在 R1 训练中的作用？RL 生成数据成本会比人工标注低吗？

1:02:32

Scale up RL 的难点是什么？为什么说这是 DeepSeek infra 能力中容易被忽视的点

1:11:46

开源社区的 infra 限制，会对复现后续研究 RL 和推理模型相关工作有什么影响？

1:14:08

为什么说 Rewards and Simulators are all you need: 还有哪些挑战？

1:19:57

MoE vs Dense model 的选择: 业界已经是共识了吗？

1:34:34

DeepSeek 蒸馏 OpenAI 的数据了吗？

1:47:29

OpenAI o3 思维链中出现了中文应该如何理解？

1:52:14

大模型开源生态会发生什么变化

开源大模型需要将数据开源吗？

1:55:52

开源和闭源模型的差距会一直存在吗？这个差距对于使用者和模型公司意味着什么？

2:03:01

未来开源推理模型都会向 DeepSeek R1 的路线上收敛吗？对开源生态会有怎样的影响？

2:07:44

从 DeepSeek V3 到 R1, 有了基座模型训练推理模型，只需要几周的时间吗？

2:11:36

开发者选择开源还是闭源模型，有怎样的考量？今年开源大模型生态有哪些变化值得期待？

2:12:59

如何理解: Agentic workflow 只有短期价值，长期会被模型能力取代？Agent 公司的核心能力是什么？

2:22:13

未来展望与宏观思考

2025 年，几位嘉宾的工作重点是什么？

2:29:30

AI 领域有什么过热的以及还没有被充分讨论的话题？

2:35:22

过去半年有什么观点的变化？

2:40:36

AI 超越大部分人类智能的时候，你的生存意义是什么？

2:44:08

Transcript

Monica Xie: 真实的一线经验，走心的投资思考，我是 Monica。 Tiezhen Wang: 我是 GN, 我们一起聊聊软件如何改变世界。 Monica Xie: 大家好，欢迎来到 Onboard, 我是 Monica，2025 年春节后的第一期 Onboard 让大家久等了。没错，今天这个话题我们怎么能绕得过去？当然就是 DeepSeek，DeepSeek 春节前夕发布的开源推理模型 DeepSeek R1 无疑是整个世界最令人关注的新闻。不论你过去是否关注 AI，相信你都已经被关于 Deep...

小宇宙

Open in 小宇宙