EP 67. 解析 DeepSeek R1 技术创新与生态影响:强化学习,Long CoT,数据,Agent 与开源生态
OnBoard!
2025/03/03
EP 67. 解析 DeepSeek R1 技术创新与生态影响:强化学习,Long CoT,数据,Agent 与开源生态
EP 67. 解析 DeepSeek R1 技术创新与生态影响:强化学习,Long CoT,数据,Agent 与开源生态

OnBoard!
2025/03/03
本期 OnBoard 节目聚焦于 DeepSeek R1 开源推理模型的发布及其对中国 AI 领域的深远影响。几位来自中美的一线研究者和从业者,深入探讨了 DeepSeek 的技术创新、推理模型的核心挑战以及其对开源大模型生态的影响。通过多角度的分析,节目揭示了技术本质,并展望了未来的发展方向。
节目中详细解析了 DeepSeek R1 的技术核心,包括强化学习的应用及长思维链(Long CoT)的研究进展。嘉宾们讨论了 R1 在数学、代码等推理能力上的表现,并指出低成本训练和完全开源的特点是其亮点。同时,强化学习在模型训练中的作用被深入探讨,尤其是在复杂任务中的应用潜力。此外,开源与闭源模型的差距、数据开源的必要性以及未来模型发展的趋势也成为讨论焦点。嘉宾一致认为,随着技术进步,开源模型将逐渐缩小与闭源模型的差距,并可能推动整个 AI 生态向更开放的方向发展。最后,节目展望了 2025 年的技术趋势,强调了强化学习的重要性以及 AGI 时代人类意义的思考。
00:04
00:04
DeepSeek R1 模型成本低且开源,性能比肩 OpenAI O1
17:37
17:37
单纯使用基于规则的奖励模型可激励模型自我探索生成新内容
22:15
22:15
R1-Zero 通过强化学习直接在基础模型上获得推理能力
32:16
32:16
强化学习在无阻碍情况下可通过尝试实现目标
47:40
47:40
模型涌现能力可能在一定规模和训练后随机出现
48:32
48:32
讨论模型生成特定句子可提高奖励以强化行为
51:33
51:33
通过提升 RL 计算能力可让模型出现涌现行为
57:15
57:15
Agent 场景需实现异步调用或使用 replay buffer 以提升训练效率
59:49
59:49
思维链技巧将模型精度从 85% 提升至 98%
1:06:43
1:06:43
合成数据是低成本且性能好的训练路径
1:13:13
1:13:13
核心是要有经验丰富、懂底层技术的人才组成的团队
1:18:49
1:18:49
基于规则的奖励模型学到的智能可能泛化到其他领域
1:31:08
1:31:08
低成本找到多样且答案可验证的 query 能让训练更便宜、效果更好、泛化性更强
1:44:50
1:44:50
Deepseek V3 通过 infra 优化显著降低训练成本并加速推理
1:48:44
1:48:44
当老师模型与学生模型能力差距大时,蒸馏才更有效
1:53:40
1:53:40
模型蒸馏难以使性能超越被蒸馏模型
2:02:37
2:02:37
开源模型规模和数据不断扩大,闭源模型也可能未来开源
2:04:24
2:04:24
Deepseek R1 可能成为未来开源推理模型的研究方向
2:09:10
2:09:10
大厂跟进速度相近,现阶段算法和基础建设是瓶颈而非算力
2:11:41
2:11:41
开源模型畅销有其特殊性,此前 Llama 第一,现在 Deepseek 领先
2:18:02
2:18:02
开源模型变强后,与闭源模型差距缩小,OpenAI 可能开源早期或小尺寸模型
2:28:05
2:28:05
后训练阶段通过强化学习可在多种环境取得持续突破
2:31:42
2:31:42
Deepseek R1 带来很大震撼,想尝试 AI 辅助创作
2:35:22
2:35:22
推理能力是模型智能重要一环,未来希望模型能为基础学科带来突破
2:42:25
2:42:25
AI 助手让过程不再重要,经历更重要
2:45:33
2:45:33
AGI 实现后不仅是技术问题,更是社会学问题