scripod.com

163: 详解 DeepSeekV4:Infra 巨鲸、百万上下文走进现实、极致效率优化

晚点聊 LateTalk

Shownote

「走进不同团队的成果,创新从来是连续的,不是跳跃的。」 上周五,DeepSeek V4 发布。我们邀请了两位一线 AI 从业者一起详解 DeepSeek V4 的技术实现和创新想法。 如果一句话概括:DeepSeek V4 并没有带来新的 “范式变化”,它是继续在 R1 的 “测试时扩展” 范式下,用一系列组合创新和工程优化,让百万上下文从理论进入实用。 超长上下文上的稳定表现,正是 Agent 和多步复杂任务亟需的能力之一。 本期访谈之后也会发图文版。本期涉及的诸多技术术语见 Shownotes 末尾注...

Highlights

本期节目深入探讨 DeepSeek V4 的技术演进路径,聚焦其如何在不颠覆现有范式的基础上,通过系统性工程创新实现百万级上下文的实用化突破。
02:04
DeepSeek V4 在发布当天即跑通推理和强化学习链路
05:07
V4 放弃 MLA 架构,转向 Tokenwise 改进与大尺度压缩
07:44
DeepSeek V4 技术报告未明确训练成本,反映公司不再靠成本叙事
11:28
DeepSeek 团队以‘不诱于欲’自勉,体现面对压力时的定力与专注
12:36
V4 这种系统级耦合工程将是未来一两年的主旋律
14:32
一旦新能力被提出,往往在半年至一年内即被快速迭代刷爆
22:39
GPT 5.5 发布后,部分公司高管考虑将部分模型从 Cloud 换成 GPT
26:57
模型推理中 token 浪费与长度增长问题不可逆,训练策略需反思
30:47
Engram 将多个 Token 合并编码后输入对应层,但因能力提升有限且 Infra 挑战大,V4 未采用
37:48
High Spots 卸载策略能将稀疏注意力吞吐量提升 5 倍以上
47:52
Muon 优化是检验团队工程优化上线的试金石,每个专业名词都对应较高复杂度或一篇文章
48:53
mHC 使模型推理能力大幅增长
1:02:23
DeepSeek V4 通过量化感知训练(QAT)双阶段方案解决 FP4 训练中梯度溢出问题
1:10:11
先分裂专家再蒸馏,将复杂联合优化转化为离散点间插值
1:13:20
不能优化无法评测的东西,用 evaluation 而非 benchmark 更合适
1:24:57
‘混运’发布 300B 预览模型,若 3.0 正式版落地微信将重塑格局
1:27:22
当前 AI 竞赛仅中美具备全面参与能力,稀疏化非优先项
1:30:06
Transformer 架构将向提升层间信息流动方向演进,Attention Residuals 是代表性探索

Chapters

DeepSeek V4 技术突破解析
00:00
体感、对比、消失的成本、DeepSeek 的节奏
编程能力与 “御三家” 有差距;不再采用 DeepSeek 自己提出的 MLA
03:01
不再披露训练成本,“用模型能力说话”
07:44
延期推测:四个耦合的新 feature (新注意力 + Muon + mHC + FP4)一起上,难度爆炸
09:23
不是范式创新,沿现有范式仍有巨大提升空间
12:36
性能与效率
提出新的能力方向比刷单个 benchmark 重要
14:32
坦诚的内部评测:9% DeepSeek 工程师不会把 V4 Pro 作为编程首选
16:41
单 token 推理的计算量和 KV cache 大幅优化,但解决同样问题的 token 消耗更多了
23:03
V4 具体进展
整体思路:极致的稀疏
28:32
混合稀疏注意力:放弃 MLA,SWA 滑动窗口 + CSA 稀疏压缩 + HCA 稠密压缩,层间预定义分工
33:45
Muon 优化器已成检验工程能力试金石
39:37
mHC:从 Seed 提出 HC 到 mHC;Kimi 的 Attention Residuals
48:52
Infra 两个关键词:TileLang & FP4
54:24
多专家训练 + 蒸馏的后训练
1:10:11
评测危机:benchmark 会过时饱和,evaluation 是永恒追求,agent 评估未共识
1:13:20
更多讨论
近期模型共性:架构趋同(MOE + Muon),优化方向驱动(agent、coding)
1:19:25
美国追新能力、高定价;中国追性价比、工程极限
1:25:18
V4 最有可能被记住的思想:极致压缩 + 低激活比 + 低单 token 成本,成为后续开源模型起点
1:28:00

Transcript

赵晨阳: 范式变化这个词在 AI 圈子被用的。 刘益枫: 有点叙事过载了 DeepSeek 它放弃了 V3 的 MLA 架构,KIMI 的 K2 系列,然后 JRM 5 系列,依然是采用的 MLA 架构。 赵晨阳: DeltaNet 的这个 Token 浪费,有种拿着高压水枪浇花的美感。 刘益枫: 我们现在不是说是我们能不能做到,而是说我们不知道我们还有哪些需要做的。 程曼祺: 欢迎收听晚点聊,我是曼琪,这是一期非常硬核的节目,我邀请了两位一线 AI 从业者,和我一起详解 Deepseek V4 的技术报告...