163: 详解 DeepSeekV4:Infra 巨鲸、百万上下文走进现实、极致效率优化
晚点聊 LateTalk
1 DAYS AGO
163: 详解 DeepSeekV4:Infra 巨鲸、百万上下文走进现实、极致效率优化
163: 详解 DeepSeekV4:Infra 巨鲸、百万上下文走进现实、极致效率优化

晚点聊 LateTalk
1 DAYS AGO
Shownote
Shownote
「走进不同团队的成果,创新从来是连续的,不是跳跃的。」 上周五,DeepSeek V4 发布。我们邀请了两位一线 AI 从业者一起详解 DeepSeek V4 的技术实现和创新想法。 如果一句话概括:DeepSeek V4 并没有带来新的 “范式变化”,它是继续在 R1 的 “测试时扩展” 范式下,用一系列组合创新和工程优化,让百万上下文从理论进入实用。 超长上下文上的稳定表现,正是 Agent 和多步复杂任务亟需的能力之一。 本期访谈之后也会发图文版。本期涉及的诸多技术术语见 Shownotes 末尾注...
Highlights
Highlights
本期节目深入探讨 DeepSeek V4 的技术演进路径,聚焦其如何在不颠覆现有范式的基础上,通过系统性工程创新实现百万级上下文的实用化突破。
Chapters
Chapters
DeepSeek V4 技术突破解析
00:00体感、对比、消失的成本、DeepSeek 的节奏
编程能力与 “御三家” 有差距;不再采用 DeepSeek 自己提出的 MLA
03:01不再披露训练成本,“用模型能力说话”
07:44延期推测:四个耦合的新 feature (新注意力 + Muon + mHC + FP4)一起上,难度爆炸
09:23不是范式创新,沿现有范式仍有巨大提升空间
12:36性能与效率
提出新的能力方向比刷单个 benchmark 重要
14:32坦诚的内部评测:9% DeepSeek 工程师不会把 V4 Pro 作为编程首选
16:41单 token 推理的计算量和 KV cache 大幅优化,但解决同样问题的 token 消耗更多了
23:03V4 具体进展
整体思路:极致的稀疏
28:32混合稀疏注意力:放弃 MLA,SWA 滑动窗口 + CSA 稀疏压缩 + HCA 稠密压缩,层间预定义分工
33:45Muon 优化器已成检验工程能力试金石
39:37mHC:从 Seed 提出 HC 到 mHC;Kimi 的 Attention Residuals
48:52Infra 两个关键词:TileLang & FP4
54:24多专家训练 + 蒸馏的后训练
1:10:11评测危机:benchmark 会过时饱和,evaluation 是永恒追求,agent 评估未共识
1:13:20更多讨论
近期模型共性:架构趋同(MOE + Muon),优化方向驱动(agent、coding)
1:19:25美国追新能力、高定价;中国追性价比、工程极限
1:25:18V4 最有可能被记住的思想:极致压缩 + 低激活比 + 低单 token 成本,成为后续开源模型起点
1:28:00Transcript
Transcript
赵晨阳: 范式变化这个词在 AI 圈子被用的。
刘益枫: 有点叙事过载了 DeepSeek 它放弃了 V3 的 MLA 架构,KIMI 的 K2 系列,然后 JRM 5 系列,依然是采用的 MLA 架构。
赵晨阳: DeltaNet 的这个 Token 浪费,有种拿着高压水枪浇花的美感。
刘益枫: 我们现在不是说是我们能不能做到,而是说我们不知道我们还有哪些需要做的。
程曼祺: 欢迎收听晚点聊,我是曼琪,这是一期非常硬核的节目,我邀请了两位一线 AI 从业者,和我一起详解 Deepseek V4 的技术报告...