scripod.com

163: 详解DeepSeekV4：Infra巨鲸、百万上下文走进现实、极致效率优化

Overview

Shownote

Highlights

Transcript

Chapters

Pins

163: 详解 DeepSeekV4：Infra 巨鲸、百万上下文走进现实、极致效率优化

晚点聊 LateTalk

1 DAYS AGO

163: 详解 DeepSeekV4：Infra 巨鲸、百万上下文走进现实、极致效率优化

163: 详解 DeepSeekV4：Infra 巨鲸、百万上下文走进现实、极致效率优化

晚点聊 LateTalk

晚点聊 LateTalk

1 DAYS AGO

Overview Shownote Highlights Transcript Chapters Pins

Shownote

「走进不同团队的成果，创新从来是连续的，不是跳跃的。」上周五，DeepSeek V4 发布。我们邀请了两位一线 AI 从业者一起详解 DeepSeek V4 的技术实现和创新想法。如果一句话概括：DeepSeek V4 并没有带来新的 “范式变化”，它是继续在 R1 的 “测试时扩展” 范式下，用一系列组合创新和工程优化，让百万上下文从理论进入实用。超长上下文上的稳定表现，正是 Agent 和多步复杂任务亟需的能力之一。本期访谈之后也会发图文版。本期涉及的诸多技术术语见 Shownotes 末尾注...

Highlights

本期节目深入探讨 DeepSeek V4 的技术演进路径，聚焦其如何在不颠覆现有范式的基础上，通过系统性工程创新实现百万级上下文的实用化突破。

02:04

DeepSeek V4 在发布当天即跑通推理和强化学习链路

05:07

V4 放弃 MLA 架构，转向 Tokenwise 改进与大尺度压缩

07:44

DeepSeek V4 技术报告未明确训练成本，反映公司不再靠成本叙事

11:28

DeepSeek 团队以‘不诱于欲’自勉，体现面对压力时的定力与专注

12:36

V4 这种系统级耦合工程将是未来一两年的主旋律

14:32

一旦新能力被提出，往往在半年至一年内即被快速迭代刷爆

22:39

GPT 5.5 发布后，部分公司高管考虑将部分模型从 Cloud 换成 GPT

26:57

模型推理中 token 浪费与长度增长问题不可逆，训练策略需反思

30:47

Engram 将多个 Token 合并编码后输入对应层，但因能力提升有限且 Infra 挑战大，V4 未采用

37:48

High Spots 卸载策略能将稀疏注意力吞吐量提升 5 倍以上

47:52

Muon 优化是检验团队工程优化上线的试金石，每个专业名词都对应较高复杂度或一篇文章

48:53

mHC 使模型推理能力大幅增长

1:02:23

DeepSeek V4 通过量化感知训练（QAT）双阶段方案解决 FP4 训练中梯度溢出问题

1:10:11

先分裂专家再蒸馏，将复杂联合优化转化为离散点间插值

1:13:20

不能优化无法评测的东西，用 evaluation 而非 benchmark 更合适

1:24:57

‘混运’发布 300B 预览模型，若 3.0 正式版落地微信将重塑格局

1:27:22

当前 AI 竞赛仅中美具备全面参与能力，稀疏化非优先项

1:30:06

Transformer 架构将向提升层间信息流动方向演进，Attention Residuals 是代表性探索

Chapters

DeepSeek V4 技术突破解析

00:00

体感、对比、消失的成本、DeepSeek 的节奏

编程能力与 “御三家” 有差距；不再采用 DeepSeek 自己提出的 MLA

03:01

不再披露训练成本，“用模型能力说话”

07:44

延期推测：四个耦合的新 feature （新注意力 + Muon + mHC + FP4）一起上，难度爆炸

09:23

不是范式创新，沿现有范式仍有巨大提升空间

12:36

性能与效率

提出新的能力方向比刷单个 benchmark 重要

14:32

坦诚的内部评测：9% DeepSeek 工程师不会把 V4 Pro 作为编程首选

16:41

单 token 推理的计算量和 KV cache 大幅优化，但解决同样问题的 token 消耗更多了

23:03

V4 具体进展

整体思路：极致的稀疏

28:32

混合稀疏注意力：放弃 MLA，SWA 滑动窗口 + CSA 稀疏压缩 + HCA 稠密压缩，层间预定义分工

33:45

Muon 优化器已成检验工程能力试金石

39:37

mHC：从 Seed 提出 HC 到 mHC；Kimi 的 Attention Residuals

48:52

Infra 两个关键词：TileLang & FP4

54:24

多专家训练 + 蒸馏的后训练

1:10:11

评测危机：benchmark 会过时饱和，evaluation 是永恒追求，agent 评估未共识

1:13:20

更多讨论

近期模型共性：架构趋同（MOE + Muon），优化方向驱动（agent、coding）

1:19:25

美国追新能力、高定价；中国追性价比、工程极限

1:25:18

V4 最有可能被记住的思想：极致压缩 + 低激活比 + 低单 token 成本，成为后续开源模型起点

1:28:00

Transcript

赵晨阳: 范式变化这个词在 AI 圈子被用的。刘益枫: 有点叙事过载了 DeepSeek 它放弃了 V3 的 MLA 架构，KIMI 的 K2 系列，然后 JRM 5 系列，依然是采用的 MLA 架构。赵晨阳: DeltaNet 的这个 Token 浪费，有种拿着高压水枪浇花的美感。刘益枫: 我们现在不是说是我们能不能做到，而是说我们不知道我们还有哪些需要做的。程曼祺: 欢迎收听晚点聊，我是曼琪，这是一期非常硬核的节目，我邀请了两位一线 AI 从业者，和我一起详解 Deepseek V4 的技术报告...