scripod.com

163: 详解DeepSeekV4：Infra巨鲸、百万上下文走进现实、极致效率优化

Overview

Shownote

Highlights

Transcript

Chapters

Pins

163: 详解 DeepSeekV4：Infra 巨鲸、百万上下文走进现实、极致效率优化

晚点聊 LateTalk

1 DAYS AGO

163: 详解 DeepSeekV4：Infra 巨鲸、百万上下文走进现实、极致效率优化

163: 详解 DeepSeekV4：Infra 巨鲸、百万上下文走进现实、极致效率优化

晚点聊 LateTalk

晚点聊 LateTalk

1 DAYS AGO

Overview Shownote Highlights Transcript Chapters Pins

本期节目深入探讨 DeepSeek V4 的技术演进路径，聚焦其如何在不颠覆现有范式的基础上，通过系统性工程创新实现百万级上下文的实用化突破。

DeepSeek V4 并非范式革命，而是沿 R1 确立的测试时扩展路线，以 “极致稀疏” 为核心思想，在注意力机制、优化器、残差结构与基础设施四方面协同突破：放弃 MLA，采用 SWA + CSA + HCA 混合稀疏注意力；引入 mHC 流形约束超连接提升训练稳定性；全面应用 Muon 优化器并推动其工程标准化；落地 TileLang 编译框架与 FP4 低精度训练。模型达 1.6T 参数、仅约 3% 激活，单 token 计算量与 KV cache 大幅降低，但长上下文与 Agent 任务中优势显著。评测显示其编程能力接近但未超越国际头部模型，内部亦有 9% 工程师不首选 V4 Pro。嘉宾强调，当前关键不在刷榜，而在定义新能力（如真实代码交付、自主 Agent 行为）及构建可信评估体系 ——benchmark 终将饱和，而 evaluation 是永恒追求。

02:04

02:04

DeepSeek V4 在发布当天即跑通推理和强化学习链路

05:07

05:07

V4 放弃 MLA 架构，转向 Tokenwise 改进与大尺度压缩

07:44

07:44

DeepSeek V4 技术报告未明确训练成本，反映公司不再靠成本叙事

11:28

11:28

DeepSeek 团队以‘不诱于欲’自勉，体现面对压力时的定力与专注

12:36

12:36

V4 这种系统级耦合工程将是未来一两年的主旋律

14:32

14:32

一旦新能力被提出，往往在半年至一年内即被快速迭代刷爆

22:39

22:39

GPT 5.5 发布后，部分公司高管考虑将部分模型从 Cloud 换成 GPT

26:57

26:57

模型推理中 token 浪费与长度增长问题不可逆，训练策略需反思

30:47

30:47

Engram 将多个 Token 合并编码后输入对应层，但因能力提升有限且 Infra 挑战大，V4 未采用

37:48

37:48

High Spots 卸载策略能将稀疏注意力吞吐量提升 5 倍以上

47:52

47:52

Muon 优化是检验团队工程优化上线的试金石，每个专业名词都对应较高复杂度或一篇文章

48:53

48:53

mHC 使模型推理能力大幅增长

1:02:23

1:02:23

DeepSeek V4 通过量化感知训练（QAT）双阶段方案解决 FP4 训练中梯度溢出问题

1:10:11

1:10:11

先分裂专家再蒸馏，将复杂联合优化转化为离散点间插值

1:13:20

1:13:20

不能优化无法评测的东西，用 evaluation 而非 benchmark 更合适

1:24:57

1:24:57

‘混运’发布 300B 预览模型，若 3.0 正式版落地微信将重塑格局

1:27:22

1:27:22

当前 AI 竞赛仅中美具备全面参与能力，稀疏化非优先项

1:30:06

1:30:06

Transformer 架构将向提升层间信息流动方向演进，Attention Residuals 是代表性探索