163: 详解 DeepSeekV4:Infra 巨鲸、百万上下文走进现实、极致效率优化
晚点聊 LateTalk
1 DAYS AGO
163: 详解 DeepSeekV4:Infra 巨鲸、百万上下文走进现实、极致效率优化
163: 详解 DeepSeekV4:Infra 巨鲸、百万上下文走进现实、极致效率优化

晚点聊 LateTalk
1 DAYS AGO
本期节目深入探讨 DeepSeek V4 的技术演进路径,聚焦其如何在不颠覆现有范式的基础上,通过系统性工程创新实现百万级上下文的实用化突破。
DeepSeek V4 并非范式革命,而是沿 R1 确立的测试时扩展路线,以 “极致稀疏” 为核心思想,在注意力机制、优化器、残差结构与基础设施四方面协同突破:放弃 MLA,采用 SWA + CSA + HCA 混合稀疏注意力;引入 mHC 流形约束超连接提升训练稳定性;全面应用 Muon 优化器并推动其工程标准化;落地 TileLang 编译框架与 FP4 低精度训练。模型达 1.6T 参数、仅约 3% 激活,单 token 计算量与 KV cache 大幅降低,但长上下文与 Agent 任务中优势显著。评测显示其编程能力接近但未超越国际头部模型,内部亦有 9% 工程师不首选 V4 Pro。嘉宾强调,当前关键不在刷榜,而在定义新能力(如真实代码交付、自主 Agent 行为)及构建可信评估体系 ——benchmark 终将饱和,而 evaluation 是永恒追求。
02:04
02:04
DeepSeek V4 在发布当天即跑通推理和强化学习链路
05:07
05:07
V4 放弃 MLA 架构,转向 Tokenwise 改进与大尺度压缩
07:44
07:44
DeepSeek V4 技术报告未明确训练成本,反映公司不再靠成本叙事
11:28
11:28
DeepSeek 团队以‘不诱于欲’自勉,体现面对压力时的定力与专注
12:36
12:36
V4 这种系统级耦合工程将是未来一两年的主旋律
14:32
14:32
一旦新能力被提出,往往在半年至一年内即被快速迭代刷爆
22:39
22:39
GPT 5.5 发布后,部分公司高管考虑将部分模型从 Cloud 换成 GPT
26:57
26:57
模型推理中 token 浪费与长度增长问题不可逆,训练策略需反思
30:47
30:47
Engram 将多个 Token 合并编码后输入对应层,但因能力提升有限且 Infra 挑战大,V4 未采用
37:48
37:48
High Spots 卸载策略能将稀疏注意力吞吐量提升 5 倍以上
47:52
47:52
Muon 优化是检验团队工程优化上线的试金石,每个专业名词都对应较高复杂度或一篇文章
48:53
48:53
mHC 使模型推理能力大幅增长
1:02:23
1:02:23
DeepSeek V4 通过量化感知训练(QAT)双阶段方案解决 FP4 训练中梯度溢出问题
1:10:11
1:10:11
先分裂专家再蒸馏,将复杂联合优化转化为离散点间插值
1:13:20
1:13:20
不能优化无法评测的东西,用 evaluation 而非 benchmark 更合适
1:24:57
1:24:57
‘混运’发布 300B 预览模型,若 3.0 正式版落地微信将重塑格局
1:27:22
1:27:22
当前 AI 竞赛仅中美具备全面参与能力,稀疏化非优先项
1:30:06
1:30:06
Transformer 架构将向提升层间信息流动方向演进,Attention Residuals 是代表性探索