119. Kimi Linear、Minimax M2?和杨松琳考古算法变种史,并预演未来架构改进方案
张小珺Jùn|商业访谈录
2025/11/03
119. Kimi Linear、Minimax M2?和杨松琳考古算法变种史,并预演未来架构改进方案
119. Kimi Linear、Minimax M2?和杨松琳考古算法变种史,并预演未来架构改进方案

张小珺Jùn|商业访谈录
2025/11/03
在当前人工智能发展的关键阶段,算法创新正成为突破性能瓶颈的核心驱动力。随着数据红利见顶与算力资源受限,模型架构的精细化设计日益重要。本期节目邀请 MIT 博士杨松琳深入探讨注意力机制的前沿演进,聚焦中国在高效架构探索中的独特路径与技术抉择。
面对上下文长度扩展与推理效率挑战,线性注意力和稀疏注意力成为优化方向。Kimi 通过 KDA 模块实现表达力与效率平衡,采用每三层线性层插入一层全局注意力的 3:1 混合结构,提升长文本生成效率。DeepSeek 则选择稀疏注意力路径,依赖精准 token 选择降低计算开销。Minimax 从 M1 的线性架构退回 M2 的全注意力,凸显多跳推理能力的权衡难题。嘉宾指出,未来理想架构或在于将稀疏注意力替代全局层,并结合硬件亲和设计提升可扩展性。当前中国因算力限制反而在算法创新上走在前列,尤其在线性注意力与混合架构的工程落地方面表现突出。
00:03
00:03
关注线性注意力是因为遇到了 Context Wall,想干掉全局注意力
06:05
06:05
将门控机制与 Delta Rule 结合,形成统一的线性注意力更新规则
07:06
07:06
线性注意力可写成类似 RNN 的推理形式,每一步成本为 O (1)
11:23
11:23
张宇作为 FLA 作者加入 Kimi 团队参与算法设计
14:03
14:03
魔改核心目标是在不损失性能的前提下大幅提升 Inference 速度
16:29
16:29
KDA 使每个维度拥有独立更新频率,提升性能
19:45
19:45
将 decay 换成更细粒度后,性能提升较大
22:09
22:09
混合注意力通过类似 RNN 的层减少 KV Cache,提升解码效率
23:04
23:04
M1 因未检测多跳推理能力导致性能下降,暴露验证盲区
31:49
31:49
Delta Rule 通过减法操作实现对记忆内容的精准删除
38:17
38:17
Kimi 论文提出每三层 KDA 插入一层全注意力机制
40:38
40:38
3:1 的比例在混合注意力机制中实现了表达能力与计算效率的平衡
46:01
46:01
混合线性注意力只是开始,有望构建更优的混合注意力机制
46:28
46:28
受 Comba 文章启发,改进 GDN 求逆算法并推导出适用于 KDA 的版本
52:51
52:51
DeepSeek 通过蒸馏优化 Sparse Attention 的 indexer,显著提升 token 选择准确性。
55:39
55:39
state size 相近时,解码效率相近
57:13
57:13
MoE 可在不增加 FLOPs 的情况下扩大模型参数量并降低训练损失
1:00:20
1:00:20
Attention 类似工作记忆,FFN 类似海马体存储知识
1:02:52
1:02:52
应解决全局注意力瓶颈以有效扩展上下文窗口
1:06:27
1:06:27
做模型的厂商开源成果,能促使推理引擎开发者支持,完善生态形成正向循环
1:10:58
1:10:58
Kimi 全用 NoPE,Qwen3-Next 部分使用 RoPE,混合注意力趋势显示减少 RoPE 依赖
1:14:57
1:14:57
数据少时不应优先考虑调架构,而应先解决数据问题
1:22:41
1:22:41
线性注意力将平方运算转化为线性,核心是精巧的矩阵变换
1:23:15
1:23:15
用 Kernel method 估计 softmax attention 是错误方向
1:40:28
1:40:28
DeepSeek 的 Sparse Attention 使用 FP8 计算 Attention Score,去除昂贵指数操作,显著提升计算效率