scripod.com

119. Kimi Linear、Minimax M2?和杨松琳考古算法变种史,并预演未来架构改进方案

Shownote

今天这集节目,我们将讨论一个在当下非常关键的话题:人工智能的算法与架构创新。 嘉宾是我们的往期嘉宾返场,她是 MIT 在读博士杨松琳,研究方向是线性注意力机制。 我们将从最新发布的几个模型 Kimi Linear、Minimax M2、Qwen3-Next 切入。松琳参与讨论 Kimi Linear 和 Qwen3-Next 的部分工作,是 Kimi Linear 论文的作者之一。 算法创新为什么在 2025 年变得尤为重要? 它的背后原因是,数据、算力和算法是驱动人工智能的三驾火车,在数据撞墙的无奈前提下,各个模型公司不...

Highlights

在当前人工智能发展的关键阶段,算法创新正成为突破性能瓶颈的核心驱动力。随着数据红利见顶与算力资源受限,模型架构的精细化设计日益重要。本期节目邀请 MIT 博士杨松琳深入探讨注意力机制的前沿演进,聚焦中国在高效架构探索中的独特路径与技术抉择。
00:03
关注线性注意力是因为遇到了 Context Wall,想干掉全局注意力
06:05
将门控机制与 Delta Rule 结合,形成统一的线性注意力更新规则
07:06
线性注意力可写成类似 RNN 的推理形式,每一步成本为 O (1)
11:23
张宇作为 FLA 作者加入 Kimi 团队参与算法设计
14:03
魔改核心目标是在不损失性能的前提下大幅提升 Inference 速度
16:29
KDA 使每个维度拥有独立更新频率,提升性能
19:45
将 decay 换成更细粒度后,性能提升较大
22:09
混合注意力通过类似 RNN 的层减少 KV Cache,提升解码效率
23:04
M1 因未检测多跳推理能力导致性能下降,暴露验证盲区
31:49
Delta Rule 通过减法操作实现对记忆内容的精准删除
38:17
Kimi 论文提出每三层 KDA 插入一层全注意力机制
40:38
3:1 的比例在混合注意力机制中实现了表达能力与计算效率的平衡
46:01
混合线性注意力只是开始,有望构建更优的混合注意力机制
46:28
受 Comba 文章启发,改进 GDN 求逆算法并推导出适用于 KDA 的版本
52:51
DeepSeek 通过蒸馏优化 Sparse Attention 的 indexer,显著提升 token 选择准确性。
55:39
state size 相近时,解码效率相近
57:13
MoE 可在不增加 FLOPs 的情况下扩大模型参数量并降低训练损失
1:00:20
Attention 类似工作记忆,FFN 类似海马体存储知识
1:02:52
应解决全局注意力瓶颈以有效扩展上下文窗口
1:06:27
做模型的厂商开源成果,能促使推理引擎开发者支持,完善生态形成正向循环
1:10:58
Kimi 全用 NoPE,Qwen3-Next 部分使用 RoPE,混合注意力趋势显示减少 RoPE 依赖
1:14:57
数据少时不应优先考虑调架构,而应先解决数据问题
1:22:41
线性注意力将平方运算转化为线性,核心是精巧的矩阵变换
1:23:15
用 Kernel method 估计 softmax attention 是错误方向
1:40:28
DeepSeek 的 Sparse Attention 使用 FP8 计算 Attention Score,去除昂贵指数操作,显著提升计算效率

Chapters

中国 AI 算法的前沿突破
00:00
个人、研究主线与线性注意力机制的探索之路
04:00
松琳做过一个开源库:flash-linear-attention(简称 FLA)
06:27
怎么通俗理解 Linear Attention 的 Linear?
07:04
聊聊最近参与的新工作,前几天刚发布的《Kimi Linear: An Expressive, Efficient Attention Architecture》(Kimi Linear:一种具有强表达能力与高效率的注意力架构)
11:19
为什么 Kimi 在年初开始需要重新设计注意力机制?设计的背景和目标
12:20
《Kimi Linear》论文重点讲解:KDA 模块
14:39
Kimi 内部有一个 Scaling Ladder(规模阶梯)
18:56
Kimi Linear Attention vs DeepSeek Sparse Attention
20:20
Minimax 从 M1 到 M2 的架构变化,从 Linear Attention 退回到 Full Attention
23:01
硅谷的注意力机制方案不方便说,但可以浅聊一下 OpenAI 有 paper 的方案
27:00
Linear Attention 从 2020 年发明出来开始后的前进线索
28:05
纯 Linear Attention 是无效的,混合注意力机制还是有很多全局注意力层
38:16
Kimi Linear 每 3 层 KDA 插入 1 层全注意力层,三比一的比例快变成共识了
40:30
权衡(Trade-off)表达能力(expressivity)与计算效率(efficiency)
42:32
chunkwise algorithm for parallelization(分块并行算法)
46:28
如何设计 Attention?两条主流和一些非主流路线
47:55
结合 Linear Attention 和 Sparse Attention 的未来理想方案
49:36
公平的比较:Linear Attention vs Sliding-Window Attention(滑窗注意力)
55:36
Transformer → MoE → Linear / Sparse Attention 的算法演变,背后动因是给定你相同的 FLOPs(浮点运算量),利用这些 FLOPs,取得更低的损失函数
57:05
近几年架构方面突破最大的是 MoE,下一个突破可能是 Attention
58:26
数据、算法、算力是驱动人工智能的三驾马车,当数据遇到数据强,算法创新变得更重要
1:01:28
架构的未来:1、能不能干掉全局注意力?2、Continue Learning,让 AI 自己学习
1:02:48
如何把 Linear Attention 的 Transformer 继续 scale up?
1:04:30
中国 AI 的算法创新相比海外肯定是更强的
1:07:43
其他训练细节:NoPE vs. RoPE
1:10:56
DeepSeek-OCR
1:12:09
松琳也参与了 Qwen3-Next,没有参与 Minimax M2
1:12:55
“雕” 架构的人
1:13:39
自己的心路:“当你很清楚你要做什么的时候,你是不会遇到什么挫折的”
1:15:16
说到考古,我们在最后聊聊从 Transformer 开始的算法变种历史
1:23:12
Delta Rule 算法、硬件亲和、DeepSeek 非常追求硬件和算法的匹配
1:29:50
给更年轻的年轻人的建议
1:42:23

Transcript

杨松琳: 我觉得国内算法创新肯定是更强的。线性注意力的模块,他们最后选到的是一个叫做 KDA 的这个模块。Kimi Delta Attention 这个名字感觉挺有梗的,他们应该是想对标 Deep,Seek,Sparse Attention。然后我就特意取了一个 KIMI 开头的一个名字,然后非常的对撞。我觉得每一次大家关心 Linear Attention,那肯定是因为大家碰到了一些 Context Wall。我觉得我还是挺喜欢看最早的那些 paper,我觉得那些 paper 写的都挺好的。我管这个叫做考...
小宇宙
Open in 小宇宙