scripod.com

143: 阿里、Kimi都在用的DeltaNet是什么？|与杨松琳聊线性注意力新改进

Overview

Shownote

Highlights

Transcript

Chapters

Pins

143: 阿里、Kimi 都在用的 DeltaNet 是什么？|与杨松琳聊线性注意力新改进

晚点聊 LateTalk

2025/11/30

143: 阿里、Kimi 都在用的 DeltaNet 是什么？|与杨松琳聊线性注意力新改进

143: 阿里、Kimi 都在用的 DeltaNet 是什么？|与杨松琳聊线性注意力新改进

晚点聊 LateTalk

晚点聊 LateTalk

2025/11/30

Overview Shownote Highlights Transcript Chapters Pins

Shownote

「不仅是提效，线性注意力在数据受限情况下的更多潜力。」今年初的两期节目（103、104 期）里也讨论过注意力机制，这是大语言模型的核心机制。 9 月和 10 月，阿里和 Kimi 都发布了相关进展，而且都用到了一个线性注意力成果，DeltaNet。本期嘉宾，就是 DeltaNet 的核心贡献者之一，现在在 MIT 读博士的杨松琳，她也是线性注意力开源小组 FLA 的发起者。这期节目在 25 分钟以前很硬核，松琳讲了线性注意力和 DeltaNet 的发展脉络，为何 21 年刚被提出时没引起太多...

Highlights

本期节目深入探讨了线性注意力机制的技术演进，聚焦其在大模型效率与能力平衡中的关键作用。嘉宾杨松琳作为 DeltaNet 的核心贡献者，系统梳理了该技术从学术提出到产业落地的转变过程。

02:07

注意力机制通过平方关系计算词间相关性，是处理上下文信息的基础方法

05:45

DeltaNet 通过 Delta Rule 机制增强模型的 In-context Retrieval 能力

12:32

Gated DeltaNet 引入衰减机制防止记忆‘爆棚’

14:30

KDA 将衰减机制细化到每个维度，实现独立遗忘率以增强长序列记忆能力

17:01

更改更新规则是在算子层面动刀，可搭配不同网络架构

22:53

Linear Transformers Are Secretly Fast Weight Programmers 是与 Tri Dao 合作的重要成果

31:11

多跳推理是 agentic AI 的关键能力，混合注意力在此类任务上准确率明显下降。

38:27

混合线性注意力可将 KV Cache 大小减少四分之三

41:15

若有无限数据和算力，会选用 Full Attention 架构

42:32

线性注意力可减少对长思维链的依赖，提升状态追踪效果

48:42

可扩展性要求算法在效率和性能上均能随规模增长而持续有效。

50:55

发言者未宣称发明 DeltaNet，仅改进其可扩展训练方法

57:21

若按传统方式先教行列式，可能就不会对线性代数产生兴趣

58:48

WY 算法将 Householder 累乘转化为累加，使 DeltaNet 可并行化

1:02:49

AI 可能通过强化学习自主解决并行 DeltaNet 目标

1:10:44

Kimi 的 Gated Delta 与 DeepSeek 的 NSA / DSA 形成技术对标

1:15:23

稀疏注意力推理效率高于全注意力，但面临 KV cache 存储负担问题

1:19:14

混合 DSA 与 KDA 可降低 Kimi cache 大小并提升推理速度

1:23:54

快速权重编程可将每个 token 作为训练样本，通过梯度下降实时更新权重矩阵

Chapters

聚焦线性注意力技术发展

00:00

DeltaNet 的诞生演进与近期动向

注意力机制是什么？

02:07

DeltaNet 的提出，用 Delta Rule 来增强 in-context retrieval

04:21

近年的改进主要是模型架构，而非 “更新规则”

09:41

阿里 Qwen 团队 apple to apple 比较几种线性注意力混合方式；Kimi Linear 对 Gated Delta 的具体改进

14:25

更新规则和模型架构改进的区别：更新规则是在算子层面 “动刀”

17:00

算法出身，自学 Infra；学习 Hazy Research Group 的风格

19:50

Qwen 和 Kimi 大概率在下一代旗舰模型用线性注意力，而 MiniMax 用回 full attention；DeepSeek 目前释放的改进都是 “稀疏注意力”

23:28

稀疏注意力 vs 线性注意力潜力对比

37:07

即使算力无限，线性注意力仍有价值，因为它在有限数据中的学习效率更高，而高质量数据正是当前瓶颈

39:40

线性注意力在状态追踪上也可能有效果优势，而状态追踪对 Agentic 很重要

42:28

线性注意力的 “归纳偏见” 和 The Bitter Lesson：先验与 scalable 并不矛盾

47:33

回应 RWKV（原始智能）彭博：从未说发明 DeltaNet，一直在给 Schmidhuber 署名

49:30

Householder 与 DeltaNet 的联想，像运营产品一样运营技术社区

关注注意力改进的起点，数学知识、Infra，交叉能力怎么积累？

51:51

发现 Hoseholder 累乘和 DeltaNet 关联的过程

58:48

AI 何时能像人这样产生联想？——Prompt 合适，大模型应该能独立发现这个算法

1:02:44

FLA 小组的产生，受 Tri Dao 做 FlashAttention 的启发，像运营产品一样运营技术社区；Kimi 从 FLA 小组招募了线性注意力研究者

1:04:11

注意力改进的未来趋势

稀疏注意力的改进，DeepSeek 年初 NSA 到最近 DSA 的变化

1:11:24

线性注意力的改进，从线性混合全注意力，到线性混合稀疏注意力（比如混合 DeepSeek DSA 和 Kimi KDA 😀

1:16:44

更广泛来说，关注何种模型演进？—— 持续学习

1:21:10

Transcript

程曼祺: 欢迎收听晚点聊，我是程曼祺。今天的主题是我们年初的两期节目里，讨论过的注意力机制，这是大语言模型的核心机制。9 月和 10 月，阿里和 Kimi 月之岸面都发布了相关进展。而且都用到了一个线性注意力的成果 DeltaNet 本期嘉宾就是 DeltaNet 的核心贡献者之一。现在在 MIT 读博士的杨松琳，他也是线性注意力开源小组 FLA 的发起者。这期节目的 25 分钟以前非常硬核，杨松琳讲了线性注意力和 DeltaNet 的发展脉络。为什么 2021 年刚被提出时，它没有引起太多注意，后来是怎么...