scripod.com

143: 阿里、Kimi都在用的DeltaNet是什么？|与杨松琳聊线性注意力新改进

Overview

Shownote

Highlights

Transcript

Chapters

Pins

143: 阿里、Kimi 都在用的 DeltaNet 是什么？|与杨松琳聊线性注意力新改进

晚点聊 LateTalk

2025/11/30

143: 阿里、Kimi 都在用的 DeltaNet 是什么？|与杨松琳聊线性注意力新改进

143: 阿里、Kimi 都在用的 DeltaNet 是什么？|与杨松琳聊线性注意力新改进

晚点聊 LateTalk

晚点聊 LateTalk

2025/11/30

Overview Shownote Highlights Transcript Chapters Pins

本期节目深入探讨了线性注意力机制的技术演进，聚焦其在大模型效率与能力平衡中的关键作用。嘉宾杨松琳作为 DeltaNet 的核心贡献者，系统梳理了该技术从学术提出到产业落地的转变过程。

线性注意力通过降低计算复杂度提升长序列处理效率，DeltaNet 引入 Delta Rule 增强上下文检索，并经由 Gated Delta 等架构改进实现可扩展训练。尽管 MiniMax 回归 full attention 以保障推理质量，阿里 Qwen 与 Kimi 仍推进线性混合架构，探索效率与智能代理能力的平衡。研究指出，即使算力充足，线性注意力在数据受限场景下仍具学习效率优势，其归纳偏见有助于状态追踪，对 Agentic AI 意义重大。此外，稀疏与线性注意力正走向融合，未来趋势包括硬件友好的混合结构及持续学习机制的构建。FLA 开源社区的发展也体现了技术协作的新模式。

02:07

02:07

注意力机制通过平方关系计算词间相关性，是处理上下文信息的基础方法

05:45

05:45

DeltaNet 通过 Delta Rule 机制增强模型的 In-context Retrieval 能力

12:32

12:32

Gated DeltaNet 引入衰减机制防止记忆‘爆棚’

14:30

14:30

KDA 将衰减机制细化到每个维度，实现独立遗忘率以增强长序列记忆能力

17:01

17:01

更改更新规则是在算子层面动刀，可搭配不同网络架构

22:53

22:53

Linear Transformers Are Secretly Fast Weight Programmers 是与 Tri Dao 合作的重要成果

31:11

31:11

多跳推理是 agentic AI 的关键能力，混合注意力在此类任务上准确率明显下降。

38:27

38:27

混合线性注意力可将 KV Cache 大小减少四分之三

41:15

41:15

若有无限数据和算力，会选用 Full Attention 架构

42:32

42:32

线性注意力可减少对长思维链的依赖，提升状态追踪效果

48:42

48:42

可扩展性要求算法在效率和性能上均能随规模增长而持续有效。

50:55

50:55

发言者未宣称发明 DeltaNet，仅改进其可扩展训练方法

57:21

57:21

若按传统方式先教行列式，可能就不会对线性代数产生兴趣

58:48

58:48

WY 算法将 Householder 累乘转化为累加，使 DeltaNet 可并行化

1:02:49

1:02:49

AI 可能通过强化学习自主解决并行 DeltaNet 目标

1:10:44

1:10:44

Kimi 的 Gated Delta 与 DeepSeek 的 NSA / DSA 形成技术对标

1:15:23

1:15:23

稀疏注意力推理效率高于全注意力，但面临 KV cache 存储负担问题

1:19:14

1:19:14

混合 DSA 与 KDA 可降低 Kimi cache 大小并提升推理速度

1:23:54

1:23:54

快速权重编程可将每个 token 作为训练样本，通过梯度下降实时更新权重矩阵