scripod.com

143: 再聊 Attention:阿里、Kimi 都在用的 DeltaNet 和线性注意力新改进

晚点聊 LateTalk

Shownote

「不仅是提效,线性注意力在数据受限情况下的更多潜力。」 今年初的两期节目(103、104 期)里也讨论过注意力机制,这是大语言模型的核心机制。 9 月 和 10 月,阿里和 Kimi 都发布了相关进展,而且都用到了一个线性注意力成果,DeltaNet。 本期嘉宾,就是 DeltaNet 的核心贡献者之一,现在在 MIT 读博士的杨松琳,她也是线性注意力开源小组 FLA 的发起者。 这期节目在 25 分钟以前很硬核,松琳讲了线性注意力和 DeltaNet 的发展脉络,为何 21 年刚被提出时没引起太多注意,后...

Highlights

本期节目深入探讨了线性注意力机制的技术演进,聚焦其在大模型效率与能力平衡中的关键作用。嘉宾杨松琳作为 DeltaNet 的核心贡献者,系统梳理了该技术从学术提出到产业落地的转变过程。
02:07
注意力机制通过平方关系计算词间相关性,是处理上下文信息的基础方法
05:45
DeltaNet 通过 Delta Rule 机制增强模型的 In-context Retrieval 能力
12:32
Gated DeltaNet 引入衰减机制防止记忆‘爆棚’
14:30
KDA 将衰减机制细化到每个维度,实现独立遗忘率以增强长序列记忆能力
17:01
更改更新规则是在算子层面动刀,可搭配不同网络架构
22:53
Linear Transformers Are Secretly Fast Weight Programmers 是与 Tri Dao 合作的重要成果
31:11
多跳推理是 agentic AI 的关键能力,混合注意力在此类任务上准确率明显下降。
38:27
混合线性注意力可将 KV Cache 大小减少四分之三
41:15
若有无限数据和算力,会选用 Full Attention 架构
42:32
线性注意力可减少对长思维链的依赖,提升状态追踪效果
48:42
可扩展性要求算法在效率和性能上均能随规模增长而持续有效。
50:55
发言者未宣称发明 DeltaNet,仅改进其可扩展训练方法
57:21
若按传统方式先教行列式,可能就不会对线性代数产生兴趣
58:48
WY 算法将 Householder 累乘转化为累加,使 DeltaNet 可并行化
1:02:49
AI 可能通过强化学习自主解决并行 DeltaNet 目标
1:10:44
Kimi 的 Gated Delta 与 DeepSeek 的 NSA / DSA 形成技术对标
1:15:23
稀疏注意力推理效率高于全注意力,但面临 KV cache 存储负担问题
1:19:14
混合 DSA 与 KDA 可降低 Kimi cache 大小并提升推理速度
1:23:54
快速权重编程可将每个 token 作为训练样本,通过梯度下降实时更新权重矩阵

Chapters

聚焦线性注意力技术发展
00:00
DeltaNet 的诞生演进与近期动向
注意力机制是什么?
02:07
DeltaNet 的提出,用 Delta Rule 来增强 in-context retrieval
04:21
近年的改进主要是模型架构,而非 “更新规则”
09:41
阿里 Qwen 团队 apple to apple 比较几种线性注意力混合方式;Kimi Linear 对 Gated Delta 的具体改进
14:25
更新规则和模型架构改进的区别:更新规则是在算子层面 “动刀”
17:00
算法出身,自学 Infra;学习 Hazy Research Group 的风格
19:50
Qwen 和 Kimi 大概率在下一代旗舰模型用线性注意力,而 MiniMax 用回 full attention;DeepSeek 目前释放的改进都是 “稀疏注意力”
23:28
稀疏注意力 vs 线性注意力潜力对比
37:07
即使算力无限,线性注意力仍有价值,因为它在有限数据中的学习效率更高,而高质量数据正是当前瓶颈
39:40
线性注意力在状态追踪上也可能有效果优势,而状态追踪对 Agentic 很重要
42:28
线性注意力的 “归纳偏见” 和 The Bitter Lesson:先验与 scalable 并不矛盾
47:33
回应 RWKV(原始智能)彭博:从未说发明 DeltaNet,一直在给 Schmidhuber 署名
49:30
Householder 与 DeltaNet 的联想,像运营产品一样运营技术社区
关注注意力改进的起点,数学知识、Infra,交叉能力怎么积累?
51:51
发现 Hoseholder 累乘和 DeltaNet 关联的过程
58:48
AI 何时能像人这样产生联想?——Prompt 合适,大模型应该能独立发现这个算法
1:02:44
FLA 小组的产生,受 Tri Dao 做 FlashAttention 的启发,像运营产品一样运营技术社区;Kimi 从 FLA 小组招募了线性注意力研究者
1:04:11
注意力改进的未来趋势
稀疏注意力的改进,DeepSeek 年初 NSA 到最近 DSA 的变化
1:11:24
线性注意力的改进,从线性混合全注意力,到线性混合稀疏注意力(比如混合 DeepSeek DSA 和 Kimi KDA 😀
1:16:44
更广泛来说,关注何种模型演进?—— 持续学习
1:21:10

Transcript

程曼祺: 欢迎收听晚点聊,我是程曼祺。今天的主题是我们年初的两期节目里,讨论过的注意力机制,这是大语言模型的核心机制。9 月和 10 月,阿里和 Kimi 月之岸面都发布了相关进展。而且都用到了一个线性注意力的成果 DeltaNet 本期嘉宾就是 DeltaNet 的核心贡献者之一。现在在 MIT 读博士的杨松琳,他也是线性注意力开源小组 FLA 的发起者。这期节目的 25 分钟以前非常硬核,杨松琳讲了线性注意力和 DeltaNet 的发展脉络。为什么 2021 年刚被提出时,它没有引起太多注意,后来是怎么...