143: 再聊 Attention:阿里、Kimi 都在用的 DeltaNet 和线性注意力新改进
晚点聊 LateTalk
2025/11/30
143: 再聊 Attention:阿里、Kimi 都在用的 DeltaNet 和线性注意力新改进
143: 再聊 Attention:阿里、Kimi 都在用的 DeltaNet 和线性注意力新改进

晚点聊 LateTalk
2025/11/30
本期节目深入探讨了线性注意力机制的技术演进,聚焦其在大模型效率与能力平衡中的关键作用。嘉宾杨松琳作为 DeltaNet 的核心贡献者,系统梳理了该技术从学术提出到产业落地的转变过程。
线性注意力通过降低计算复杂度提升长序列处理效率,DeltaNet 引入 Delta Rule 增强上下文检索,并经由 Gated Delta 等架构改进实现可扩展训练。尽管 MiniMax 回归 full attention 以保障推理质量,阿里 Qwen 与 Kimi 仍推进线性混合架构,探索效率与智能代理能力的平衡。研究指出,即使算力充足,线性注意力在数据受限场景下仍具学习效率优势,其归纳偏见有助于状态追踪,对 Agentic AI 意义重大。此外,稀疏与线性注意力正走向融合,未来趋势包括硬件友好的混合结构及持续学习机制的构建。FLA 开源社区的发展也体现了技术协作的新模式。
02:07
02:07
注意力机制通过平方关系计算词间相关性,是处理上下文信息的基础方法
05:45
05:45
DeltaNet 通过 Delta Rule 机制增强模型的 In-context Retrieval 能力
12:32
12:32
Gated DeltaNet 引入衰减机制防止记忆‘爆棚’
14:30
14:30
KDA 将衰减机制细化到每个维度,实现独立遗忘率以增强长序列记忆能力
17:01
17:01
更改更新规则是在算子层面动刀,可搭配不同网络架构
22:53
22:53
Linear Transformers Are Secretly Fast Weight Programmers 是与 Tri Dao 合作的重要成果
31:11
31:11
多跳推理是 agentic AI 的关键能力,混合注意力在此类任务上准确率明显下降。
38:27
38:27
混合线性注意力可将 KV Cache 大小减少四分之三
41:15
41:15
若有无限数据和算力,会选用 Full Attention 架构
42:32
42:32
线性注意力可减少对长思维链的依赖,提升状态追踪效果
48:42
48:42
可扩展性要求算法在效率和性能上均能随规模增长而持续有效。
50:55
50:55
发言者未宣称发明 DeltaNet,仅改进其可扩展训练方法
57:21
57:21
若按传统方式先教行列式,可能就不会对线性代数产生兴趣
58:48
58:48
WY 算法将 Householder 累乘转化为累加,使 DeltaNet 可并行化
1:02:49
1:02:49
AI 可能通过强化学习自主解决并行 DeltaNet 目标
1:10:44
1:10:44
Kimi 的 Gated Delta 与 DeepSeek 的 NSA / DSA 形成技术对标
1:15:23
1:15:23
稀疏注意力推理效率高于全注意力,但面临 KV cache 存储负担问题
1:19:14
1:19:14
混合 DSA 与 KDA 可降低 Kimi cache 大小并提升推理速度
1:23:54
1:23:54
快速权重编程可将每个 token 作为训练样本,通过梯度下降实时更新权重矩阵