119. Kimi Linear、Minimax M2?和杨松琳考古算法变种史,并预演未来架构改进方案
张小珺Jùn|商业访谈录
2025/11/03
119. Kimi Linear、Minimax M2?和杨松琳考古算法变种史,并预演未来架构改进方案
119. Kimi Linear、Minimax M2?和杨松琳考古算法变种史,并预演未来架构改进方案

张小珺Jùn|商业访谈录
2025/11/03
Shownote
Shownote
今天这集节目,我们将讨论一个在当下非常关键的话题:人工智能的算法与架构创新。 嘉宾是我们的往期嘉宾返场,她是 MIT 在读博士杨松琳,研究方向是线性注意力机制。 我们将从最新发布的几个模型 Kimi Linear、Minimax M2、Qwen3-Next 切入。松琳参与讨论 Kimi Linear 和 Qwen3-Next 的部分工作,是 Kimi Linear 论文的作者之一。 算法创新为什么在 2025 年变得尤为重要? 它的背后原因是,数据、算力和算法是驱动人工智能的三驾火车,在数据撞墙的无奈前提下,各个模型公司不...
Highlights
Highlights
在当前人工智能发展的关键阶段,算法创新正成为突破性能瓶颈的核心驱动力。随着数据红利见顶与算力资源受限,模型架构的精细化设计日益重要。本期节目邀请 MIT 博士杨松琳深入探讨注意力机制的前沿演进,聚焦中国在高效架构探索中的独特路径与技术抉择。
Chapters
Chapters
中国 AI 算法的前沿突破
00:00个人、研究主线与线性注意力机制的探索之路
04:00松琳做过一个开源库:flash-linear-attention(简称 FLA)
06:27怎么通俗理解 Linear Attention 的 Linear?
07:04聊聊最近参与的新工作,前几天刚发布的《Kimi Linear: An Expressive, Efficient Attention Architecture》(Kimi Linear:一种具有强表达能力与高效率的注意力架构)
11:19为什么 Kimi 在年初开始需要重新设计注意力机制?设计的背景和目标
12:20《Kimi Linear》论文重点讲解:KDA 模块
14:39Kimi 内部有一个 Scaling Ladder(规模阶梯)
18:56Kimi Linear Attention vs DeepSeek Sparse Attention
20:20Minimax 从 M1 到 M2 的架构变化,从 Linear Attention 退回到 Full Attention
23:01硅谷的注意力机制方案不方便说,但可以浅聊一下 OpenAI 有 paper 的方案
27:00Linear Attention 从 2020 年发明出来开始后的前进线索
28:05纯 Linear Attention 是无效的,混合注意力机制还是有很多全局注意力层
38:16Kimi Linear 每 3 层 KDA 插入 1 层全注意力层,三比一的比例快变成共识了
40:30权衡(Trade-off)表达能力(expressivity)与计算效率(efficiency)
42:32chunkwise algorithm for parallelization(分块并行算法)
46:28如何设计 Attention?两条主流和一些非主流路线
47:55结合 Linear Attention 和 Sparse Attention 的未来理想方案
49:36公平的比较:Linear Attention vs Sliding-Window Attention(滑窗注意力)
55:36Transformer → MoE → Linear / Sparse Attention 的算法演变,背后动因是给定你相同的 FLOPs(浮点运算量),利用这些 FLOPs,取得更低的损失函数
57:05近几年架构方面突破最大的是 MoE,下一个突破可能是 Attention
58:26数据、算法、算力是驱动人工智能的三驾马车,当数据遇到数据强,算法创新变得更重要
1:01:28架构的未来:1、能不能干掉全局注意力?2、Continue Learning,让 AI 自己学习
1:02:48如何把 Linear Attention 的 Transformer 继续 scale up?
1:04:30中国 AI 的算法创新相比海外肯定是更强的
1:07:43其他训练细节:NoPE vs. RoPE
1:10:56DeepSeek-OCR
1:12:09松琳也参与了 Qwen3-Next,没有参与 Minimax M2
1:12:55“雕” 架构的人
1:13:39自己的心路:“当你很清楚你要做什么的时候,你是不会遇到什么挫折的”
1:15:16说到考古,我们在最后聊聊从 Transformer 开始的算法变种历史
1:23:12Delta Rule 算法、硬件亲和、DeepSeek 非常追求硬件和算法的匹配
1:29:50给更年轻的年轻人的建议
1:42:23Transcript
Transcript
杨松琳: 我觉得国内算法创新肯定是更强的。线性注意力的模块,他们最后选到的是一个叫做 KDA 的这个模块。Kimi Delta Attention 这个名字感觉挺有梗的,他们应该是想对标 Deep,Seek,Sparse Attention。然后我就特意取了一个 KIMI 开头的一个名字,然后非常的对撞。我觉得每一次大家关心 Linear Attention,那肯定是因为大家碰到了一些 Context Wall。我觉得我还是挺喜欢看最早的那些 paper,我觉得那些 paper 写的都挺好的。我管这个叫做考...

Open in 小宇宙