scripod.com

94. 逐篇讲解 DeepSeek、Kimi、MiniMax 注意力机制新论文 ——“硬件上的暴力美学”

Shownote

今天这集节目延续我们的论文系列。我邀请 MIT 计算机科学与人工智能实验室的在读博士松琳,来给大家解读上个星期 DeepSeek 和 Kimi 发布的全新技术报告。 DeepSeek 和 Kimi 又一次技术对垒。在同一天发布论文,两篇集中在改进注意力机制以处理长文本任务上。而春节前,MiniMax 也发布了一篇注意力机制相关的论文。 松琳将带领大家阅读这 3 篇注意力机制有关的文章,解析不同模型公司的技术哲学和路线选择。 我们希望能让更多人领略 AI 科技平权,体验技术之美。 2025,我们和 AI 共同进步! > (如果如果...

Highlights

本期节目聚焦于 DeepSeek、Kimi 和 MiniMax 三家公司在注意力机制领域的最新研究进展。通过解读三篇技术论文,探讨了不同公司在处理长文本任务时的技术哲学与路线选择,以及如何通过创新提升模型效率与性能。
05:22
多数层换成线性注意力可大幅缩短推理时间
1:16:49
Native Sparse Attention 在硬件限制下实现速度与效率的最优解
1:31:01
Kimi 前期表现差可能与 Block Size 有关,后期采用混合方法提升性能
2:06:40
Mamba 2 的 State-Space Duality 概念与 Linear Attention 等价
2:31:47
DeepSeek 的 Native Sparse Attention 全线压制 Full Attention

Chapters

解读 DeepSeek 和 Kimi 技术报告
00:00
讲解开始前,先提问几个小问题
02:30
DeepSeek 最新论文《Native Sparse Attention: Hardware-Aligned and Natively Trainable Sparse Attention》讲解
15:36
Kimi 最新论文《MoBA: Mixture of Block Attention for Long-Context LLMs》讲解
1:19:14
MiniMax 春节前的论文《MiniMax-01: Scaling Foundation Models with Lightning Attention》讲解
1:44:42
最后强化学习一下
2:30:07

Transcript

杨松琳: Kimi 和 DeepSeek,他发的这两篇,叫做原生稀疏注意力 Native Sparse Attention。他们这个就是可以用来解决,这种长文本的开销的问题。然后像 MiniMax 的话,他们就是采用了另外一种方案,一种叫做混合模型的一种方式。不太好说,但我确实被那个 Native Sparse Attention 它甚至比 Full Attention 要好这一点,吸引住了。可能我之后也会做一些,这种 Native Sparse Attention 方面的研究,像 DeepSeek,可能它...
小宇宙
Open in 小宇宙