94. 逐篇讲解 DeepSeek、Kimi、MiniMax 注意力机制新论文 ——“硬件上的暴力美学”

张小珺Jùn｜商业访谈录

2025/02/23

Overview Shownote Highlights Transcript Chapters Pins

本期节目聚焦于 DeepSeek、Kimi 和 MiniMax 三家公司在注意力机制领域的最新研究进展。通过解读三篇技术论文，探讨了不同公司在处理长文本任务时的技术哲学与路线选择，以及如何通过创新提升模型效率与性能。

节目中详细分析了 DeepSeek 的《原生稀疏注意力》论文，其提出的动态稀疏注意力机制在预训练阶段展现出显著优势，能够有效平衡全局与局部信息，同时提升硬件利用率。接着讨论了 Kimi 的《MoBA》论文，该方法通过简化架构提升了模型的简约性，但也在选择数量和训练损失等方面面临挑战。最后解析了 MiniMax 的《闪电注意力》论文，其 Hybrid 架构结合线性与稀疏注意力，在长序列任务中表现出色。整体来看，这三家公司在技术路线上各有侧重：DeepSeek 追求硬件对齐与高效训练，Kimi 注重极简设计，而 MiniMax 则通过硬件优化实现非平方复杂度训练。此外，节目还展望了未来架构优化的方向，如位置编码改进和长卷积的重新兴起。

05:22

多数层换成线性注意力可大幅缩短推理时间

1:16:49

Native Sparse Attention 在硬件限制下实现速度与效率的最优解

1:31:01

Kimi 前期表现差可能与 Block Size 有关，后期采用混合方法提升性能

2:06:40

Mamba 2 的 State-Space Duality 概念与 Linear Attention 等价

2:31:47

DeepSeek 的 Native Sparse Attention 全线压制 Full Attention