94. 逐篇讲解 DeepSeek、Kimi、MiniMax 注意力机制新论文 ——“硬件上的暴力美学”
张小珺Jùn|商业访谈录
2025/02/23
94. 逐篇讲解 DeepSeek、Kimi、MiniMax 注意力机制新论文 ——“硬件上的暴力美学”
94. 逐篇讲解 DeepSeek、Kimi、MiniMax 注意力机制新论文 ——“硬件上的暴力美学”

张小珺Jùn|商业访谈录
2025/02/23
本期节目聚焦于 DeepSeek、Kimi 和 MiniMax 三家公司在注意力机制领域的最新研究进展。通过解读三篇技术论文,探讨了不同公司在处理长文本任务时的技术哲学与路线选择,以及如何通过创新提升模型效率与性能。
节目中详细分析了 DeepSeek 的《原生稀疏注意力》论文,其提出的动态稀疏注意力机制在预训练阶段展现出显著优势,能够有效平衡全局与局部信息,同时提升硬件利用率。接着讨论了 Kimi 的《MoBA》论文,该方法通过简化架构提升了模型的简约性,但也在选择数量和训练损失等方面面临挑战。最后解析了 MiniMax 的《闪电注意力》论文,其 Hybrid 架构结合线性与稀疏注意力,在长序列任务中表现出色。整体来看,这三家公司在技术路线上各有侧重:DeepSeek 追求硬件对齐与高效训练,Kimi 注重极简设计,而 MiniMax 则通过硬件优化实现非平方复杂度训练。此外,节目还展望了未来架构优化的方向,如位置编码改进和长卷积的重新兴起。
05:22
05:22
多数层换成线性注意力可大幅缩短推理时间
1:16:49
1:16:49
Native Sparse Attention 在硬件限制下实现速度与效率的最优解
1:31:01
1:31:01
Kimi 前期表现差可能与 Block Size 有关,后期采用混合方法提升性能
2:06:40
2:06:40
Mamba 2 的 State-Space Duality 概念与 Linear Attention 等价
2:31:47
2:31:47
DeepSeek 的 Native Sparse Attention 全线压制 Full Attention