94. 逐篇讲解 DeepSeek、Kimi、MiniMax 注意力机制新论文 ——“硬件上的暴力美学”
张小珺Jùn|商业访谈录
2025/02/23
94. 逐篇讲解 DeepSeek、Kimi、MiniMax 注意力机制新论文 ——“硬件上的暴力美学”
94. 逐篇讲解 DeepSeek、Kimi、MiniMax 注意力机制新论文 ——“硬件上的暴力美学”

张小珺Jùn|商业访谈录
2025/02/23
Shownote
Shownote
今天这集节目延续我们的论文系列。我邀请 MIT 计算机科学与人工智能实验室的在读博士松琳,来给大家解读上个星期 DeepSeek 和 Kimi 发布的全新技术报告。 DeepSeek 和 Kimi 又一次技术对垒。在同一天发布论文,两篇集中在改进注意力机制以处理长文本任务上。而春节前,MiniMax 也发布了一篇注意力机制相关的论文。 松琳将带领大家阅读这 3 篇注意力机制有关的文章,解析不同模型公司的技术哲学和路线选择。 我们希望能让更多人领略 AI 科技平权,体验技术之美。 2025,我们和 AI 共同进步! > (如果如果...
Highlights
Highlights
本期节目聚焦于 DeepSeek、Kimi 和 MiniMax 三家公司在注意力机制领域的最新研究进展。通过解读三篇技术论文,探讨了不同公司在处理长文本任务时的技术哲学与路线选择,以及如何通过创新提升模型效率与性能。
Chapters
Chapters
解读 DeepSeek 和 Kimi 技术报告
00:00讲解开始前,先提问几个小问题
02:30DeepSeek 最新论文《Native Sparse Attention: Hardware-Aligned and Natively Trainable Sparse Attention》讲解
15:36Kimi 最新论文《MoBA: Mixture of Block Attention for Long-Context LLMs》讲解
1:19:14MiniMax 春节前的论文《MiniMax-01: Scaling Foundation Models with Lightning Attention》讲解
1:44:42最后强化学习一下
2:30:07Transcript
Transcript
杨松琳: Kimi 和 DeepSeek,他发的这两篇,叫做原生稀疏注意力 Native Sparse Attention。他们这个就是可以用来解决,这种长文本的开销的问题。然后像 MiniMax 的话,他们就是采用了另外一种方案,一种叫做混合模型的一种方式。不太好说,但我确实被那个 Native Sparse Attention 它甚至比 Full Attention 要好这一点,吸引住了。可能我之后也会做一些,这种 Native Sparse Attention 方面的研究,像 DeepSeek,可能它...

Open in 小宇宙