94. 逐篇讲解 DeepSeek、Kimi、MiniMax 注意力机制新论文 ——“硬件上的暴力美学”

张小珺Jùn｜商业访谈录

2025/02/23

Overview Shownote Highlights Transcript Chapters Pins

Shownote

今天这集节目延续我们的论文系列。我邀请 MIT 计算机科学与人工智能实验室的在读博士松琳，来给大家解读上个星期 DeepSeek 和 Kimi 发布的全新技术报告。 DeepSeek 和 Kimi 又一次技术对垒。在同一天发布论文，两篇集中在改进注意力机制以处理长文本任务上。而春节前，MiniMax 也发布了一篇注意力机制相关的论文。松琳将带领大家阅读这 3 篇注意力机制有关的文章，解析不同模型公司的技术哲学和路线选择。我们希望能让更多人领略 AI 科技平权，体验技术之美。 2025，我们和 AI 共同进步！ > （如果如果...

Highlights

本期节目聚焦于 DeepSeek、Kimi 和 MiniMax 三家公司在注意力机制领域的最新研究进展。通过解读三篇技术论文，探讨了不同公司在处理长文本任务时的技术哲学与路线选择，以及如何通过创新提升模型效率与性能。