【北雍读书】大语言模型架构对比
北雍ECC|中国视野趣谈世界
2025/08/27
【北雍读书】大语言模型架构对比
【北雍读书】大语言模型架构对比

北雍ECC|中国视野趣谈世界
2025/08/27
Unprocessed episode, you can be the first!
Shownote
Shownote
本期为英文。 自最初的 GPT 架构开发以来,已经过去七年。回顾 GPT-2(2019 年),并再看 DeepSeek-V3 和 Llama 4(2024-2025 年),人们可能会惊讶于这些模型在结构上仍然如此相似。 位置嵌入(positional embeddings)已经从绝对位置编码演进到旋转位置编码(RoPE),多头注意力机制(Multi-Head Attention)很大程度上已经让位给分组查询注意力机制(Grouped-Query Attention),更高效的 SwiGLU 也取代了 GELU 等激活函数。但在...
Highlights
Highlights
Chapters
Chapters
Transcript
Transcript

Open in 小宇宙