scripod.com
【北雍读书】大语言模型架构对比

Highlights

Transcript

Chapters

Pins

【北雍读书】大语言模型架构对比

OverviewShownote
Unprocessed episode, you can be the first!

Shownote

本期为英文。 自最初的 GPT 架构开发以来,已经过去七年。回顾 GPT-2(2019 年),并再看 DeepSeek-V3 和 Llama 4(2024-2025 年),人们可能会惊讶于这些模型在结构上仍然如此相似。 位置嵌入(positional embeddings)已经从绝对位置编码演进到旋转位置编码(RoPE),多头注意力机制(Multi-Head Attention)很大程度上已经让位给分组查询注意力机制(Grouped-Query Attention),更高效的 SwiGLU 也取代了 GELU 等激活函数。但在...

Highlights

Chapters

Transcript

小宇宙
Open in 小宇宙