scripod.com
【北雍读书】从 GPT-2 到 GPT-OSS:架构演进深度解析

Highlights

Transcript

Chapters

Pins

【北雍读书】从 GPT-2 到 GPT - OSS:架构演进深度解析

OverviewShownote
Unprocessed episode, you can be the first!

Shownote

本期为英文。 DeepSeek 于上周 8 月 21 日底低调放出了 v3.1,采用了混合推理架构,允许模型在同一架构下支持思考模式(Reasoning Mode)和非思考模式(Non-Reasoning Mode),其中思考模式优化了多步推理能力,在复杂任务(如数学、编程、知识问答)中表现更强,同时 推理速度比 DeepSeek-R1-0528 更快,思维链压缩训练使输出 token 减少了 20%-50%,效率大幅提升。在工具使用和智能体任务、多语言优化方面有了显著提升,并进行 128K 长上下文支持。 Dee...

Highlights

Chapters

Transcript

小宇宙
Open in 小宇宙