【北雍读书】从 GPT-2 到 GPT - OSS:架构演进深度解析
北雍ECC|中国视野趣谈世界
2025/08/26
【北雍读书】从 GPT-2 到 GPT - OSS:架构演进深度解析
【北雍读书】从 GPT-2 到 GPT - OSS:架构演进深度解析

北雍ECC|中国视野趣谈世界
2025/08/26
Unprocessed episode, you can be the first!
Shownote
Shownote
本期为英文。 DeepSeek 于上周 8 月 21 日底低调放出了 v3.1,采用了混合推理架构,允许模型在同一架构下支持思考模式(Reasoning Mode)和非思考模式(Non-Reasoning Mode),其中思考模式优化了多步推理能力,在复杂任务(如数学、编程、知识问答)中表现更强,同时 推理速度比 DeepSeek-R1-0528 更快,思维链压缩训练使输出 token 减少了 20%-50%,效率大幅提升。在工具使用和智能体任务、多语言优化方面有了显著提升,并进行 128K 长上下文支持。 Dee...
Highlights
Highlights
Chapters
Chapters
Transcript
Transcript

Open in 小宇宙