#515. GPT-5、Claude 和 Gemini 的是如何训练与部署的
跨国串门儿计划
4 DAYS AGO
#515. GPT-5、Claude 和 Gemini 的是如何训练与部署的
#515. GPT-5、Claude 和 Gemini 的是如何训练与部署的

跨国串门儿计划
4 DAYS AGO
Shownote
Shownote
本期播客简介 本期我们克隆了硅谷硬核科技播客《Dwarkesh Patel》How GPT-5, Claude, and Gemini are actually trained and served – Reiner Pope 嘉宾 Reiner Pope 是芯片初创公司 Maddox 的 CEO,更早之前曾在谷歌负责 TPU 架构设计。整期节目采用 “黑板讲座” 的形式,Reiner 从最基础的 roofline 模型出发,一步步推导出批次大小如何影响大模型推理的延迟与成本,揭示了 “内存墙” 为什么是上下...
Highlights
Highlights
本期播客深入剖析大模型推理服务背后的硬件与系统级挑战,聚焦于为何 API 定价如此、长上下文为何昂贵、模型扩展为何放缓等现实问题。
Chapters
Chapters
开场与技术形式
Yikai 开场及节目介绍
00:00Dwarkesh 介绍嘉宾与 “黑板讲座” 设置
01:26Roofline 模型与批次大小的艺术
为什么要从 “批次大小” 开始?它对延迟和成本的决定性影响
02:53批处理为什么能节省上千倍成本?
04:33一张延迟图看懂内存时间与计算时间的平衡
07:04稀疏注意力与最优批次大小的代数推导
10:25单用户推理为什么贵?成本曲线揭示的无穷大起点
12:00最优批次大小≈300× 稀疏度,一个跨硬件稳定的常数
15:20推理引擎的 “火车模型”:每 20 毫秒固定发车
17:08从每秒 12.8 万 token 反推前沿模型的多大用户量
19:35增加稀疏度划算吗?《路由语言模型统一法则》告诉你答案
21:38模型架构与硬件拓扑
混合专家层如何分片到 GPU 机架上
24:15机架内的 NVLink 高速网络与机架间慢八倍的 “瓶颈”
27:47为什么 GPT‑4 之后模型规模扩展变慢了?不是计算,是内存容量在等机架
32:33流水线并行真的省了内存吗?通信模式的代数拆解
35:40流水线气泡:训练中的微批次权衡与推理中的 “不费脑” 设计
39:45内存墙、过度训练与规模法则
内存容量真的过剩吗?为何大家还在砸钱买 HBM?
45:12为什么流水线并行对 KV 缓存无效?内存容量的死结
49:03过度训练 100 倍?从 Chinchilla 最优到真实世界的偏离
52:00预训练、强化学习与推理 token 的最优成本分配
58:23惊人反推:预训练数据量其实约等于模型整个生命周期的推理 token 数
1:04:24从 API 定价反推技术架构
Gemini 长上下文加价 50% 的硬件解释
1:05:26价格如何泄露秘密:每个 token 的字节数、KV 缓存大小都能算出来
1:09:50输出 token 为什么比输入贵 5 倍?解码与预填充的内存带宽真相
1:12:47KV 缓存命中便宜 10 倍:HBM、DDR 与机械硬盘的角色分配
1:14:515 分钟 vs 1 小时:定价时长正好对应闪存与机械硬盘的 “排空时间”
1:22:00交叉学科火花
神经网络与密码学:同样的 “混合” 结构,相反的训练目标
1:24:17对抗攻击与后门:神经网络里的 “雪崩效应”
1:27:06从密码学借来的可逆网络:用计算换内存,反向传播不用存激活值
1:28:45结尾
结语与致谢
1:30:50Transcript
Transcript
Reiner Pope: 欢迎收听跨国串门儿计划,这是一档专注于让中文听众无障碍欣赏全球优质外语播客的节目。通过先进的 AI 声音克隆技术,我们不仅将内容翻译成中文,还完美保留了原主持人和嘉宾的独特声音,为您呈现全球顶尖的 AI 财经,健康与科技领域精品内容。我是主播 yikai, 一位热衷于 AI 领域的产品经理。很荣幸能为您搭建这座跨越语言障碍的桥梁。接下来,让我为您简单介绍本期我们克隆的这档节目,并分享几句非常精彩的原话。本期我们克隆的是 Dwarkesh Patel 主持的一档深度科技对谈。他本人是...

Open in 小宇宙