scripod.com

#515. GPT-5、Claude 和 Gemini 的是如何训练与部署的

跨国串门儿计划

Shownote

本期播客简介 本期我们克隆了硅谷硬核科技播客《Dwarkesh Patel》How GPT-5, Claude, and Gemini are actually trained and served – Reiner Pope 嘉宾 Reiner Pope 是芯片初创公司 Maddox 的 CEO,更早之前曾在谷歌负责 TPU 架构设计。整期节目采用 “黑板讲座” 的形式,Reiner 从最基础的 roofline 模型出发,一步步推导出批次大小如何影响大模型推理的延迟与成本,揭示了 “内存墙” 为什么是上下...

Highlights

本期播客深入剖析大模型推理服务背后的硬件与系统级挑战,聚焦于为何 API 定价如此、长上下文为何昂贵、模型扩展为何放缓等现实问题。
00:00
大模型服务成本命门在于推理阶段的计算资源浪费
01:27
主理人以天使投资人身份提问 Cursor 快速模式的付费提速逻辑与慢速模式可行性
02:55
最大影响来自批次大小,要精确量化其对延迟和成本的影响
06:26
前向传播耗时由内存读取(尤其是 KV 缓存)主导,而非矩阵乘法
08:56
在特定上下文长度下内存与计算限制平衡是理想状态,稍微偏离会影响算力利用率
10:28
将成本曲线除以批量大小 b 后,KV 缓存读取变为常数,权重读取变为双曲线形状
12:00
计算性能除以内存带宽约等于 300,该值由活跃参数占比与批量大小共同决定
15:23
Jane Street 采用 FPGA 确保交易系统低延迟和确定性
19:08
HBM 访问几乎全是读操作,因权重矩阵只读,KVCache 访问也多为读
19:36
当前推理系统每秒处理约 12.8 万 token,仅为 Gemini 全球吞吐量的千分之一
23:42
扩大批次大小能带来纯收益,直到用户数不足
26:09
机架间通信可能成为混合专家模型的性能瓶颈
27:52
若将混合专家层跨两个机架布置,会因部分 token 需使用慢网络而成为全对全模式的瓶颈
34:37
活跃参数量受计算成本限制,总参数量受纵向扩展规模限制
35:42
纵向扩展时间是更重要的资源
43:12
推理中流水线并行对批次大小和延迟无影响,但可降低内存容量需求
45:16
超大规模云服务将一半资本支出用于内存
50:58
虽理论上多阶段流水线可只存一层 KV 值,但因要让机架有效忙碌,会增加同时进行的序列数量,两者抵消,无法在 KV 缓存上均摊
55:37
扩展规模大小有助于解决带宽问题,带宽问题能支持更长上下文长度
1:02:17
为让 GPT-5 最优训练,用户输入输出 token 总量应等于预训练总 Token 量,即全人类知识总和
1:04:25
前沿模型两个月存活期内消耗约 200 万亿 token
1:05:26
实际 GPT-5 预训练数据量约为 Chinchilla 最优值的 100 倍
1:09:52
解码成本约是预填充的五倍
1:12:50
Prefill 是计算受限,decode 是内存带宽受限
1:18:30
限制超大上下文的主要是内存带宽和容量成本,而非计算成本
1:22:02
可根据时长判断内存层级,排空时间等于存储容量除以存储带宽,希望该比值约为五分钟
1:26:04
密码协议将有结构信息变得随机,神经网络从随机信息中提取结构
1:27:07
随机初始化的神经网络可能可当密码用
1:28:47
Feistel 网络被引入神经网络,构造出可逆结构,此技术后来被应用到 Transformer 层
1:30:51
可逆网络无需存储激活值,反向传递时可重新计算,节省内存

Chapters

开场与技术形式
Yikai 开场及节目介绍
00:00
Dwarkesh 介绍嘉宾与 “黑板讲座” 设置
01:26
Roofline 模型与批次大小的艺术
为什么要从 “批次大小” 开始?它对延迟和成本的决定性影响
02:53
批处理为什么能节省上千倍成本?
04:33
一张延迟图看懂内存时间与计算时间的平衡
07:04
稀疏注意力与最优批次大小的代数推导
10:25
单用户推理为什么贵?成本曲线揭示的无穷大起点
12:00
最优批次大小≈300× 稀疏度,一个跨硬件稳定的常数
15:20
推理引擎的 “火车模型”:每 20 毫秒固定发车
17:08
从每秒 12.8 万 token 反推前沿模型的多大用户量
19:35
增加稀疏度划算吗?《路由语言模型统一法则》告诉你答案
21:38
模型架构与硬件拓扑
混合专家层如何分片到 GPU 机架上
24:15
机架内的 NVLink 高速网络与机架间慢八倍的 “瓶颈”
27:47
为什么 GPT‑4 之后模型规模扩展变慢了?不是计算,是内存容量在等机架
32:33
流水线并行真的省了内存吗?通信模式的代数拆解
35:40
流水线气泡:训练中的微批次权衡与推理中的 “不费脑” 设计
39:45
内存墙、过度训练与规模法则
内存容量真的过剩吗?为何大家还在砸钱买 HBM?
45:12
为什么流水线并行对 KV 缓存无效?内存容量的死结
49:03
过度训练 100 倍?从 Chinchilla 最优到真实世界的偏离
52:00
预训练、强化学习与推理 token 的最优成本分配
58:23
惊人反推:预训练数据量其实约等于模型整个生命周期的推理 token 数
1:04:24
从 API 定价反推技术架构
Gemini 长上下文加价 50% 的硬件解释
1:05:26
价格如何泄露秘密:每个 token 的字节数、KV 缓存大小都能算出来
1:09:50
输出 token 为什么比输入贵 5 倍?解码与预填充的内存带宽真相
1:12:47
KV 缓存命中便宜 10 倍:HBM、DDR 与机械硬盘的角色分配
1:14:51
5 分钟 vs 1 小时:定价时长正好对应闪存与机械硬盘的 “排空时间”
1:22:00
交叉学科火花
神经网络与密码学:同样的 “混合” 结构,相反的训练目标
1:24:17
对抗攻击与后门:神经网络里的 “雪崩效应”
1:27:06
从密码学借来的可逆网络:用计算换内存,反向传播不用存激活值
1:28:45
结尾
结语与致谢
1:30:50

Transcript

Reiner Pope: 欢迎收听跨国串门儿计划,这是一档专注于让中文听众无障碍欣赏全球优质外语播客的节目。通过先进的 AI 声音克隆技术,我们不仅将内容翻译成中文,还完美保留了原主持人和嘉宾的独特声音,为您呈现全球顶尖的 AI 财经,健康与科技领域精品内容。我是主播 yikai, 一位热衷于 AI 领域的产品经理。很荣幸能为您搭建这座跨越语言障碍的桥梁。接下来,让我为您简单介绍本期我们克隆的这档节目,并分享几句非常精彩的原话。本期我们克隆的是 Dwarkesh Patel 主持的一档深度科技对谈。他本人是...
小宇宙
Open in 小宇宙