scripod.com

#515. GPT-5、Claude 和 Gemini 的是如何训练与部署的

跨国串门儿计划
本期播客深入剖析大模型推理服务背后的硬件与系统级挑战,聚焦于为何 API 定价如此、长上下文为何昂贵、模型扩展为何放缓等现实问题。
嘉宾 Reiner Pope 以 Roofline 模型为起点,揭示批次大小是影响推理延迟与成本的核心变量:单用户推理成本可达批处理的上千倍,而最优批次大小≈300× 稀疏度,这一常数跨硬件稳定。他提出 “火车模型”—— 每 20 毫秒固定发车一次,解释了流式输出的延迟下限与付费提速的本质。内存墙而非算力,才是上下文长度的真正枷锁:KV 缓存随长度线性增长,导致 Gemini 等模型在 20 万 token 后成本跃升 50%;通过公开 API 定价,可反推出每 token 约 2KB 的 KV 缓存大小、存储层级(HBM/DDR/硬盘)乃至架构分片方式。他还指出,流水线并行无法缓解 KV 内存瓶颈,而混合专家(MoE)部署受限于机架内 NVLink 带宽与机架间八倍降速的物理瓶颈。最后,他类比密码学与神经网络 —— 同为多层混合结构,目标却相反:一个制造雪崩式随机,一个学习结构化表征;可逆网络正是从密码学借来的 “用计算换内存” 的关键创新。
00:00
00:00
大模型服务成本命门在于推理阶段的计算资源浪费
01:27
01:27
主理人以天使投资人身份提问 Cursor 快速模式的付费提速逻辑与慢速模式可行性
02:55
02:55
最大影响来自批次大小,要精确量化其对延迟和成本的影响
06:26
06:26
前向传播耗时由内存读取(尤其是 KV 缓存)主导,而非矩阵乘法
08:56
08:56
在特定上下文长度下内存与计算限制平衡是理想状态,稍微偏离会影响算力利用率
10:28
10:28
将成本曲线除以批量大小 b 后,KV 缓存读取变为常数,权重读取变为双曲线形状
12:00
12:00
计算性能除以内存带宽约等于 300,该值由活跃参数占比与批量大小共同决定
15:23
15:23
Jane Street 采用 FPGA 确保交易系统低延迟和确定性
19:08
19:08
HBM 访问几乎全是读操作,因权重矩阵只读,KVCache 访问也多为读
19:36
19:36
当前推理系统每秒处理约 12.8 万 token,仅为 Gemini 全球吞吐量的千分之一
23:42
23:42
扩大批次大小能带来纯收益,直到用户数不足
26:09
26:09
机架间通信可能成为混合专家模型的性能瓶颈
27:52
27:52
若将混合专家层跨两个机架布置,会因部分 token 需使用慢网络而成为全对全模式的瓶颈
34:37
34:37
活跃参数量受计算成本限制,总参数量受纵向扩展规模限制
35:42
35:42
纵向扩展时间是更重要的资源
43:12
43:12
推理中流水线并行对批次大小和延迟无影响,但可降低内存容量需求
45:16
45:16
超大规模云服务将一半资本支出用于内存
50:58
50:58
虽理论上多阶段流水线可只存一层 KV 值,但因要让机架有效忙碌,会增加同时进行的序列数量,两者抵消,无法在 KV 缓存上均摊
55:37
55:37
扩展规模大小有助于解决带宽问题,带宽问题能支持更长上下文长度
1:02:17
1:02:17
为让 GPT-5 最优训练,用户输入输出 token 总量应等于预训练总 Token 量,即全人类知识总和
1:04:25
1:04:25
前沿模型两个月存活期内消耗约 200 万亿 token
1:05:26
1:05:26
实际 GPT-5 预训练数据量约为 Chinchilla 最优值的 100 倍
1:09:52
1:09:52
解码成本约是预填充的五倍
1:12:50
1:12:50
Prefill 是计算受限,decode 是内存带宽受限
1:18:30
1:18:30
限制超大上下文的主要是内存带宽和容量成本,而非计算成本
1:22:02
1:22:02
可根据时长判断内存层级,排空时间等于存储容量除以存储带宽,希望该比值约为五分钟
1:26:04
1:26:04
密码协议将有结构信息变得随机,神经网络从随机信息中提取结构
1:27:07
1:27:07
随机初始化的神经网络可能可当密码用
1:28:47
1:28:47
Feistel 网络被引入神经网络,构造出可逆结构,此技术后来被应用到 Transformer 层
1:30:51
1:30:51
可逆网络无需存储激活值,反向传递时可重新计算,节省内存