scripod.com

#515. GPT-5、Claude 和 Gemini 的是如何训练与部署的

Overview

Shownote

Highlights

Transcript

Chapters

Pins

#515. GPT-5、Claude 和 Gemini 的是如何训练与部署的

跨国串门儿计划

4 DAYS AGO

#515. GPT-5、Claude 和 Gemini 的是如何训练与部署的

#515. GPT-5、Claude 和 Gemini 的是如何训练与部署的

跨国串门儿计划

跨国串门儿计划

4 DAYS AGO

Overview Shownote Highlights Transcript Chapters Pins

本期播客深入剖析大模型推理服务背后的硬件与系统级挑战，聚焦于为何 API 定价如此、长上下文为何昂贵、模型扩展为何放缓等现实问题。

嘉宾 Reiner Pope 以 Roofline 模型为起点，揭示批次大小是影响推理延迟与成本的核心变量：单用户推理成本可达批处理的上千倍，而最优批次大小≈300× 稀疏度，这一常数跨硬件稳定。他提出 “火车模型”—— 每 20 毫秒固定发车一次，解释了流式输出的延迟下限与付费提速的本质。内存墙而非算力，才是上下文长度的真正枷锁：KV 缓存随长度线性增长，导致 Gemini 等模型在 20 万 token 后成本跃升 50%；通过公开 API 定价，可反推出每 token 约 2KB 的 KV 缓存大小、存储层级（HBM/DDR/硬盘）乃至架构分片方式。他还指出，流水线并行无法缓解 KV 内存瓶颈，而混合专家（MoE）部署受限于机架内 NVLink 带宽与机架间八倍降速的物理瓶颈。最后，他类比密码学与神经网络 —— 同为多层混合结构，目标却相反：一个制造雪崩式随机，一个学习结构化表征；可逆网络正是从密码学借来的 “用计算换内存” 的关键创新。

00:00

00:00

大模型服务成本命门在于推理阶段的计算资源浪费

01:27

01:27

主理人以天使投资人身份提问 Cursor 快速模式的付费提速逻辑与慢速模式可行性

02:55

02:55

最大影响来自批次大小，要精确量化其对延迟和成本的影响

06:26

06:26

前向传播耗时由内存读取（尤其是 KV 缓存）主导，而非矩阵乘法

08:56

08:56

在特定上下文长度下内存与计算限制平衡是理想状态，稍微偏离会影响算力利用率

10:28

10:28

将成本曲线除以批量大小 b 后，KV 缓存读取变为常数，权重读取变为双曲线形状

12:00

12:00

计算性能除以内存带宽约等于 300，该值由活跃参数占比与批量大小共同决定

15:23

15:23

Jane Street 采用 FPGA 确保交易系统低延迟和确定性

19:08

19:08

HBM 访问几乎全是读操作，因权重矩阵只读，KVCache 访问也多为读

19:36

19:36

当前推理系统每秒处理约 12.8 万 token，仅为 Gemini 全球吞吐量的千分之一

23:42

23:42

扩大批次大小能带来纯收益，直到用户数不足

26:09

26:09

机架间通信可能成为混合专家模型的性能瓶颈

27:52

27:52

若将混合专家层跨两个机架布置，会因部分 token 需使用慢网络而成为全对全模式的瓶颈

34:37

34:37

活跃参数量受计算成本限制，总参数量受纵向扩展规模限制

35:42

35:42

纵向扩展时间是更重要的资源

43:12

43:12

推理中流水线并行对批次大小和延迟无影响，但可降低内存容量需求

45:16

45:16

超大规模云服务将一半资本支出用于内存

50:58

50:58

虽理论上多阶段流水线可只存一层 KV 值，但因要让机架有效忙碌，会增加同时进行的序列数量，两者抵消，无法在 KV 缓存上均摊

55:37

55:37

扩展规模大小有助于解决带宽问题，带宽问题能支持更长上下文长度

1:02:17

1:02:17

为让 GPT-5 最优训练，用户输入输出 token 总量应等于预训练总 Token 量，即全人类知识总和

1:04:25

1:04:25

前沿模型两个月存活期内消耗约 200 万亿 token

1:05:26

1:05:26

实际 GPT-5 预训练数据量约为 Chinchilla 最优值的 100 倍

1:09:52

1:09:52

解码成本约是预填充的五倍

1:12:50

1:12:50

Prefill 是计算受限，decode 是内存带宽受限

1:18:30

1:18:30

限制超大上下文的主要是内存带宽和容量成本，而非计算成本

1:22:02

1:22:02

可根据时长判断内存层级，排空时间等于存储容量除以存储带宽，希望该比值约为五分钟

1:26:04

1:26:04

密码协议将有结构信息变得随机，神经网络从随机信息中提取结构

1:27:07

1:27:07

随机初始化的神经网络可能可当密码用

1:28:47

1:28:47

Feistel 网络被引入神经网络，构造出可逆结构，此技术后来被应用到 Transformer 层

1:30:51

1:30:51

可逆网络无需存储激活值，反向传递时可重新计算，节省内存