scripod.com

#515. GPT-5、Claude 和 Gemini 的是如何训练与部署的

Overview

Shownote

Highlights

Transcript

Chapters

Pins

#515. GPT-5、Claude 和 Gemini 的是如何训练与部署的

跨国串门儿计划

4 DAYS AGO

#515. GPT-5、Claude 和 Gemini 的是如何训练与部署的

#515. GPT-5、Claude 和 Gemini 的是如何训练与部署的

跨国串门儿计划

跨国串门儿计划

4 DAYS AGO

Overview Shownote Highlights Transcript Chapters Pins

Shownote

本期播客简介本期我们克隆了硅谷硬核科技播客《Dwarkesh Patel》How GPT-5, Claude, and Gemini are actually trained and served – Reiner Pope 嘉宾 Reiner Pope 是芯片初创公司 Maddox 的 CEO，更早之前曾在谷歌负责 TPU 架构设计。整期节目采用 “黑板讲座” 的形式，Reiner 从最基础的 roofline 模型出发，一步步推导出批次大小如何影响大模型推理的延迟与成本，揭示了 “内存墙” 为什么是上下...

Highlights

本期播客深入剖析大模型推理服务背后的硬件与系统级挑战，聚焦于为何 API 定价如此、长上下文为何昂贵、模型扩展为何放缓等现实问题。

00:00

大模型服务成本命门在于推理阶段的计算资源浪费

01:27

主理人以天使投资人身份提问 Cursor 快速模式的付费提速逻辑与慢速模式可行性

02:55

最大影响来自批次大小，要精确量化其对延迟和成本的影响

06:26

前向传播耗时由内存读取（尤其是 KV 缓存）主导，而非矩阵乘法

08:56

在特定上下文长度下内存与计算限制平衡是理想状态，稍微偏离会影响算力利用率

10:28

将成本曲线除以批量大小 b 后，KV 缓存读取变为常数，权重读取变为双曲线形状

12:00

计算性能除以内存带宽约等于 300，该值由活跃参数占比与批量大小共同决定

15:23

Jane Street 采用 FPGA 确保交易系统低延迟和确定性

19:08

HBM 访问几乎全是读操作，因权重矩阵只读，KVCache 访问也多为读

19:36

当前推理系统每秒处理约 12.8 万 token，仅为 Gemini 全球吞吐量的千分之一

23:42

扩大批次大小能带来纯收益，直到用户数不足

26:09

机架间通信可能成为混合专家模型的性能瓶颈

27:52

若将混合专家层跨两个机架布置，会因部分 token 需使用慢网络而成为全对全模式的瓶颈

34:37

活跃参数量受计算成本限制，总参数量受纵向扩展规模限制

35:42

纵向扩展时间是更重要的资源

43:12

推理中流水线并行对批次大小和延迟无影响，但可降低内存容量需求

45:16

超大规模云服务将一半资本支出用于内存

50:58

虽理论上多阶段流水线可只存一层 KV 值，但因要让机架有效忙碌，会增加同时进行的序列数量，两者抵消，无法在 KV 缓存上均摊

55:37

扩展规模大小有助于解决带宽问题，带宽问题能支持更长上下文长度

1:02:17

为让 GPT-5 最优训练，用户输入输出 token 总量应等于预训练总 Token 量，即全人类知识总和

1:04:25

前沿模型两个月存活期内消耗约 200 万亿 token

1:05:26

实际 GPT-5 预训练数据量约为 Chinchilla 最优值的 100 倍

1:09:52

解码成本约是预填充的五倍

1:12:50

Prefill 是计算受限，decode 是内存带宽受限

1:18:30

限制超大上下文的主要是内存带宽和容量成本，而非计算成本

1:22:02

可根据时长判断内存层级，排空时间等于存储容量除以存储带宽，希望该比值约为五分钟

1:26:04

密码协议将有结构信息变得随机，神经网络从随机信息中提取结构

1:27:07

随机初始化的神经网络可能可当密码用

1:28:47

Feistel 网络被引入神经网络，构造出可逆结构，此技术后来被应用到 Transformer 层

1:30:51

可逆网络无需存储激活值，反向传递时可重新计算，节省内存

Chapters

开场与技术形式

Yikai 开场及节目介绍

00:00

Dwarkesh 介绍嘉宾与 “黑板讲座” 设置

01:26

Roofline 模型与批次大小的艺术

为什么要从 “批次大小” 开始？它对延迟和成本的决定性影响

02:53

批处理为什么能节省上千倍成本？

04:33

一张延迟图看懂内存时间与计算时间的平衡

07:04

稀疏注意力与最优批次大小的代数推导

10:25

单用户推理为什么贵？成本曲线揭示的无穷大起点

12:00

最优批次大小≈300× 稀疏度，一个跨硬件稳定的常数

15:20

推理引擎的 “火车模型”：每 20 毫秒固定发车

17:08

从每秒 12.8 万 token 反推前沿模型的多大用户量

19:35

增加稀疏度划算吗？《路由语言模型统一法则》告诉你答案

21:38

模型架构与硬件拓扑

混合专家层如何分片到 GPU 机架上

24:15

机架内的 NVLink 高速网络与机架间慢八倍的 “瓶颈”

27:47

为什么 GPT‑4 之后模型规模扩展变慢了？不是计算，是内存容量在等机架

32:33

流水线并行真的省了内存吗？通信模式的代数拆解

35:40

流水线气泡：训练中的微批次权衡与推理中的 “不费脑” 设计

39:45

内存墙、过度训练与规模法则

内存容量真的过剩吗？为何大家还在砸钱买 HBM？

45:12

为什么流水线并行对 KV 缓存无效？内存容量的死结

49:03

过度训练 100 倍？从 Chinchilla 最优到真实世界的偏离

52:00

预训练、强化学习与推理 token 的最优成本分配

58:23

惊人反推：预训练数据量其实约等于模型整个生命周期的推理 token 数

1:04:24

从 API 定价反推技术架构

Gemini 长上下文加价 50% 的硬件解释

1:05:26

价格如何泄露秘密：每个 token 的字节数、KV 缓存大小都能算出来

1:09:50

输出 token 为什么比输入贵 5 倍？解码与预填充的内存带宽真相

1:12:47

KV 缓存命中便宜 10 倍：HBM、DDR 与机械硬盘的角色分配

1:14:51

5 分钟 vs 1 小时：定价时长正好对应闪存与机械硬盘的 “排空时间”

1:22:00

交叉学科火花

神经网络与密码学：同样的 “混合” 结构，相反的训练目标

1:24:17

对抗攻击与后门：神经网络里的 “雪崩效应”

1:27:06

从密码学借来的可逆网络：用计算换内存，反向传播不用存激活值

1:28:45

结尾

结语与致谢

1:30:50

Transcript

Reiner Pope: 欢迎收听跨国串门儿计划，这是一档专注于让中文听众无障碍欣赏全球优质外语播客的节目。通过先进的 AI 声音克隆技术，我们不仅将内容翻译成中文，还完美保留了原主持人和嘉宾的独特声音，为您呈现全球顶尖的 AI 财经，健康与科技领域精品内容。我是主播 yikai, 一位热衷于 AI 领域的产品经理。很荣幸能为您搭建这座跨越语言障碍的桥梁。接下来，让我为您简单介绍本期我们克隆的这档节目，并分享几句非常精彩的原话。本期我们克隆的是 Dwarkesh Patel 主持的一档深度科技对谈。他本人是...

小宇宙

Open in 小宇宙