scripod.com

翁家翌：OpenAI，GPT，强化学习，Infra，后训练，天授，tuixue，开源，CMU，清华｜WhynotTV Podcast #4

Overview

Shownote

Highlights

Transcript

Chapters

Pins

翁家翌：OpenAI，GPT，强化学习，Infra，后训练，天授，tuixue，开源，CMU，清华｜WhynotTV Podcast #4

WhynotTV Podcast

Jan 17

翁家翌：OpenAI，GPT，强化学习，Infra，后训练，天授，tuixue，开源，CMU，清华｜WhynotTV Podcast #4

翁家翌：OpenAI，GPT，强化学习，Infra，后训练，天授，tuixue，开源，CMU，清华｜WhynotTV Podcast #4

WhynotTV Podcast

WhynotTV Podcast

Jan 17

Overview Shownote Highlights Transcript Chapters Pins

Shownote

本期嘉宾翁家翌。他在 2022 年加入 OpenAI，并且是 OpenAI 一系列核心模型背后的核心贡献者之一 —— 从 GPT-3.5、GPT-4、再到 GPT-5，你能看到的那些关键跃迁里，都有他的身影；而他最主要的贡献，你可以先记住三个词：强化学习、post-training、infra。但对我来说，翁家翌不只是 “把模型做得更强的人”。在成为 OpenAI 研究员之前，他就已经用开源和产品影响过无数人：把知识与资料公开、试图打破信息差；把做工具称作一种 “慈善”—— 在他的价值观里，开源不是履历装饰，而是一种...

Highlights

翁家翌是一位深度参与大模型技术演进的实践者，他的成长轨迹贯穿了从开源贡献到工业级 AI 系统建设的全过程。他不仅见证了 AI 时代的跃迁，更在基础设施、强化学习与后训练等关键领域留下深刻印记。在这段对话中，他分享了从学生时代到 OpenAI 核心团队的心路历程。

04:55

学新东西慢，但理解后能迅速建立知识链接并解题

07:55

正反馈会使人产生自发内生的兴趣，并非源于家庭环境。

15:33

真正喜欢竞赛的人能从代码优化中获得快乐

18:26

将作业开源能帮助学弟学妹节省时间，其作业在清华已成为广为流传的 github repo

21:48

发明新算法渲染出 16K 高清无噪点图像

32:49

学历高低并非决定发展的唯一因素

35:30

在开源社区做事对长期发展更有利

41:10

一个算法的实现代码不到 20 行，体现高度抽象与简洁设计

48:09

因自身查签证需求而开发了开源爬虫工具

52:32

做有意义的事是为了让别人记得，而不是追求名望

56:22

在不知 ChatGPT 即将发布的情况下选择了 OpenAI

59:49

John Schulman 出的开放式端到端题目，三小时完成，两小时即解出并现场修复 bug。

1:01:57

凭借硕士学历和项目经验，足以在工业界与博士竞争

1:03:19

教研究员做工程比教工程师做研究更难

1:08:45

做 Infra 比单个 research 更易规模化

1:11:56

停止天授开发，转投 OpenAI 内部 RL Infra 建设

1:18:20

推出 ChatGPT 初衷是收集真实用户数据，原计划若无人使用就关闭

1:23:02

管公司和管代码库都需保持一致性

1:25:11

自动评估噪音大，最终依靠人类反馈进行模型判断

1:29:43

高强度工作下开始注重身体养护，养成每周跑步两次的习惯

1:34:36

AI 可能先取代研究人员，再取代 Infra 工程师

1:41:11

若 AGI 尚远，更开放的技术透明或利于目标达成

1:44:02

实现 AGI 需兼顾技术与商业，短期内无人能替代 Sam Altman 的角色。

1:46:40

OpenAI 的成功并非依赖个别人才，组织能力可复制

1:50:40

未来公司或许会用 AI agent 担任 CEO 做决策

1:52:52

能够预测未来的 AI 会摧毁人类价值体系，最好毁掉

1:58:36

技术不重要，关键是抓住需求

2:02:04

希望你在 2025 年的播客结尾，留一分钟问问自己真正想要什么

Chapters

翁家翌讲述 AI 成长与研发经历

00:00

小时候的翁家翌是什么样的小孩

02:33

成长过程中的投资未来的意识

05:56

高中计算机竞赛与升学

08:10

在清华开源作业与信息差

16:02

在本科与强化学习结缘

19:23

在 Yoshua Bengio 组暑研做 NLP 的经历

28:00

对前 ChatGPT 时代的 NLP 和 RL 有什么反思

30:38

留学申请季受挫的经历

32:47

对固有评价体系的挣脱

35:28

天授 Tianshou 强化学习框架的前世今生

41:08

tuixue online 签证查询系统

48:07

追求影响力 impact 的底层逻辑是什么

49:54

CMU 读研与加入 OpenAI 的经历

56:21

和 John Schulman 的面试故事

59:46

为什么没有考虑读 PhD

1:01:54

研究能力和工程能力谁更重要

1:03:16

infra 的重要性

1:06:31

还会鼓励今天的学生读 AI PhD 吗

1:09:28

什么是强化学习和 post-training（后训练）

1:13:13

加入 OpenAI 的时候 ChatGPT 是主线吗

1:14:22

发布 ChatGPT 前可以想象这样大规模的成功吗

1:16:01

2022 年加入 OpenAI 的初印象是什么

1:19:18

OpenAI 的人才密度与组织架构

1:20:52

GPT 强化学习 Post-training 的前世今生

1:24:09

在 2022 年做 RLHF 有什么关键的挑战与突破

1:25:10

大模型工业级 RL infra 的挑战

1:27:01

未来 5-10 年大语言模型的挑战和瓶颈会是是什么

1:32:08

现在的预训练和后训练可以达到 AGI 吗

1:36:30

OpenAI 还 Open 吗

1:38:34

OpenAI 实现 AGI 使命的最大挑战是什么

1:43:30

内部视角看 Sam Altman 被开除的经历

1:44:02

如何看待 OpenAI 的人才流失

1:46:37

OpenAI 面对 AI 竞赛的内部视角

1:47:43

未来与宿命论

1:52:48

考虑过创业吗

1:58:35

希望十年后的自己是什么样的

2:00:01

Transcript

翁家翌: OpenAI 很多这个 model release 都有我的名字，这个就是因为我在 OpenAI 的内部。搭了整个 post training 的 RL infra。 Tairan He: 所以整个 post training 的 RL infra，你是最核心的贡献者了。是的。翁家翌: 因为我觉得应该打破信息差，信息差是一个就是。如果你在清华深层的话，是一个很有用的东西，但是我觉得每个人都应该平等的拥有这个信息。哪怕当时有了现代的认知，那还是做不出来。没有我不想发 paper，我觉得发 pape...