scripod.com

翁家翌:OpenAI,GPT,强化学习,Infra,后训练,天授,tuixue,开源,CMU,清华|WhynotTV Podcast #4

WhynotTV Podcast

Shownote

本期嘉宾翁家翌。他在 2022 年加入 OpenAI,并且是 OpenAI 一系列核心模型背后的核心贡献者之一 —— 从 GPT-3.5、GPT-4、再到 GPT-5,你能看到的那些关键跃迁里,都有他的身影;而他最主要的贡献,你可以先记住三个词:强化学习、post-training、infra。但对我来说,翁家翌不只是 “把模型做得更强的人”。在成为 OpenAI 研究员之前,他就已经用开源和产品影响过无数人:把知识与资料公开、试图打破信息差;把做工具称作一种 “慈善”—— 在他的价值观里,开源不是履历装饰,而是一种...

Highlights

翁家翌是一位深度参与大模型技术演进的实践者,他的成长轨迹贯穿了从开源贡献到工业级 AI 系统建设的全过程。他不仅见证了 AI 时代的跃迁,更在基础设施、强化学习与后训练等关键领域留下深刻印记。在这段对话中,他分享了从学生时代到 OpenAI 核心团队的心路历程。
04:55
学新东西慢,但理解后能迅速建立知识链接并解题
07:55
正反馈会使人产生自发内生的兴趣,并非源于家庭环境。
15:33
真正喜欢竞赛的人能从代码优化中获得快乐
18:26
将作业开源能帮助学弟学妹节省时间,其作业在清华已成为广为流传的 github repo
21:48
发明新算法渲染出 16K 高清无噪点图像
32:49
学历高低并非决定发展的唯一因素
35:30
在开源社区做事对长期发展更有利
41:10
一个算法的实现代码不到 20 行,体现高度抽象与简洁设计
48:09
因自身查签证需求而开发了开源爬虫工具
52:32
做有意义的事是为了让别人记得,而不是追求名望
56:22
在不知 ChatGPT 即将发布的情况下选择了 OpenAI
59:49
John Schulman 出的开放式端到端题目,三小时完成,两小时即解出并现场修复 bug。
1:01:57
凭借硕士学历和项目经验,足以在工业界与博士竞争
1:03:19
教研究员做工程比教工程师做研究更难
1:08:45
做 Infra 比单个 research 更易规模化
1:11:56
停止天授开发,转投 OpenAI 内部 RL Infra 建设
1:18:20
推出 ChatGPT 初衷是收集真实用户数据,原计划若无人使用就关闭
1:23:02
管公司和管代码库都需保持一致性
1:25:11
自动评估噪音大,最终依靠人类反馈进行模型判断
1:29:43
高强度工作下开始注重身体养护,养成每周跑步两次的习惯
1:34:36
AI 可能先取代研究人员,再取代 Infra 工程师
1:41:11
若 AGI 尚远,更开放的技术透明或利于目标达成
1:44:02
实现 AGI 需兼顾技术与商业,短期内无人能替代 Sam Altman 的角色。
1:46:40
OpenAI 的成功并非依赖个别人才,组织能力可复制
1:50:40
未来公司或许会用 AI agent 担任 CEO 做决策
1:52:52
能够预测未来的 AI 会摧毁人类价值体系,最好毁掉
1:58:36
技术不重要,关键是抓住需求
2:02:04
希望你在 2025 年的播客结尾,留一分钟问问自己真正想要什么

Chapters

翁家翌讲述 AI 成长与研发经历
00:00
小时候的翁家翌是什么样的小孩
02:33
成长过程中的投资未来的意识
05:56
高中计算机竞赛与升学
08:10
在清华开源作业与信息差
16:02
在本科与强化学习结缘
19:23
在 Yoshua Bengio 组暑研做 NLP 的经历
28:00
对前 ChatGPT 时代的 NLP 和 RL 有什么反思
30:38
留学申请季受挫的经历
32:47
对固有评价体系的挣脱
35:28
天授 Tianshou 强化学习框架的前世今生
41:08
tuixue online 签证查询系统
48:07
追求影响力 impact 的底层逻辑是什么
49:54
CMU 读研与加入 OpenAI 的经历
56:21
和 John Schulman 的面试故事
59:46
为什么没有考虑读 PhD
1:01:54
研究能力和工程能力谁更重要
1:03:16
infra 的重要性
1:06:31
还会鼓励今天的学生读 AI PhD 吗
1:09:28
什么是强化学习和 post-training(后训练)
1:13:13
加入 OpenAI 的时候 ChatGPT 是主线吗
1:14:22
发布 ChatGPT 前可以想象这样大规模的成功吗
1:16:01
2022 年加入 OpenAI 的初印象是什么
1:19:18
OpenAI 的人才密度与组织架构
1:20:52
GPT 强化学习 Post-training 的前世今生
1:24:09
在 2022 年做 RLHF 有什么关键的挑战与突破
1:25:10
大模型工业级 RL infra 的挑战
1:27:01
未来 5-10 年大语言模型的挑战和瓶颈会是是什么
1:32:08
现在的预训练和后训练可以达到 AGI 吗
1:36:30
OpenAI 还 Open 吗
1:38:34
OpenAI 实现 AGI 使命的最大挑战是什么
1:43:30
内部视角看 Sam Altman 被开除的经历
1:44:02
如何看待 OpenAI 的人才流失
1:46:37
OpenAI 面对 AI 竞赛的内部视角
1:47:43
未来与宿命论
1:52:48
考虑过创业吗
1:58:35
希望十年后的自己是什么样的
2:00:01

Transcript

翁家翌: OpenAI 很多这个 model release 都有我的名字,这个就是因为我在 OpenAI 的内部。搭了整个 post training 的 RL infra。 Tairan He: 所以整个 post training 的 RL infra,你是最核心的贡献者了。是的。 翁家翌: 因为我觉得应该打破信息差,信息差是一个就是。如果你在清华深层的话,是一个很有用的东西,但是我觉得每个人都应该平等的拥有这个信息。哪怕当时有了现代的认知,那还是做不出来。没有我不想发 paper,我觉得发 pape...