翁家翌:OpenAI,GPT,强化学习,Infra,后训练,天授,tuixue,开源,CMU,清华|WhynotTV Podcast #4
WhynotTV Podcast
Jan 17
翁家翌:OpenAI,GPT,强化学习,Infra,后训练,天授,tuixue,开源,CMU,清华|WhynotTV Podcast #4
翁家翌:OpenAI,GPT,强化学习,Infra,后训练,天授,tuixue,开源,CMU,清华|WhynotTV Podcast #4

WhynotTV Podcast
Jan 17
Shownote
Shownote
本期嘉宾翁家翌。他在 2022 年加入 OpenAI,并且是 OpenAI 一系列核心模型背后的核心贡献者之一 —— 从 GPT-3.5、GPT-4、再到 GPT-5,你能看到的那些关键跃迁里,都有他的身影;而他最主要的贡献,你可以先记住三个词:强化学习、post-training、infra。但对我来说,翁家翌不只是 “把模型做得更强的人”。在成为 OpenAI 研究员之前,他就已经用开源和产品影响过无数人:把知识与资料公开、试图打破信息差;把做工具称作一种 “慈善”—— 在他的价值观里,开源不是履历装饰,而是一种...
Highlights
Highlights
翁家翌是一位深度参与大模型技术演进的实践者,他的成长轨迹贯穿了从开源贡献到工业级 AI 系统建设的全过程。他不仅见证了 AI 时代的跃迁,更在基础设施、强化学习与后训练等关键领域留下深刻印记。在这段对话中,他分享了从学生时代到 OpenAI 核心团队的心路历程。
Chapters
Chapters
翁家翌讲述 AI 成长与研发经历
00:00小时候的翁家翌是什么样的小孩
02:33成长过程中的投资未来的意识
05:56高中计算机竞赛与升学
08:10在清华开源作业与信息差
16:02在本科与强化学习结缘
19:23在 Yoshua Bengio 组暑研做 NLP 的经历
28:00对前 ChatGPT 时代的 NLP 和 RL 有什么反思
30:38留学申请季受挫的经历
32:47对固有评价体系的挣脱
35:28天授 Tianshou 强化学习框架的前世今生
41:08tuixue online 签证查询系统
48:07追求影响力 impact 的底层逻辑是什么
49:54CMU 读研与加入 OpenAI 的经历
56:21和 John Schulman 的面试故事
59:46为什么没有考虑读 PhD
1:01:54研究能力和工程能力谁更重要
1:03:16infra 的重要性
1:06:31还会鼓励今天的学生读 AI PhD 吗
1:09:28什么是强化学习和 post-training(后训练)
1:13:13加入 OpenAI 的时候 ChatGPT 是主线吗
1:14:22发布 ChatGPT 前可以想象这样大规模的成功吗
1:16:012022 年加入 OpenAI 的初印象是什么
1:19:18OpenAI 的人才密度与组织架构
1:20:52GPT 强化学习 Post-training 的前世今生
1:24:09在 2022 年做 RLHF 有什么关键的挑战与突破
1:25:10大模型工业级 RL infra 的挑战
1:27:01未来 5-10 年大语言模型的挑战和瓶颈会是是什么
1:32:08现在的预训练和后训练可以达到 AGI 吗
1:36:30OpenAI 还 Open 吗
1:38:34OpenAI 实现 AGI 使命的最大挑战是什么
1:43:30内部视角看 Sam Altman 被开除的经历
1:44:02如何看待 OpenAI 的人才流失
1:46:37OpenAI 面对 AI 竞赛的内部视角
1:47:43未来与宿命论
1:52:48考虑过创业吗
1:58:35希望十年后的自己是什么样的
2:00:01Transcript
Transcript
翁家翌: OpenAI 很多这个 model release 都有我的名字,这个就是因为我在 OpenAI 的内部。搭了整个 post training 的 RL infra。
Tairan He: 所以整个 post training 的 RL infra,你是最核心的贡献者了。是的。
翁家翌: 因为我觉得应该打破信息差,信息差是一个就是。如果你在清华深层的话,是一个很有用的东西,但是我觉得每个人都应该平等的拥有这个信息。哪怕当时有了现代的认知,那还是做不出来。没有我不想发 paper,我觉得发 pape...