翁家翌:OpenAI,GPT,强化学习,Infra,后训练,天授,tuixue,开源,CMU,清华|WhynotTV Podcast #4
WhynotTV Podcast
Jan 17
翁家翌:OpenAI,GPT,强化学习,Infra,后训练,天授,tuixue,开源,CMU,清华|WhynotTV Podcast #4
翁家翌:OpenAI,GPT,强化学习,Infra,后训练,天授,tuixue,开源,CMU,清华|WhynotTV Podcast #4

WhynotTV Podcast
Jan 17
翁家翌是一位深度参与大模型技术演进的实践者,他的成长轨迹贯穿了从开源贡献到工业级 AI 系统建设的全过程。他不仅见证了 AI 时代的跃迁,更在基础设施、强化学习与后训练等关键领域留下深刻印记。在这段对话中,他分享了从学生时代到 OpenAI 核心团队的心路历程。
翁家翌自幼展现出超前学习能力,在清华期间便通过开源项目打破信息差,推动教育公平。他早年误入强化学习方向,虽经历科研挫折,却由此认清工程基础设施对 AI 发展的决定性作用。留学 CMU 后,他加入 OpenAI,投身 GPT 系列模型的 RLHF 与 post-training 系统建设,亲历 ChatGPT 发布前后的技术挑战与突破。他强调人工反馈在训练中的核心地位,并指出当前大模型的瓶颈在于 infra 迭代效率而非算法创新。面对 AGI 未来,他认为组织架构、人才密度和迭代速度比榜单排名更重要,也反思了开源精神与商业现实之间的张力。他不鼓励盲目读博,主张以实际影响力为导向,坚持用工具和系统创造长期价值。
04:55
04:55
学新东西慢,但理解后能迅速建立知识链接并解题
07:55
07:55
正反馈会使人产生自发内生的兴趣,并非源于家庭环境。
15:33
15:33
真正喜欢竞赛的人能从代码优化中获得快乐
18:26
18:26
将作业开源能帮助学弟学妹节省时间,其作业在清华已成为广为流传的 github repo
21:48
21:48
发明新算法渲染出 16K 高清无噪点图像
32:49
32:49
学历高低并非决定发展的唯一因素
35:30
35:30
在开源社区做事对长期发展更有利
41:10
41:10
一个算法的实现代码不到 20 行,体现高度抽象与简洁设计
48:09
48:09
因自身查签证需求而开发了开源爬虫工具
52:32
52:32
做有意义的事是为了让别人记得,而不是追求名望
56:22
56:22
在不知 ChatGPT 即将发布的情况下选择了 OpenAI
59:49
59:49
John Schulman 出的开放式端到端题目,三小时完成,两小时即解出并现场修复 bug。
1:01:57
1:01:57
凭借硕士学历和项目经验,足以在工业界与博士竞争
1:03:19
1:03:19
教研究员做工程比教工程师做研究更难
1:08:45
1:08:45
做 Infra 比单个 research 更易规模化
1:11:56
1:11:56
停止天授开发,转投 OpenAI 内部 RL Infra 建设
1:18:20
1:18:20
推出 ChatGPT 初衷是收集真实用户数据,原计划若无人使用就关闭
1:23:02
1:23:02
管公司和管代码库都需保持一致性
1:25:11
1:25:11
自动评估噪音大,最终依靠人类反馈进行模型判断
1:29:43
1:29:43
高强度工作下开始注重身体养护,养成每周跑步两次的习惯
1:34:36
1:34:36
AI 可能先取代研究人员,再取代 Infra 工程师
1:41:11
1:41:11
若 AGI 尚远,更开放的技术透明或利于目标达成
1:44:02
1:44:02
实现 AGI 需兼顾技术与商业,短期内无人能替代 Sam Altman 的角色。
1:46:40
1:46:40
OpenAI 的成功并非依赖个别人才,组织能力可复制
1:50:40
1:50:40
未来公司或许会用 AI agent 担任 CEO 做决策
1:52:52
1:52:52
能够预测未来的 AI 会摧毁人类价值体系,最好毁掉
1:58:36
1:58:36
技术不重要,关键是抓住需求
2:02:04
2:02:04
希望你在 2025 年的播客结尾,留一分钟问问自己真正想要什么