75. 和 OpenAI 前研究员吴翼解读 o1:吹响了开挖第二座金矿的号角
张小珺Jùn|商业访谈录
2024/09/18
75. 和 OpenAI 前研究员吴翼解读 o1:吹响了开挖第二座金矿的号角
75. 和 OpenAI 前研究员吴翼解读 o1:吹响了开挖第二座金矿的号角

张小珺Jùn|商业访谈录
2024/09/18
Shownote
Shownote
上集节目,广密在 OpenAI o1 问世之前,准确地预言了代号为 “Strawberry”(草莓)的项目走向,以及它背后暗示的 AGI 范式已经转移,强化学习开启了新赛道。 这集节目录制在 o1 问世之后,我第一时间和边塞科技创始人、清华叉院信息研究院助理教授,同时也是前 OpenAI 研究员的吴翼聊了聊。他的研究方向正是强化学习。吴翼从技术视角全方位地解读了 o1 模型,并且分享了只有内部视角才能看见的真实的 OpenAI。 > 我们的播客节目在腾讯新闻首发,大家可以前往关注哦,这样可以第一时间获取节目信息和更多新闻资讯:...
Highlights
Highlights
本期节目聚焦于 OpenAI 发布的 o1 模型及其背后的技术细节,探讨了强化学习在 AGI 发展中的重要性。通过与边塞科技创始人吴翼的对话,深入分析了 o1 模型的特点以及其对人工智能未来发展的潜在影响。
Chapters
Chapters
赵小珺与吴翼探讨 O1 模型及 AGI 发展
00:002019 年在 OpenAI 做研究员
01:50那个年代所有 PHD 都希望去 Google Brain 和 DeepMind
03:04OpenAI o1-preview 初体验,很意外在用户使用端做这么大规模的推理
03:46pre-training(预训练)能挖的金矿越来越少,以强化学习为基础的 post-training(后训练)是另一个大金矿,使迈向 AGI 的梯子多了几节
07:20o1-preview 版本是 GPT-3 时刻,到没到 ChatGPT 时刻要看正式版本
09:00o1 应该核心关注两个要点和背后的技术原理
10:33强化学习能否探索出 Scaling Law 有希望,但很复杂
13:54强化学习三要素: reward model + 搜索和探索 + prompt,每一块都很难
15:062014 年开始,UC Berkeley 集体转向,押注强化学习
16:42RL 算法的演进: 从 DQN(Deep Q-Network)到 PPO(Proximal Policy Optimization)
19:36相信会带来通用能力而不是垂类能力提升
23:45长文本是实现 AGI 的第一步,推理能力是第二步
24:47通过 o1-preview 能反向复原哪些技术细节?
29:57reward model 不太可能有一个单独的小组闭着眼睛训练,是耦合的
34:00思维链、安全、幻觉和算力
38:30为什么这么项目叫 “Q*”?后来又叫 “草莓”?梗都很有意思
41:25o1 不代表垂直模型,依然相信会出现全能的大统一模型
49:49关于 Scaling Law,2019 年 OpenAI 内部讨论的细节
57:572019 年的 OpenAI 处于 “闭着眼睛挖矿的状态”
1:00:26OpenAI 当年如何做管理: 搞大新闻、发博客,KPI 是博客关注量
1:03:202020 年离开 OpenAI 后悔吗?
1:10:28Transcript
Transcript
吴翼: 当时为什么叫这个模型叫草莓?是因为很多人会问一个问题。说 Strawberry 里面有几个 R,其实是这个梗。
张小珺: 那为什么叫 QSTAR 呢?
吴翼: 我知道的一个 rumor,这个 rumor 说的是因为 QSTAR。立刻他们决定换个名字。AGI 的过程就是一个挖矿的过程,大家要挖一个材料,去把这个梯子搭出来。然后你原来发现一个大金矿,你就预训练了,你就一直在挖。挖着挖着,发现好像快挖没了。但是它还有的挖,发现这又有个新情况,让我们再挖一挖。19 年的时候,我在 OpenAI 工作的时候,...

Open in 小宇宙