scripod.com

75. 和 OpenAI 前研究员吴翼解读 o1:吹响了开挖第二座金矿的号角

Shownote

上集节目,广密在 OpenAI o1 问世之前,准确地预言了代号为 “Strawberry”(草莓)的项目走向,以及它背后暗示的 AGI 范式已经转移,强化学习开启了新赛道。 这集节目录制在 o1 问世之后,我第一时间和边塞科技创始人、清华叉院信息研究院助理教授,同时也是前 OpenAI 研究员的吴翼聊了聊。他的研究方向正是强化学习。吴翼从技术视角全方位地解读了 o1 模型,并且分享了只有内部视角才能看见的真实的 OpenAI。 > 我们的播客节目在腾讯新闻首发,大家可以前往关注哦,这样可以第一时间获取节目信息和更多新闻资讯:...

Highlights

本期节目聚焦于 OpenAI 发布的 o1 模型及其背后的技术细节,探讨了强化学习在 AGI 发展中的重要性。通过与边塞科技创始人吴翼的对话,深入分析了 o1 模型的特点以及其对人工智能未来发展的潜在影响。
00:02
AGI 发展如同挖矿,预训练阶段金矿快挖完
02:56
所有 Ph.D. 都希望去 Google Research 或 DeepMind
03:11
OpenAI 曾暂停前沿学术研究,影响了顶尖学者的职业选择
05:03
OpenAI 模型的推理链可达几千个 token,技术要求极高
07:23
迈向 AGI 不是路线转弯,而是阶段更迭
09:01
ChatGPT 因强化学习 RLHF 而变得可用并火了起来
11:48
O1 模型推理能力显著提升,尤其在数学编程和科学问题上
13:54
强化学习需大量算力提升模型能力,如 Alpha Go、Alpha Star 等。
15:06
强化学习的三要素都很难,需全部做对才能提升能力
17:52
Berkeley 多个研究组集体转向强化学习,因 DeepMind 的成功启发
23:18
强化学习结合预训练模型和人类反馈可实现良好泛化效果
23:45
通用推理能力的提升需结合多领域知识
25:52
强化学习使 AI 具备自我探索和因果推理能力
32:16
OpenAI 的 Post Training 需要人类反馈,不能完全依赖自我进化
34:01
奖励模型可能不存在通用解,但可以尽量接近人类偏好。
39:27
推理能力提升有助于解决模型安全性问题
48:08
模型在训练和推理层面的 Scaling Law 双曲线增长能突破能力提升瓶颈
57:16
从四到五年的角度看,AI 行业充满机会,需保持关注新范式的普及
59:04
AI 从业者持乐观态度,认为各技术路线潜力待挖掘
1:01:35
OpenAI 内部矿未挖完,各小组缺乏协同
1:06:59
伟大不可能被规划的信仰可能错误
1:10:28
做一流工作可能需在美国,但中国人从零到一创业,中国是最好的地方。

Chapters

赵小珺与吴翼探讨 O1 模型及 AGI 发展
00:00
2019 年在 OpenAI 做研究员
01:50
那个年代所有 PHD 都希望去 Google Brain 和 DeepMind
03:04
OpenAI o1-preview 初体验,很意外在用户使用端做这么大规模的推理
03:46
pre-training(预训练)能挖的金矿越来越少,以强化学习为基础的 post-training(后训练)是另一个大金矿,使迈向 AGI 的梯子多了几节
07:20
o1-preview 版本是 GPT-3 时刻,到没到 ChatGPT 时刻要看正式版本
09:00
o1 应该核心关注两个要点和背后的技术原理
10:33
强化学习能否探索出 Scaling Law 有希望,但很复杂
13:54
强化学习三要素: reward model + 搜索和探索 + prompt,每一块都很难
15:06
2014 年开始,UC Berkeley 集体转向,押注强化学习
16:42
RL 算法的演进: 从 DQN(Deep Q-Network)到 PPO(Proximal Policy Optimization)
19:36
相信会带来通用能力而不是垂类能力提升
23:45
长文本是实现 AGI 的第一步,推理能力是第二步
24:47
通过 o1-preview 能反向复原哪些技术细节?
29:57
reward model 不太可能有一个单独的小组闭着眼睛训练,是耦合的
34:00
思维链、安全、幻觉和算力
38:30
为什么这么项目叫 “Q*”?后来又叫 “草莓”?梗都很有意思
41:25
o1 不代表垂直模型,依然相信会出现全能的大统一模型
49:49
关于 Scaling Law,2019 年 OpenAI 内部讨论的细节
57:57
2019 年的 OpenAI 处于 “闭着眼睛挖矿的状态”
1:00:26
OpenAI 当年如何做管理: 搞大新闻、发博客,KPI 是博客关注量
1:03:20
2020 年离开 OpenAI 后悔吗?
1:10:28

Transcript

吴翼: 当时为什么叫这个模型叫草莓?是因为很多人会问一个问题。说 Strawberry 里面有几个 R,其实是这个梗。 张小珺: 那为什么叫 QSTAR 呢? 吴翼: 我知道的一个 rumor,这个 rumor 说的是因为 QSTAR。立刻他们决定换个名字。AGI 的过程就是一个挖矿的过程,大家要挖一个材料,去把这个梯子搭出来。然后你原来发现一个大金矿,你就预训练了,你就一直在挖。挖着挖着,发现好像快挖没了。但是它还有的挖,发现这又有个新情况,让我们再挖一挖。19 年的时候,我在 OpenAI 工作的时候,...
小宇宙
Open in 小宇宙