scripod.com

75. 和OpenAI前研究员吴翼解读o1：吹响了开挖第二座金矿的号角

Overview

Shownote

Highlights

Transcript

Chapters

Pins

75. 和 OpenAI 前研究员吴翼解读 o1：吹响了开挖第二座金矿的号角

张小珺Jùn｜商业访谈录

2024/09/18

75. 和 OpenAI 前研究员吴翼解读 o1：吹响了开挖第二座金矿的号角

75. 和 OpenAI 前研究员吴翼解读 o1：吹响了开挖第二座金矿的号角

张小珺Jùn｜商业访谈录

张小珺Jùn｜商业访谈录

2024/09/18

Overview Shownote Highlights Transcript Chapters Pins

Shownote

上集节目，广密在 OpenAI o1 问世之前，准确地预言了代号为 “Strawberry”（草莓）的项目走向，以及它背后暗示的 AGI 范式已经转移，强化学习开启了新赛道。这集节目录制在 o1 问世之后，我第一时间和边塞科技创始人、清华叉院信息研究院助理教授，同时也是前 OpenAI 研究员的吴翼聊了聊。他的研究方向正是强化学习。吴翼从技术视角全方位地解读了 o1 模型，并且分享了只有内部视角才能看见的真实的 OpenAI。 > 我们的播客节目在腾讯新闻首发，大家可以前往关注哦，这样可以第一时间获取节目信息和更多新闻资讯：...

Highlights

本期节目聚焦于 OpenAI 发布的 o1 模型及其背后的技术细节，探讨了强化学习在 AGI 发展中的重要性。通过与边塞科技创始人吴翼的对话，深入分析了 o1 模型的特点以及其对人工智能未来发展的潜在影响。

00:02

AGI 发展如同挖矿，预训练阶段金矿快挖完

02:56

所有 Ph.D. 都希望去 Google Research 或 DeepMind

03:11

OpenAI 曾暂停前沿学术研究，影响了顶尖学者的职业选择

05:03

OpenAI 模型的推理链可达几千个 token，技术要求极高

07:23

迈向 AGI 不是路线转弯，而是阶段更迭

09:01

ChatGPT 因强化学习 RLHF 而变得可用并火了起来

11:48

O1 模型推理能力显著提升，尤其在数学编程和科学问题上

13:54

强化学习需大量算力提升模型能力，如 Alpha Go、Alpha Star 等。

15:06

强化学习的三要素都很难，需全部做对才能提升能力

17:52

Berkeley 多个研究组集体转向强化学习，因 DeepMind 的成功启发

23:18

强化学习结合预训练模型和人类反馈可实现良好泛化效果

23:45

通用推理能力的提升需结合多领域知识

25:52

强化学习使 AI 具备自我探索和因果推理能力

32:16

OpenAI 的 Post Training 需要人类反馈，不能完全依赖自我进化

34:01

奖励模型可能不存在通用解，但可以尽量接近人类偏好。

39:27

推理能力提升有助于解决模型安全性问题

48:08

模型在训练和推理层面的 Scaling Law 双曲线增长能突破能力提升瓶颈

57:16

从四到五年的角度看，AI 行业充满机会，需保持关注新范式的普及

59:04

AI 从业者持乐观态度，认为各技术路线潜力待挖掘

1:01:35

OpenAI 内部矿未挖完，各小组缺乏协同

1:06:59

伟大不可能被规划的信仰可能错误

1:10:28

做一流工作可能需在美国，但中国人从零到一创业，中国是最好的地方。

Chapters

赵小珺与吴翼探讨 O1 模型及 AGI 发展

00:00

2019 年在 OpenAI 做研究员

01:50

那个年代所有 PHD 都希望去 Google Brain 和 DeepMind

03:04

OpenAI o1-preview 初体验，很意外在用户使用端做这么大规模的推理

03:46

pre-training（预训练）能挖的金矿越来越少，以强化学习为基础的 post-training（后训练）是另一个大金矿，使迈向 AGI 的梯子多了几节

07:20

o1-preview 版本是 GPT-3 时刻，到没到 ChatGPT 时刻要看正式版本

09:00

o1 应该核心关注两个要点和背后的技术原理

10:33

强化学习能否探索出 Scaling Law 有希望，但很复杂

13:54

强化学习三要素: reward model + 搜索和探索 + prompt，每一块都很难

15:06

2014 年开始，UC Berkeley 集体转向，押注强化学习

16:42

RL 算法的演进: 从 DQN（Deep Q-Network）到 PPO（Proximal Policy Optimization）

19:36

相信会带来通用能力而不是垂类能力提升

23:45

长文本是实现 AGI 的第一步，推理能力是第二步

24:47

通过 o1-preview 能反向复原哪些技术细节？

29:57

reward model 不太可能有一个单独的小组闭着眼睛训练，是耦合的

34:00

思维链、安全、幻觉和算力

38:30

为什么这么项目叫 “Q*”？后来又叫 “草莓”？梗都很有意思

41:25

o1 不代表垂直模型，依然相信会出现全能的大统一模型

49:49

关于 Scaling Law，2019 年 OpenAI 内部讨论的细节

57:57

2019 年的 OpenAI 处于 “闭着眼睛挖矿的状态”

1:00:26

OpenAI 当年如何做管理: 搞大新闻、发博客，KPI 是博客关注量

1:03:20

2020 年离开 OpenAI 后悔吗？

1:10:28

Transcript

吴翼: 当时为什么叫这个模型叫草莓？是因为很多人会问一个问题。说 Strawberry 里面有几个 R，其实是这个梗。张小珺: 那为什么叫 QSTAR 呢？吴翼: 我知道的一个 rumor，这个 rumor 说的是因为 QSTAR。立刻他们决定换个名字。AGI 的过程就是一个挖矿的过程，大家要挖一个材料，去把这个梯子搭出来。然后你原来发现一个大金矿，你就预训练了，你就一直在挖。挖着挖着，发现好像快挖没了。但是它还有的挖，发现这又有个新情况，让我们再挖一挖。19 年的时候，我在 OpenAI 工作的时候，...

小宇宙

Open in 小宇宙