75. 和 OpenAI 前研究员吴翼解读 o1:吹响了开挖第二座金矿的号角
张小珺Jùn|商业访谈录
2024/09/18
75. 和 OpenAI 前研究员吴翼解读 o1:吹响了开挖第二座金矿的号角
75. 和 OpenAI 前研究员吴翼解读 o1:吹响了开挖第二座金矿的号角

张小珺Jùn|商业访谈录
2024/09/18
本期节目聚焦于 OpenAI 发布的 o1 模型及其背后的技术细节,探讨了强化学习在 AGI 发展中的重要性。通过与边塞科技创始人吴翼的对话,深入分析了 o1 模型的特点以及其对人工智能未来发展的潜在影响。
吴翼从技术角度解读了 o1 模型,并分享了他在 OpenAI 的工作经历。他认为预训练阶段的潜力已逐渐减少,而强化学习为基础的后训练阶段将成为迈向 AGI 的关键。o1-preview 虽然尚未达到 ChatGPT 的水平,但其推理能力显著提升,特别是在解决复杂问题时表现优异。强化学习需要算力支持,但目前算力与模型能力之间的关系仍不明确。此外,奖励模型、搜索与探索及提示是强化学习的核心要素,其中奖励模型最具挑战性。Berkeley 自 2014 年起大规模投入深度强化学习,推动了该领域的发展。吴翼相信强化学习将带来通用能力而非垂类能力的提升,长文本处理和推理能力是实现 AGI 的重要步骤。他还讨论了通过 o1-preview 反向复原技术细节的可能性,强调了奖励机制的重要性。最后,吴翼回顾了 2019 年 OpenAI 内部关于 Scaling Law 的讨论,并分享了当年的管理方式和他对离开 OpenAI 的选择。
00:02
00:02
AGI 发展如同挖矿,预训练阶段金矿快挖完
02:56
02:56
所有 Ph.D. 都希望去 Google Research 或 DeepMind
03:11
03:11
OpenAI 曾暂停前沿学术研究,影响了顶尖学者的职业选择
05:03
05:03
OpenAI 模型的推理链可达几千个 token,技术要求极高
07:23
07:23
迈向 AGI 不是路线转弯,而是阶段更迭
09:01
09:01
ChatGPT 因强化学习 RLHF 而变得可用并火了起来
11:48
11:48
O1 模型推理能力显著提升,尤其在数学编程和科学问题上
13:54
13:54
强化学习需大量算力提升模型能力,如 Alpha Go、Alpha Star 等。
15:06
15:06
强化学习的三要素都很难,需全部做对才能提升能力
17:52
17:52
Berkeley 多个研究组集体转向强化学习,因 DeepMind 的成功启发
23:18
23:18
强化学习结合预训练模型和人类反馈可实现良好泛化效果
23:45
23:45
通用推理能力的提升需结合多领域知识
25:52
25:52
强化学习使 AI 具备自我探索和因果推理能力
32:16
32:16
OpenAI 的 Post Training 需要人类反馈,不能完全依赖自我进化
34:01
34:01
奖励模型可能不存在通用解,但可以尽量接近人类偏好。
39:27
39:27
推理能力提升有助于解决模型安全性问题
48:08
48:08
模型在训练和推理层面的 Scaling Law 双曲线增长能突破能力提升瓶颈
57:16
57:16
从四到五年的角度看,AI 行业充满机会,需保持关注新范式的普及
59:04
59:04
AI 从业者持乐观态度,认为各技术路线潜力待挖掘
1:01:35
1:01:35
OpenAI 内部矿未挖完,各小组缺乏协同
1:06:59
1:06:59
伟大不可能被规划的信仰可能错误
1:10:28
1:10:28
做一流工作可能需在美国,但中国人从零到一创业,中国是最好的地方。