75. 和 OpenAI 前研究员吴翼解读 o1：吹响了开挖第二座金矿的号角

张小珺Jùn｜商业访谈录

2024/09/18

Overview Shownote Highlights Transcript Chapters Pins

本期节目聚焦于 OpenAI 发布的 o1 模型及其背后的技术细节，探讨了强化学习在 AGI 发展中的重要性。通过与边塞科技创始人吴翼的对话，深入分析了 o1 模型的特点以及其对人工智能未来发展的潜在影响。

吴翼从技术角度解读了 o1 模型，并分享了他在 OpenAI 的工作经历。他认为预训练阶段的潜力已逐渐减少，而强化学习为基础的后训练阶段将成为迈向 AGI 的关键。o1-preview 虽然尚未达到 ChatGPT 的水平，但其推理能力显著提升，特别是在解决复杂问题时表现优异。强化学习需要算力支持，但目前算力与模型能力之间的关系仍不明确。此外，奖励模型、搜索与探索及提示是强化学习的核心要素，其中奖励模型最具挑战性。Berkeley 自 2014 年起大规模投入深度强化学习，推动了该领域的发展。吴翼相信强化学习将带来通用能力而非垂类能力的提升，长文本处理和推理能力是实现 AGI 的重要步骤。他还讨论了通过 o1-preview 反向复原技术细节的可能性，强调了奖励机制的重要性。最后，吴翼回顾了 2019 年 OpenAI 内部关于 Scaling Law 的讨论，并分享了当年的管理方式和他对离开 OpenAI 的选择。