scripod.com

88. 和吴翼技术解读OpenAI Operator：推理从抽象世界走向物理世界的开端

Overview

Shownote

Highlights

Transcript

Chapters

Pins

88. 和吴翼技术解读 OpenAI Operator：推理从抽象世界走向物理世界的开端

张小珺Jùn｜商业访谈录

2025/01/24

88. 和吴翼技术解读 OpenAI Operator：推理从抽象世界走向物理世界的开端

88. 和吴翼技术解读 OpenAI Operator：推理从抽象世界走向物理世界的开端

张小珺Jùn｜商业访谈录

张小珺Jùn｜商业访谈录

2025/01/24

Overview Shownote Highlights Transcript Chapters Pins

Shownote

2025 刚开年，全球 AI 届就已高度共识，将 2025 年定义为 “智能体元年”。北京时间 1 月 24 日凌晨，OpenAI 率先抢跑，发布智能体产品 Operator（操作员），打响了全球智能体竞赛的第一枪。在 Operator 发布前，广密在我们的节目中预言，25 年核心关键词是 Agent、Agent、Agent，这些 AI 产品最终会演变成一个任务容器，朝着 “下一个 Google” 方向进发。本集节目，在 Operator 发布后，我邀请前 OpenAI 研究员、清华叉院信息研究院助理教授吴翼，从技术视角解读 Operator 和 A...

Highlights

2025 年刚开年，全球 AI 界已将这一年定义为 “智能体元年”。随着 OpenAI 发布智能体产品 Operator，标志着全球智能体竞赛的开始。本期节目邀请了前 OpenAI 研究员吴翼，从技术角度解读 Operator 及其背后的意义。

02:58

AI 能够像人一样关闭弹窗广告和计算退款金额

06:04

O1 后训练进展符合预期，OpenAI 或有更强模型

06:37

O1、O3 及后续版本能提升智力，对 scaling law 有信心

10:22

OpenAI 的 Operator 因多模态输入天然具备更好的泛化性和反馈能力

12:50

好的计算模型、高质量人类数据和高效率的大规模强化学习系统结合可得到 operator 模型

15:53

新一代 Operator 比传统 Web Agent 更智能且效果更好

19:05

实现通用 Agent 需要好的基座模型和成熟的强化学习训练框架

22:19

基础模型和强化学习对 OpenAI 的成功至关重要

29:34

AI 是自动化的终极形态，目标是解放人类生产力

31:28

涉及下单、付钱时系统引入人工介入机制

34:04

动作定义简单，询问 Agent 协作机制

37:21

Operator 的能力实现依赖于基础模型、人类标注数据和复杂测试环境

40:33

Operator 用户数据价值更高，适合强化学习训练

49:23

AI 智能体从初级状态发展到定制化模型，分数大幅提高

51:35

Operator 是大语言模型和强化学习的结合

58:16

AI 员工成本更低且能快速收回成本

1:00:42

Operator 是伸向物理世界的信号，但商业上先从数字世界赚钱

1:05:43

学术界和工业界将在多模态推理和交互上发力

1:08:29

学术界应避免做 OpenAI 一定会做的事

Chapters

解读 OpenAI Operator 及智能体技术

00:00

对 Operator 的感官感受

02:55

Operator 在 AGI 路线图上的地标: 多模态、连续交互、闭环控制系统

04:19

OpenAI 内部还有更好的模型，智力会刷得很高，Operator 带有泛化性

06:34

Operator 是多模态、闭环的 o1，一个 Agent o1 的版本

08:17

为什么 Operator 是单独入口？

08:57

Operator 包含的技术要点: 基座模型、高质量数据集、高效大规模支持 Agent 的强化学习系统

11:13

有关 Operator 底层用的新模型: Computer-Using-Agent（CUA）

14:10

2025 是 Agent 之年: 多模态模型 + 强化学习

19:02

回溯到 2016 年，OpenAI 成立后第一个大项目就是 Web Agent，但失败了

20:49

OpenAI 的 5 级分类: 聊天机器人 Chatbots〉推理者 Reasoners〉智能主体 Agents〉创新者 Innovators〉组织 Organizations，技术演进轨迹，人类参与越来越少

22:40

Operator 在与人类协作时，如何平衡自主决策和人类指令的优先级？

31:26

Operator 怎么整合语言、视觉和动作等不同模态的信息？

32:30

Operator 能否支持与其他 Agent 的协作？这种协作的机制是什么？

34:11

广密说 Chatbot 不是提取智能最有效的交互方式，Operator 能有效提取智能吗？

38:45

OpenAI 智能提升与更多产品的关系

42:14

Agent 这个词从博弈论进入人工智能，现在指大语言模型调用外部世界

49:48

Agent 中有创业公司的机会吗？

54:29

Operator 释放了信号: 逻辑推理从抽象世界走向视觉物理世界的开端

58:57

如果 Agent 在未来成为主流，人类与 AI 的协作方式会发生哪些变化？

1:02:27

大公司全部开着重装坦克往前走，其他人怎么办？

1:06:46

Transcript

吴翼: 如果你很有意思的你去看 OpenAI 的历史，你会发现 OpenAI 成立之后，干的第一个项目就是这件事情。就是 Web Agent，就是有一个通用的视觉智能体的网页上点。如果你 trace back to，就是回溯到 2016 年的时候，当时 OpenAI 开的第一个大的项目就是这网页。当然他们的做法失败了。很多时候我会在我的深度学习课，会跟同学讲这个故事，就是为什么失败。但是他们只有强化学习，他们没有多模态模型，他们甚至没有人找到去标数据，甚至当时连传送我都没有。他们用一个大的 LSTM 叫做 ...

小宇宙

Open in 小宇宙