88. 和吴翼技术解读 OpenAI Operator:推理从抽象世界走向物理世界的开端
张小珺Jùn|商业访谈录
2025/01/24
88. 和吴翼技术解读 OpenAI Operator:推理从抽象世界走向物理世界的开端
88. 和吴翼技术解读 OpenAI Operator:推理从抽象世界走向物理世界的开端

张小珺Jùn|商业访谈录
2025/01/24
Shownote
Shownote
2025 刚开年,全球 AI 届就已高度共识,将 2025 年定义为 “智能体元年”。 北京时间 1 月 24 日凌晨,OpenAI 率先抢跑,发布智能体产品 Operator(操作员),打响了全球智能体竞赛的第一枪。 在 Operator 发布前,广密在我们的节目中预言,25 年核心关键词是 Agent、Agent、Agent,这些 AI 产品最终会演变成一个任务容器,朝着 “下一个 Google” 方向进发。 本集节目,在 Operator 发布后,我邀请前 OpenAI 研究员、清华叉院信息研究院助理教授吴翼,从技术视角解读 Operator 和 A...
Highlights
Highlights
2025 年刚开年,全球 AI 界已将这一年定义为 “智能体元年”。随着 OpenAI 发布智能体产品 Operator,标志着全球智能体竞赛的开始。本期节目邀请了前 OpenAI 研究员吴翼,从技术角度解读 Operator 及其背后的意义。
Chapters
Chapters
解读 OpenAI Operator 及智能体技术
00:00对 Operator 的感官感受
02:55Operator 在 AGI 路线图上的地标: 多模态、连续交互、闭环控制系统
04:19OpenAI 内部还有更好的模型,智力会刷得很高,Operator 带有泛化性
06:34Operator 是多模态、闭环的 o1,一个 Agent o1 的版本
08:17为什么 Operator 是单独入口?
08:57Operator 包含的技术要点: 基座模型、高质量数据集、高效大规模支持 Agent 的强化学习系统
11:13有关 Operator 底层用的新模型: Computer-Using-Agent(CUA)
14:102025 是 Agent 之年: 多模态模型 + 强化学习
19:02回溯到 2016 年,OpenAI 成立后第一个大项目就是 Web Agent,但失败了
20:49OpenAI 的 5 级分类: 聊天机器人 Chatbots〉推理者 Reasoners〉智能主体 Agents〉创新者 Innovators〉组织 Organizations,技术演进轨迹,人类参与越来越少
22:40Operator 在与人类协作时,如何平衡自主决策和人类指令的优先级?
31:26Operator 怎么整合语言、视觉和动作等不同模态的信息?
32:30Operator 能否支持与其他 Agent 的协作?这种协作的机制是什么?
34:11广密说 Chatbot 不是提取智能最有效的交互方式,Operator 能有效提取智能吗?
38:45OpenAI 智能提升与更多产品的关系
42:14Agent 这个词从博弈论进入人工智能,现在指大语言模型调用外部世界
49:48Agent 中有创业公司的机会吗?
54:29Operator 释放了信号: 逻辑推理从抽象世界走向视觉物理世界的开端
58:57如果 Agent 在未来成为主流,人类与 AI 的协作方式会发生哪些变化?
1:02:27大公司全部开着重装坦克往前走,其他人怎么办?
1:06:46Transcript
Transcript
吴翼: 如果你很有意思的你去看 OpenAI 的历史,你会发现 OpenAI 成立之后,干的第一个项目就是这件事情。就是 Web Agent,就是有一个通用的视觉智能体的网页上点。如果你 trace back to,就是回溯到 2016 年的时候,当时 OpenAI 开的第一个大的项目就是这网页。当然他们的做法失败了。很多时候我会在我的深度学习课,会跟同学讲这个故事,就是为什么失败。但是他们只有强化学习,他们没有多模态模型,他们甚至没有人找到去标数据,甚至当时连传送我都没有。他们用一个大的 LSTM 叫做 ...

Open in 小宇宙