88. 和吴翼技术解读 OpenAI Operator:推理从抽象世界走向物理世界的开端
张小珺Jùn|商业访谈录
2025/01/24
88. 和吴翼技术解读 OpenAI Operator:推理从抽象世界走向物理世界的开端
88. 和吴翼技术解读 OpenAI Operator:推理从抽象世界走向物理世界的开端

张小珺Jùn|商业访谈录
2025/01/24
2025 年刚开年,全球 AI 界已将这一年定义为 “智能体元年”。随着 OpenAI 发布智能体产品 Operator,标志着全球智能体竞赛的开始。本期节目邀请了前 OpenAI 研究员吴翼,从技术角度解读 Operator 及其背后的意义。
Operator 作为 OpenAI 推出的首个智能体产品,代表了多模态、连续交互和闭环控制系统的结合。它不仅延续了 O1 和 O3 的功能,还在泛化性和强化学习路径上有所突破。通过强大的基座模型、高质量的数据集以及高效的强化学习系统,Operator 能够更好地整合语言、视觉和动作等不同模态的信息,并支持与其他 Agent 的协作。尽管目前主要局限于文本和视觉推理领域,但其设计预示着逻辑推理从抽象世界走向物理世界的开端。未来,随着 Agent 技术的发展,人类与 AI 的协作方式将发生深刻变化,交互模式可能更加个性化,减少对详细指令的依赖。同时,尽管大公司在这一领域占据主导地位,创业公司仍有机会在垂直领域积累数据并开发相关应用。总体而言,2025 年被视为 Agent 之年,多模态模型与强化学习的结合将继续推动 AI 技术的进步。
02:58
02:58
AI 能够像人一样关闭弹窗广告和计算退款金额
06:04
06:04
O1 后训练进展符合预期,OpenAI 或有更强模型
06:37
06:37
O1、O3 及后续版本能提升智力,对 scaling law 有信心
10:22
10:22
OpenAI 的 Operator 因多模态输入天然具备更好的泛化性和反馈能力
12:50
12:50
好的计算模型、高质量人类数据和高效率的大规模强化学习系统结合可得到 operator 模型
15:53
15:53
新一代 Operator 比传统 Web Agent 更智能且效果更好
19:05
19:05
实现通用 Agent 需要好的基座模型和成熟的强化学习训练框架
22:19
22:19
基础模型和强化学习对 OpenAI 的成功至关重要
29:34
29:34
AI 是自动化的终极形态,目标是解放人类生产力
31:28
31:28
涉及下单、付钱时系统引入人工介入机制
34:04
34:04
动作定义简单,询问 Agent 协作机制
37:21
37:21
Operator 的能力实现依赖于基础模型、人类标注数据和复杂测试环境
40:33
40:33
Operator 用户数据价值更高,适合强化学习训练
49:23
49:23
AI 智能体从初级状态发展到定制化模型,分数大幅提高
51:35
51:35
Operator 是大语言模型和强化学习的结合
58:16
58:16
AI 员工成本更低且能快速收回成本
1:00:42
1:00:42
Operator 是伸向物理世界的信号,但商业上先从数字世界赚钱
1:05:43
1:05:43
学术界和工业界将在多模态推理和交互上发力
1:08:29
1:08:29
学术界应避免做 OpenAI 一定会做的事