scripod.com

E201|OpenAI 挑战通用型 AI Agent,聊聊 Agent 的底层架构、AGI 转折点与 RL 人才分布

硅谷101

2025/07/26
硅谷101

硅谷101

2025/07/26

Shownote

美国时间 7 月 17 日,OpenAI 终于迎来了它的 “Agent 时刻”—— 通用型 ChatGPT Agent 正式发布。它整合了深度研究工具 Deep Research 与执行工具 Operator,可一站式完成复杂任务,但仍存在速度慢、个性化不足等短板。 ChatGPT Agent 的技术本质是 “浏览器 + 沙盒” 的混合架构,与 Manus、Genspark 形成技术路线差异。在底层架构层面,浏览器(Browser-based)代理虽堪称 “万能”,但运行速度较慢;沙盒(Sandbox)代理高效,但无法联网操作、工具库受限;而工作流集成(Workflow API)速度快、结果精准。在训练方法层面,强化学习(RL)被视为 AGI 从 “执行者” 向 “创新者” 跨越的重要路径,但当前面临的验证泛化与训练不稳定难题,如同两道枷锁锁住了这扇进阶之门。 强化学习能否成为通用 AI 爆发的关键引擎?AGI 实现技术跃迁的分水岭究竟在哪?在把 Agent 产品化和商业化的道路上,又如何平衡模型能力与用户体验?本期《硅谷 101》,主播泓君对话 Pokee.ai 创始人朱哲清,多维度测评 ChatGPT Agent 使用体验,并深入拆解 Agent 的四大底层设计逻辑、探讨强化学习的训练路径,以及我们迎接 “超级智能时刻” 所面临的技术挑战。 【主播】 泓君 Jane,硅谷 101 创始人,播客主理人 【嘉宾】 朱哲清,Pokee.ai 创始人,前 MetaAI 应用强化学习团队负责人,斯坦福强化学习博士(X:@ZheqingZhu) 【101 Weekly 新节目预告】 硅谷 101 上线了一版更加轻量级的音视频节目「101Weekly」,每周由我们的三位主播复盘三个商业热点事件,每期 10 分钟左右,并请来行业专家来一手分析解读,希望这每周的 30 分钟,帮助大家轻松了解一周新闻大事件,点击收听 (https://www.xiaoyuzhoufm.com/podcast/686add4193fd2d72b8d5d777)。 音频版:Fireside (https://sv101.fireside.fm/)|小宇宙 (https://www.xiaoyuzhoufm.com/podcast/686add4193fd2d72b8d5d777)|苹果播客|Spotify 视频版:BiliBIli (https://space.bilibili.com/508452265?spm_id_from = 333.337.0.0)|Youtube (https://www.youtube.com/@TheValley101)|视频号|抖音 【你将听到】 ChatGPT Agent 首发体验与技术拆解 00:21 拆解 AI Agent 技术路径:什么是 “聪明机器的大脑”? 02:12 ChatGPT Agent 一手实测:浏览器操作如超人 VS 速度慢如蜗牛 04:26 视觉能力加持:Action 体验有提升,但仍需等待 05:45 旅行规划场景:支付环节仍需人类介入,信任门槛尚未跨越 08:11 “全部推翻重来”:缺乏个性化机制、记不住反馈细节 10:07 ChatGPT Agent “打通搜索与执行” 的本质:Deep Research + Operator 的 “拼贴工程” 通用型 Agent 技术路径对比 12:31 通用 Agent 技术类比:Operator 最早专注 Browser 操作,如今叠加 Sandbox 后,在通用 Agent 里表现最强 14:52 四大技术方向优劣势对比: 15:40 浏览器为主:通用性强,但速度慢、体验差、成本高 17:21 开放虚拟机:本地运行快,但访问互联网等外部服务不易 17:37 大模型 + 虚拟机:GensPark 模式,相对环节更封闭 18:46 Workflow + 工具集成:Pokee 模式,交付好但不是所有任务都能做 20:23 Manus 模式:Browser-based,Sandbox 强,全能但慢 22:28 Genspark 模式:标化工作流,牺牲通用性换取速度与稳定性 23:41 Pokee 模式:速度快成本低,但范围受限 26:52 B 端客户还是 C 端客户,适用场景与底层技术逻辑完全不同 29:36 Agent 将重塑互联网入口,传统门户流量将大幅下滑 32:03 MCP 无人维护:2 万个协议中,真正可用的不到 200 个 33:47 Agent 时代的广告逻辑大变:反而更有利于创作者? 强化学习与 AGI 的五个层次 38:52 强化学习适用场景:目标明确、机制清晰但数据稀缺 41:50 新兴路径:强化学习预训练(RL Pretraining) 44:40 一个非共识:验证(Verification)方向的泛化性,可能产出人类所不拥有的知识 46:51 AGI 五级路径中,“执行者”(L3) 与 “创新者”(L4) 间存在巨大技术鸿沟,核心在于验证能力 50:37 强化学习预训练的致命弱点:给出的解决方案可能 “人类都看不懂” 52:43 强化学习(RLHF) Vs 监督学习微调(SFT):效果 ×2,但成本 ×10 Meta 收购 ScaleAI 背后的逻辑 54:08 Meta 收购 Scale:多模态数据仍然是瓶颈 56:46 多模态数据的最大挑战:数据复杂 + 维度多 → 主观标准难统一 57:59 AI 的核心问题:短期算力,中期数据,长期人才 59:10 如何让 Agent 调用更好用?自研模型 01:03:33 平衡模型能力与用户体验:模型能力决定下限,产品细节决定上限 强化学习的人才大本营 01:05:42 RL 奠基人、2024 年图灵奖得主 Richard Sutton:想法极具前瞻性,且坚持原则 01:07:47 模型可塑性挑战:AI 的 “灾难性遗忘” 亟待解决 01:09:56 奖励函数设计难:强化学习中如何设定 “道德且有效” 的多目标激励 01:11:47 RL 核心研究圈:学术界与业界均高度集中 学术界:OpenAI 早期团队,Peter Abbeel, Sergey Levine , Richard Sutton 业界:以 David Silver 为代表的 DeepMind 员工、以 John Langford 为代表的微软员工等 01:12:50 从 AlphaGo 开始,伦敦成为强化学习研究的重要中心 01:15:28 如何像投资人销售过于超前的想法:只说一个非共识 01:16:58 市场正在分化,技术路径选择是创业公司活下来的核心 【节目中提到的 AI Agent】 OpenAI 相关: ChatGPT Agent|Operator|Deep Research 其他: Manus|Genspark|Perplexity|Claude Agent|Fellou|Flowise|Zapier|UIPath|Replicate 【节目提到的相关术语】 MCP / Model Context Protocol(模型上下文协议) A2A(Agent-to-Agent Protocol) SDK(软件开发工具包) API(应用程序接口) Vision Model Browser-based Agent Sandbox(沙盒环境) Virtual Machine (VM) Token Consumption(Token 消耗) Tool Calling:调用第三方工具或 API 完成任务 Workflow-based Agent Reinforcement Learning / RL(强化学习) RL Fine-tuning / RLFT(强化学习微调) RL Pre-training(强化学习预训练) Verification(验证机制) Ground Truth(基准真值) Hallucination(幻觉) Human Feedback(人类反馈) Supervised Fine-tuning / SFT (监督式微调) Human Readability(可读性) Catastrophic Forgetting(灾难性遗忘) Benchmark Score(基准分数) ICML(International Conference on Machine Learning):机器学习顶级学术会议 【相关节目】 E200|投资人视角深聊:AI Agent 的核心壁垒与投资逻辑 (https://www.xiaoyuzhoufm.com/episode/68783d4733e162b18f8c4b9d) E195|从工具到伙伴:七位 AI Agent 深度使用者的思考 (https://www.xiaoyuzhoufm.com/episode/684775cbcdecf72d4ca2fcc5) E191|小而美的机会来了,聊聊这轮 AI Agent 进化新范式 (https://www.xiaoyuzhoufm.com/episode/68268151d231129fe37b2503) 【监制】 泓君 【后期】 AMEI 【Shownotes】 陈思扬 【运营】 王梓沁 【BGM】 Simple Pleasantries - Arthur Benson Anticipating a New Day - Stationary Sign 【在这里找到我们】 公众号:硅谷 101 收听渠道:Apple Podcast|Spotify|小宇宙|喜马拉雅|蜻蜓 FM|荔枝 FM|网易云音乐|QQ 音乐 其他平台:YouTube|Bilibili 搜索「硅谷 101 播客」 联系我们:podcast@sv101.net Special Guest: 朱哲清.

Highlights

本期《硅谷 101》聚焦 OpenAI 最新发布的通用型 ChatGPT Agent,深入剖析其技术架构、产品体验及背后的强化学习路径。节目邀请到 Pokee.ai 创始人、前 Meta AI 应用强化学习团队负责人朱哲清,从一线开发者视角解读 Agent 的运行机制、行业竞争格局以及通往 AGI 的技术挑战。
00:01
OpenAI 定义的 AGI 前三层或已部分实现,当前正处第三到第四层跨越期
03:34
Browser-based Agent 在旅程规划等任务中表现有限
04:29
XGPT 在执行订机票、酒店等任务时表现更好
05:45
使用 Agent 订航班需人类接管支付环节
09:06
ChatGPT 像人类助理一样越用越顺手
11:25
Operator 和 Deep Research 在各自领域表现良好,整合后可实现端到端体验
12:38
OpenAI 在浏览器和操作能力上表现最佳
15:42
Pokee.ai 在多个 AI 代理方向展现出融合潜力
17:40
Genspark 在受限的 sandbox 环境中运行代码生成内容
19:05
Manus 通过 Sandbox 加浏览器环境构建通用操作平台
21:41
Deep Research 能执行更全面的任务并生成详细报告。
22:29
Pokee.ai 可能是目前所有 Agent 中最快的
25:14
AI 代理在普通消费者中留存率偏低
28:19
MCP 推动公司开放 SDK 和 API
29:39
Agent 将全程完成任务,无需打开网页
33:17
口播广告仍是播客主要收入来源
35:02
Agent 推荐内容时可向对应公司收费
38:58
工具链训练无法依赖现成数据,需采用强化学习方法
44:24
若提升 verifier 机制,可能迈向超级智能并产生人类未知知识
46:05
AI 在药物发现中可提出创新解决方案
48:07
验证能力决定了 AI 能否理解未知概念,如减法验证需要先验经验
50:41
AI 可能使用人类无法理解的语言超越人类知识,带来潜在风险
52:43
强化学习适用于复杂任务且无标准答案的场景
55:16
Scale AI 标注图片和视频数据技术含量高
56:51
图片打标因评判标准难统一而更难
58:25
图像、视频标注问题被认为是时间问题,将逐步解决
1:01:31
通过压缩工具数量提升模型泛化性和适用性
1:04:53
模型能力决定产品下限,产品细节决定上限
1:09:04
GPT-4、GPT-5 数据量尚未到极限,但模型性能终将面临瓶颈
1:14:08
若能实现 RL 预训练,将是巨大成功

Chapters

ChatGPT Agent 首发体验与技术拆解
拆解 AI Agent 技术路径:什么是 “聪明机器的大脑”?
00:00
ChatGPT Agent 一手实测:浏览器操作如超人 VS 速度慢如蜗牛
02:12
视觉能力加持:Action 体验有提升,但仍需等待
04:26
旅行规划场景:支付环节仍需人类介入,信任门槛尚未跨越
05:45
“全部推翻重来”:缺乏个性化机制、记不住反馈细节
08:11
ChatGPT Agent “打通搜索与执行” 的本质:Deep Research + Operator 的 “拼贴工程”
10:07
通用型 Agent 技术路径对比
通用 Agent 技术类比:Operator 最早专注 Browser 操作,如今叠加 Sandbox 后,在通用 Agent 里表现最强
12:31
四大技术方向有劣势对比:
14:52
浏览器为主:通用性强,但速度慢、体验差、成本高
15:40
开放虚拟机:本地运行快,但访问互联网等外部服务不易
17:21
大模型 + 虚拟机:GensPark 模式,相对环节更封闭
17:37
Workflow + 工具集成:Pokee 模式,交付好但不是所有任务都能做
18:46
Manus 模式:Browser-based,Sandbox 强,全能但慢
20:23
Genspark 模式:标化工作流,牺牲通用性换取速度与稳定性
22:28
Pokee 模式:速度快成本低,但范围受限
23:41
B 端客户还是 C 端客户,适用场景与底层技术逻辑完全不同
26:52
Agent 将重塑互联网入口,传统门户流量将大幅下滑
29:36
MCP 无人维护:2 万个协议中,真正可用的不到 200 个
32:03
Agent 时代的广告逻辑大变:反而更有利于创作者?
33:47
强化学习与 AGI 的五个层次
强化学习适用场景:目标明确、机制清晰但数据稀缺
38:52
新兴路径:强化学习预训练(RL Pretraining)
41:50
一个非共识:验证(Verification)方向的泛化性,可能产出人类所不拥有的知识
44:40
AGI 五级路径中,“执行者”(L3) 与 “创新者”(L4) 间存在巨大技术鸿沟,核心在于验证能力
46:51
强化学习预训练的致命弱点:给出的解决方案可能 “人类都看不懂”
50:37
强化学习(RLHF) Vs 监督学习微调(SFT):效果 ×2,但成本 ×10
52:43
Meta 收购 ScaleAI 背后的逻辑
Meta 收购 Scale:多模态数据仍然是瓶颈
54:08
多模态数据的最大挑战:数据复杂 + 维度多 → 主观标准难统一
56:46
AI 的核心问题:短期算力,中期数据,长期人才
57:59
如何让 Agent 调用更好用?自研模型
59:10
平衡模型能力与用户体验:模型能力决定下限,产品细节决定上限
1:03:33
强化学习的人才大本营
RL 奠基人、2024 年图灵奖得主 Richard Sutton:想法极具前瞻性,且坚持原则
1:05:42
模型可塑性挑战:AI 的 “灾难性遗忘” 亟待解决
1:07:47
奖励函数设计难:强化学习中如何设定 “道德且有效” 的多目标激励
1:09:56
RL 核心研究圈:学术界与业界均高度集中
1:11:47
从 AlphaGo 开始,伦敦成为强化学习研究的重要中心
1:12:50
如何像投资人销售过于超前的想法:只说一个非共识
1:15:28
市场正在分化,技术路径选择是创业公司活下来的核心
1:16:58

Transcript

泓君Jane: 哈喽大家好,欢迎收听硅谷 101, 我是红军,上一集节目我们刚刚复盘完 AI agent 的投资逻辑,OpenAI 就发布了它的第一款通用型 agent,ChatGPT agent。很多网友问怎么感觉这个有一点点像我们经常用到,或者提到的 Manus 跟 Genspark 这些通用型的 AI agent?那这一集呢,我们就来聊一聊,这些看上去很像的通用型 AI agent 们。他们不同的技术架构和设计逻辑有什么不一样?我们邀请来了 Pokee.ai 的创始人朱哲青,他也是前 Meta AI ...