E201｜OpenAI 挑战通用型 AI Agent，聊聊 Agent 的底层架构、AGI 转折点与 RL 人才分布

硅谷101

2025/07/26

Overview Shownote Highlights Transcript Chapters Pins

Shownote

美国时间 7 月 17 日，OpenAI 终于迎来了它的 “Agent 时刻”—— 通用型 ChatGPT Agent 正式发布。它整合了深度研究工具 Deep Research 与执行工具 Operator，可一站式完成复杂任务，但仍存在速度慢、个性化不足等短板。 ChatGPT Agent 的技术本质是 “浏览器 + 沙盒” 的混合架构，与 Manus、Genspark 形成技术路线差异。在底层架构层面，浏览器（Browser-based）代理虽堪称 “万能”，但运行速度较慢；沙盒（Sandbox）代理高效，但无法联网操作、工具库受限；而工作流集成（Workflow API）速度快、结果精准。在训练方法层面，强化学习（RL）被视为 AGI 从 “执行者” 向 “创新者” 跨越的重要路径，但当前面临的验证泛化与训练不稳定难题，如同两道枷锁锁住了这扇进阶之门。强化学习能否成为通用 AI 爆发的关键引擎？AGI 实现技术跃迁的分水岭究竟在哪？在把 Agent 产品化和商业化的道路上，又如何平衡模型能力与用户体验？本期《硅谷 101》，主播泓君对话 Pokee.ai 创始人朱哲清，多维度测评 ChatGPT Agent 使用体验，并深入拆解 Agent 的四大底层设计逻辑、探讨强化学习的训练路径，以及我们迎接 “超级智能时刻” 所面临的技术挑战。【主播】泓君 Jane，硅谷 101 创始人，播客主理人【嘉宾】朱哲清，Pokee.ai 创始人，前 MetaAI 应用强化学习团队负责人，斯坦福强化学习博士（X：@ZheqingZhu）【101 Weekly 新节目预告】硅谷 101 上线了一版更加轻量级的音视频节目「101Weekly」，每周由我们的三位主播复盘三个商业热点事件，每期 10 分钟左右，并请来行业专家来一手分析解读，希望这每周的 30 分钟，帮助大家轻松了解一周新闻大事件，点击收听 (https://www.xiaoyuzhoufm.com/podcast/686add4193fd2d72b8d5d777)。音频版：Fireside (https://sv101.fireside.fm/)｜小宇宙 (https://www.xiaoyuzhoufm.com/podcast/686add4193fd2d72b8d5d777)｜苹果播客｜Spotify 视频版：BiliBIli (https://space.bilibili.com/508452265?spm_id_from = 333.337.0.0)｜Youtube (https://www.youtube.com/@TheValley101)｜视频号｜抖音【你将听到】 ChatGPT Agent 首发体验与技术拆解 00:21 拆解 AI Agent 技术路径：什么是 “聪明机器的大脑”？ 02:12 ChatGPT Agent 一手实测：浏览器操作如超人 VS 速度慢如蜗牛 04:26 视觉能力加持：Action 体验有提升，但仍需等待 05:45 旅行规划场景：支付环节仍需人类介入，信任门槛尚未跨越 08:11 “全部推翻重来”：缺乏个性化机制、记不住反馈细节 10:07 ChatGPT Agent “打通搜索与执行” 的本质：Deep Research + Operator 的 “拼贴工程” 通用型 Agent 技术路径对比 12:31 通用 Agent 技术类比：Operator 最早专注 Browser 操作，如今叠加 Sandbox 后，在通用 Agent 里表现最强 14:52 四大技术方向优劣势对比： 15:40 浏览器为主：通用性强，但速度慢、体验差、成本高 17:21 开放虚拟机：本地运行快，但访问互联网等外部服务不易 17:37 大模型 + 虚拟机：GensPark 模式，相对环节更封闭 18:46 Workflow + 工具集成：Pokee 模式，交付好但不是所有任务都能做 20:23 Manus 模式：Browser-based，Sandbox 强，全能但慢 22:28 Genspark 模式：标化工作流，牺牲通用性换取速度与稳定性 23:41 Pokee 模式：速度快成本低，但范围受限 26:52 B 端客户还是 C 端客户，适用场景与底层技术逻辑完全不同 29:36 Agent 将重塑互联网入口，传统门户流量将大幅下滑 32:03 MCP 无人维护：2 万个协议中，真正可用的不到 200 个 33:47 Agent 时代的广告逻辑大变：反而更有利于创作者？强化学习与 AGI 的五个层次 38:52 强化学习适用场景：目标明确、机制清晰但数据稀缺 41:50 新兴路径：强化学习预训练（RL Pretraining） 44:40 一个非共识：验证（Verification）方向的泛化性，可能产出人类所不拥有的知识 46:51 AGI 五级路径中，“执行者”(L3) 与 “创新者”(L4) 间存在巨大技术鸿沟，核心在于验证能力 50:37 强化学习预训练的致命弱点：给出的解决方案可能 “人类都看不懂” 52:43 强化学习（RLHF） Vs 监督学习微调（SFT）：效果 ×2，但成本 ×10 Meta 收购 ScaleAI 背后的逻辑 54:08 Meta 收购 Scale：多模态数据仍然是瓶颈 56:46 多模态数据的最大挑战：数据复杂 + 维度多 → 主观标准难统一 57:59 AI 的核心问题：短期算力，中期数据，长期人才 59:10 如何让 Agent 调用更好用？自研模型 01:03:33 平衡模型能力与用户体验：模型能力决定下限，产品细节决定上限强化学习的人才大本营 01:05:42 RL 奠基人、2024 年图灵奖得主 Richard Sutton：想法极具前瞻性，且坚持原则 01:07:47 模型可塑性挑战：AI 的 “灾难性遗忘” 亟待解决 01:09:56 奖励函数设计难：强化学习中如何设定 “道德且有效” 的多目标激励 01:11:47 RL 核心研究圈：学术界与业界均高度集中学术界：OpenAI 早期团队，Peter Abbeel, Sergey Levine , Richard Sutton 业界：以 David Silver 为代表的 DeepMind 员工、以 John Langford 为代表的微软员工等 01:12:50 从 AlphaGo 开始，伦敦成为强化学习研究的重要中心 01:15:28 如何像投资人销售过于超前的想法：只说一个非共识 01:16:58 市场正在分化，技术路径选择是创业公司活下来的核心【节目中提到的 AI Agent】 OpenAI 相关： ChatGPT Agent｜Operator｜Deep Research 其他： Manus｜Genspark｜Perplexity｜Claude Agent｜Fellou｜Flowise｜Zapier｜UIPath｜Replicate 【节目提到的相关术语】 MCP / Model Context Protocol（模型上下文协议） A2A（Agent-to-Agent Protocol） SDK（软件开发工具包） API（应用程序接口） Vision Model Browser-based Agent Sandbox（沙盒环境） Virtual Machine (VM) Token Consumption（Token 消耗） Tool Calling：调用第三方工具或 API 完成任务 Workflow-based Agent Reinforcement Learning / RL（强化学习） RL Fine-tuning / RLFT（强化学习微调） RL Pre-training（强化学习预训练） Verification（验证机制） Ground Truth（基准真值） Hallucination（幻觉） Human Feedback（人类反馈） Supervised Fine-tuning / SFT (监督式微调) Human Readability（可读性） Catastrophic Forgetting（灾难性遗忘） Benchmark Score（基准分数） ICML（International Conference on Machine Learning）：机器学习顶级学术会议【相关节目】 E200｜投资人视角深聊：AI Agent 的核心壁垒与投资逻辑 (https://www.xiaoyuzhoufm.com/episode/68783d4733e162b18f8c4b9d) E195｜从工具到伙伴：七位 AI Agent 深度使用者的思考 (https://www.xiaoyuzhoufm.com/episode/684775cbcdecf72d4ca2fcc5) E191｜小而美的机会来了，聊聊这轮 AI Agent 进化新范式 (https://www.xiaoyuzhoufm.com/episode/68268151d231129fe37b2503) 【监制】泓君【后期】 AMEI 【Shownotes】陈思扬【运营】王梓沁【BGM】 Simple Pleasantries - Arthur Benson Anticipating a New Day - Stationary Sign 【在这里找到我们】公众号：硅谷 101 收听渠道：Apple Podcast｜Spotify｜小宇宙｜喜马拉雅｜蜻蜓 FM｜荔枝 FM｜网易云音乐｜QQ 音乐其他平台：YouTube｜Bilibili 搜索「硅谷 101 播客」联系我们：podcast@sv101.net Special Guest: 朱哲清.

Highlights

本期《硅谷 101》聚焦 OpenAI 最新发布的通用型 ChatGPT Agent，深入剖析其技术架构、产品体验及背后的强化学习路径。节目邀请到 Pokee.ai 创始人、前 Meta AI 应用强化学习团队负责人朱哲清，从一线开发者视角解读 Agent 的运行机制、行业竞争格局以及通往 AGI 的技术挑战。