111: Pokee.ai 朱哲清的 Agent 造法：强化学习作后端，语言模型作前端|Agent#3

晚点聊 LateTalk

2025/04/22

Overview Shownote Highlights Transcript Chapters Pins

Shownote

「长期看，LLM 是 Agent 和人类之间交互的前端，后端则靠 RL 模型完成工作。」几乎所有主流 AI Agent 产品，都把大语言模型（LLM），或者它的多模态升级版当作 “大脑”，靠一个或几个 LLM 编排工作、调用工具。但也有不同的路。这期节目的嘉宾，Pokee.ai 的创始人朱哲清（Bill），认为 LLM 只是 Agent 理解人类需求、向人类递交产出的 “前端”，后端决策、完成任务则可以靠用强化学习方法训练的、不依赖自然语言的模型完成。 Bill 提到，把 LLM 当作大脑时，Agent 调用工具的能力有限。这是因为 LLM 使用工具时，需要先把工具描述、输入、输出等相关信息传入上下文，而 LLM 支持的上下文长度有限。把 Agent 的决策中枢换成另一个强化学习模型可以解决这个问题。本期节目中，Bill 还聊到优秀的通用 Agent 需要具备四个要素：实现任务比人快、无需人工干预、能读取信息也能写入信息、成本低。Agent 产品的壁垒不在技术，而在于和用户的工作流深度绑定。此外，我们还和 Bill 聊了他对通用 Agent 接下来竞争态势的判断，以及他在强化学习还并没有成为显学时，便相信强化学习潜力的原因。 Bill 本科开始便在海外留学，不熟悉、常用一些专业术语的中文表达。节目中高频提及的英文术语，可参考 Shownotes 文末附录。本期嘉宾： Pokee.ai 创始人，前 Meta 应用强化学习负责人、工程经理朱哲清时间线： - 创业前，花近十年研究、落地强化学习算法 04:02 一边在斯坦福读博士，一边在 Meta 上班，每周工作 110 个小时 07:20 拒绝 LLM 创业机会，留在强化学习主航道上 10:17 刚开始研究强化学习的时候，强化学习还并不是显学 16:52 DeepSeek R1 带火了强化学习，让投资人意识到强化学习重要性 - 强化学习做 Agent 的优势 19:26 现有 LLM 写入能力较弱，调用工具数量有限 23:51 长期看，LLM 可能只是模型和用户的交互层，Agent 之间沟通不一定用语言 - 如何设计一款 Agent 产品，服务专业用户 31:02 保留用户控制节点，避免 “自由落体” 的失控感 36:36 Pokee.ai 想服务专业用户，未来还要进入企业工作流 43:46 一项子任务失败，不一定挡住 Pokee.ai 完成其他子任务 45:33 抛开 browser-use，强化学习 Agent 完成一项任务只需要数十秒 46:53 Pokee.ai 最初没用 MCP，团队自己设计更简单的协议 48:47 目前主流做 Agent 的方法还是以 LLM 为核心 50:00 优秀 Agent 的四要素：速度快、无需干预、能读能写、成本低 - 创业故事：从垂直 Agent 回归通用 Agent 58:20 Pokee.ai 团队全职员工只有四人，成员主要来自 Meta 59:30 早期产品：旅行规划助手 / Shopify 助手 01:02:07 强化学习爆火后，回归创业初衷做通用 Agent 01:07:33 Manus 出圈是意料之内 01:09:54 Pokee.ai 发布产品不会用邀请码，单次任务成本是同类产品的 1/10 01:10:59 技术不是 Agent 的护城河，重要的是和用户工作流绑定 01:20:24 Pokee.ai 在做通用 Agent，但也能帮垂直 Agent 落地 01:22:15 Agent 行业最后会存留三到五家公司，接下来是各个通用 Agent 差异化的时候 01:26:03 判断技术潜力的好方法：Toy Example（玩具案例）附录： RL（Reinforcement Learning）：强化学习； policy：策略，强化学习语境下指模型完成任务的方式； exploration：探索，强化学习语境下指探索可能完成任务的新路径； exploitation：利用，强化学习语境下指利用已知信息，选择最优的动作，和 exploration 相对； reward model：奖励模型，是强化学习算法的一部分，用于评价某个动作的好坏； ground truth：真值，指训练强化学习模型时使用的标准答案； prosumer（professional consumer）：专业用户，本期节目语境下指用 Agent 产品完成工作需求的用户； context length：大模型的上下文长度； browser-use：使 AI 能够像人类一样浏览、操作网页的开源工具； Monte-Carlo Tree Search：一种基于随机模拟的搜索算法，用于在决策过程中评估不同选择的潜在结果，常用于需要策略规划的情境中； API：应用程序编程接口，是一组允许不同软件系统之间通信、交换数据的规则； SDK：软件开发工具包，旨在帮助开发者为特定平台或系统构建应用程序。剪辑制作：甜食本期主播：孙海宁（微信 @_HaydenSun）程曼祺小红书 @曼祺_火柴 Q (https://www.xiaohongshu.com/user/profile/5dfa9e92000000000100626f?xsec_token = YBSKzbnOGWpnyJ5fxw_yafTdnAUIDw - EfCtqmFTkCIM2o=&xsec_source = app_share & xhsshare = CopyLink & appuid = 5dfa9e92000000000100626f & apptime = 1736682459 & share_id = 331aecb9ca7941f498d81fb9c32ea810)，即刻 @曼祺_火柴 Q (https://okjk.co/FBoH1Q) https://hv.z.wiki/autoupload/20250422/AHFm/1788X252/WechatIMG1762.jpg https://cdn.z.wiki/autoupload/20250129/p96l/1428X298/% E6%92% AD% E5% AE% A2-% E7% BB%93% E5% B0% BE% E4% BD%9C% E8%80%85% E7% AD% BE% E5%90%8D.png ☆《晚点聊 LateTalk》建立「播客听友群」啦！☆ 欢迎关注科技、商业大公司动态和创业创新的小伙伴进群交流，第一时间收听新节目。这里有更多互动，更多话题讨论。欢迎贡献选题 & 推荐嘉宾。请先添加「晚点」小助手的微信号，备注：“晚点聊”，我们邀请您入群。 https://tc.z.wiki/autoupload/f/vF9vElnh05iCqwr0xfm9iL4wP3sHaC7Y1psXYbgMe5eyl5f0KlZfm6UsKj-HyTuv/20250730/YNjr/907X339/WechatIMG1646.jpg 关注公众号《晚点 LatePost》和《晚点对话》，阅读更多商业、科技文章： https://hv.z.wiki/autoupload/20250129/DqTi/1452X514/% E6%92% AD% E5% AE% A2% E7% BB%93% E5% B0% BE% E6%88% AA% E5%9B% BE.png

Highlights

本期节目邀请了 Pokee.ai 创始人朱哲清（Bill），深入探讨了强化学习在 AI Agent 领域的应用与前景。Bill 认为，大语言模型适合用作前端交互界面，而后端任务执行则应依赖强化学习训练的模型。这一设计思路为 Agent 产品的开发提供了新的视角。