scripod.com

111: Pokee.ai 朱哲清的 Agent 造法:强化学习作后端,语言模型作前端|Agent#3

晚点聊 LateTalk

Shownote

「长期看,LLM 是 Agent 和人类之间交互的前端,后端则靠 RL 模型完成工作。」 几乎所有主流 AI Agent 产品,都把大语言模型(LLM),或者它的多模态升级版当作 “大脑”,靠一个或几个 LLM 编排工作、调用工具。 但也有不同的路。这期节目的嘉宾,Pokee.ai 的创始人朱哲清(Bill),认为 LLM 只是 Agent 理解人类需求、向人类递交产出的 “前端”,后端决策、完成任务则可以靠用强化学习方法训练的、不依赖自然语言的模型完成。 Bill 提到,把 LLM 当作大脑时,Agent 调用工具的能力有限。这是因为 LLM 使用工具时,需要先把工具描述、输入、输出等相关信息传入上下文,而 LLM 支持的上下文长度有限。把 Agent 的决策中枢换成另一个强化学习模型可以解决这个问题。 本期节目中,Bill 还聊到优秀的通用 Agent 需要具备四个要素:实现任务比人快、无需人工干预、能读取信息也能写入信息、成本低。Agent 产品的壁垒不在技术,而在于和用户的工作流深度绑定。 此外,我们还和 Bill 聊了他对通用 Agent 接下来竞争态势的判断,以及他在强化学习还并没有成为显学时,便相信强化学习潜力的原因。 Bill 本科开始便在海外留学,不熟悉、常用一些专业术语的中文表达。节目中高频提及的英文术语,可参考 Shownotes 文末附录。 本期嘉宾: Pokee.ai 创始人,前 Meta 应用强化学习负责人、工程经理朱哲清 时间线: - 创业前,花近十年研究、落地强化学习算法 04:02 一边在斯坦福读博士,一边在 Meta 上班,每周工作 110 个小时 07:20 拒绝 LLM 创业机会,留在强化学习主航道上 10:17 刚开始研究强化学习的时候,强化学习还并不是显学 16:52 DeepSeek R1 带火了强化学习,让投资人意识到强化学习重要性 - 强化学习做 Agent 的优势 19:26 现有 LLM 写入能力较弱,调用工具数量有限 23:51 长期看,LLM 可能只是模型和用户的交互层,Agent 之间沟通不一定用语言 - 如何设计一款 Agent 产品,服务专业用户 31:02 保留用户控制节点,避免 “自由落体” 的失控感 36:36 Pokee.ai 想服务专业用户,未来还要进入企业工作流 43:46 一项子任务失败,不一定挡住 Pokee.ai 完成其他子任务 45:33 抛开 browser-use,强化学习 Agent 完成一项任务只需要数十秒 46:53 Pokee.ai 最初没用 MCP,团队自己设计更简单的协议 48:47 目前主流做 Agent 的方法还是以 LLM 为核心 50:00 优秀 Agent 的四要素:速度快、无需干预、能读能写、成本低 - 创业故事:从垂直 Agent 回归通用 Agent 58:20 Pokee.ai 团队全职员工只有四人,成员主要来自 Meta 59:30 早期产品:旅行规划助手 / Shopify 助手 01:02:07 强化学习爆火后,回归创业初衷做通用 Agent 01:07:33 Manus 出圈是意料之内 01:09:54 Pokee.ai 发布产品不会用邀请码,单次任务成本是同类产品的 1/10 01:10:59 技术不是 Agent 的护城河,重要的是和用户工作流绑定 01:20:24 Pokee.ai 在做通用 Agent,但也能帮垂直 Agent 落地 01:22:15 Agent 行业最后会存留三到五家公司,接下来是各个通用 Agent 差异化的时候 01:26:03 判断技术潜力的好方法:Toy Example(玩具案例) 附录: RL(Reinforcement Learning):强化学习; policy:策略,强化学习语境下指模型完成任务的方式; exploration:探索,强化学习语境下指探索可能完成任务的新路径; exploitation:利用,强化学习语境下指利用已知信息,选择最优的动作,和 exploration 相对; reward model:奖励模型,是强化学习算法的一部分,用于评价某个动作的好坏; ground truth:真值,指训练强化学习模型时使用的标准答案; prosumer(professional consumer):专业用户,本期节目语境下指用 Agent 产品完成工作需求的用户; context length:大模型的上下文长度; browser-use:使 AI 能够像人类一样浏览、操作网页的开源工具; Monte-Carlo Tree Search:一种基于随机模拟的搜索算法,用于在决策过程中评估不同选择的潜在结果,常用于需要策略规划的情境中; API:应用程序编程接口,是一组允许不同软件系统之间通信、交换数据的规则; SDK:软件开发工具包,旨在帮助开发者为特定平台或系统构建应用程序。 剪辑制作:甜食 本期主播: 孙海宁(微信 @_HaydenSun) 程曼祺 小红书 @曼祺_火柴 Q (https://www.xiaohongshu.com/user/profile/5dfa9e92000000000100626f?xsec_token = YBSKzbnOGWpnyJ5fxw_yafTdnAUIDw - EfCtqmFTkCIM2o=&xsec_source = app_share & xhsshare = CopyLink & appuid = 5dfa9e92000000000100626f & apptime = 1736682459 & share_id = 331aecb9ca7941f498d81fb9c32ea810),即刻 @曼祺_火柴 Q (https://okjk.co/FBoH1Q) https://hv.z.wiki/autoupload/20250422/AHFm/1788X252/WechatIMG1762.jpg https://cdn.z.wiki/autoupload/20250129/p96l/1428X298/% E6%92% AD% E5% AE% A2-% E7% BB%93% E5% B0% BE% E4% BD%9C% E8%80%85% E7% AD% BE% E5%90%8D.png ☆《晚点聊 LateTalk》建立「 播客听友群」啦!☆ 欢迎关注科技、商业大公司动态和创业创新的小伙伴进群交流,第一时间收听新节目。 这里有更多互动,更多话题讨论。欢迎贡献选题 & 推荐嘉宾。 请先添加「晚点」小助手的微信号,备注:“晚点聊”,我们邀请您入群。 https://tc.z.wiki/autoupload/f/vF9vElnh05iCqwr0xfm9iL4wP3sHaC7Y1psXYbgMe5eyl5f0KlZfm6UsKj-HyTuv/20250730/YNjr/907X339/WechatIMG1646.jpg 关注公众号《晚点 LatePost》和《晚点对话》,阅读更多商业、科技文章: https://hv.z.wiki/autoupload/20250129/DqTi/1452X514/% E6%92% AD% E5% AE% A2% E7% BB%93% E5% B0% BE% E6%88% AA% E5%9B% BE.png

Highlights

本期节目邀请了 Pokee.ai 创始人朱哲清(Bill),深入探讨了强化学习在 AI Agent 领域的应用与前景。Bill 认为,大语言模型适合用作前端交互界面,而后端任务执行则应依赖强化学习训练的模型。这一设计思路为 Agent 产品的开发提供了新的视角。
02:50
强化学习每年为 Meta 带来约五亿美元收入
05:20
时间管理和方向选择是成功的关键
08:34
若自己认为方向正确就要坚持,有时轴一点最后可能成功
12:45
通过智能探索大幅压缩所需数据量
16:52
DPC 火的原因是类似 AlphaGo 到 AlphaZero 阶段,解决了人为标注和训练速度问题
22:01
LLM 中加入工具描述后 token 数量剧增导致幻觉问题
25:25
长期来看,LM 将成为 UI、frontend 和 backend 的核心工具交互桥梁
31:02
Pokee.ai 在执行前会询问用户对任务规划的满意度,并提供手动修改功能。
39:14
通用智能体可能因功能过多让用户执行超出其能力范围的任务
45:06
智能 Agent 需根据不同情况选择绕过规则或失败
45:33
Pokee 速度和准确率大幅提升,覆盖范围广
48:00
首轮发布预计包含 1000 个子工具和几十个平台
48:50
多数 Agent 实现以 LLM 为核心,少数尝试对比学习但效果不佳
52:26
智能体不仅要有读的能力,还要有写的能力,算力成本需远低于人力成本。
58:20
团队共四人,依赖 AI 工具和承包商处理杂事
1:01:50
技术测试大幅提升了开发速度和稳定性
1:03:38
上线前一周和上线后各有 800 多人加入等待列表,未宣传流量却远超预期
1:07:33
首个 2C 产品的出现将震撼市场
1:09:54
Pokee.ai 的成本约为市面上其他产品的几十分之一
1:17:23
目前较少团队专注于以强化学习为核心做通用智能体
1:20:24
已解决集成难题,可助力很多 Vertical AI 公司
1:25:47
最后一种版本开源难度大但会以某种形式出现
1:28:16
不应盲目跟风热门领域,应专注自身了解的方向

Chapters

对话 Pokee.ai 创始人朱哲清
00:00
创业前,花近十年研究、落地强化学习算法
一边在杜克读博士,一边在 Meta 上班,每周工作 110 个小时
04:02
拒绝 LLM 创业机会,留在强化学习主航道上
07:20
刚开始研究强化学习的时候,强化学习还并不是显学
10:17
DeepSeek R1 带火了强化学习,让投资人意识到强化学习重要性
16:52
强化学习做 Agent 的优势
现有 LLM 写入能力较弱,调用工具数量有限
19:26
长期看,LLM 可能只是模型和用户的交互层,Agent 之间沟通不一定用语言
23:51
如何设计一款 Agent 产品,服务专业用户
保留用户控制节点,避免 “自由落体” 的失控感
31:02
Pokee.ai 想服务专业用户,未来还要进入企业工作流
36:36
一项子任务失败,不一定挡住 Pokee.ai 完成其他子任务
43:46
抛开 browser-use,强化学习 Agent 完成一项任务只需要数十秒
45:33
Pokee.ai 最初没用 MCP,团队自己设计更简单的协议
46:53
目前主流做 Agent 的方法还是以 LLM 为核心
48:47
优秀 Agent 的四要素: 速度快、无需干预、能读能写、成本低
50:00
创业故事: 从垂直 Agent 回归通用 Agent
Pokee.ai 团队全职员工只有四人,成员主要来自 Meta
58:20
早期产品: 旅行规划助手 / Shopify 助手
59:30
强化学习爆火后,回归创业初衷做通用 Agent
1:02:07
Manus 出圈是意料之内
1:07:33
Pokee.ai 发布产品不会用邀请码,单次任务成本是同类产品的 1 / 10
1:09:54
技术不是 Agent 的护城河,重要的是和用户工作流绑定
1:10:59
Pokee.ai 在做通用 Agent,但也能帮垂直 Agent 落地
1:20:24
Agent 行业最后会存留三到五家公司,接下来是各个通用 Agent 差异化的时候
1:22:15
判断技术潜力的好方法: Toy Example(玩具案例)
1:26:03

Transcript

孙海宁: 欢迎收听本期晚点聊,我是晚点的作者孙海宁,今天很开心能和程曼祺一起录制本期节目。几乎所有主流 AI agent 的产品,都把大语言模型,或者它的多摩菜升级版,当作决策中枢。在用户使用界面下,是一个或几个大语言模型,位居中心。编排工作,调用工具。但也有不同的路。我们今天的嘉宾,Pokee.ai 的创始人朱哲青。Bill 认为大语言模型,只是 agent 理解人类需求,向人类递交产出的前端,后端决策。完成任务,训练的,不依赖自然语言的模型完成。Bill 提到,把大语言模型当作大脑时,Agent 调用工...