scripod.com

111: Pokee.ai 朱哲清的 Agent 造法：强化学习作后端，语言模型作前端|Agent#3

Overview

Shownote

Highlights

Transcript

Chapters

Pins

111: Pokee.ai 朱哲清的 Agent 造法：强化学习作后端，语言模型作前端|Agent#3

晚点聊 LateTalk

2025/04/22

111: Pokee.ai 朱哲清的 Agent 造法：强化学习作后端，语言模型作前端|Agent#3

111: Pokee.ai 朱哲清的 Agent 造法：强化学习作后端，语言模型作前端|Agent#3

晚点聊 LateTalk

晚点聊 LateTalk

2025/04/22

Overview Shownote Highlights Transcript Chapters Pins

本期节目邀请了 Pokee.ai 创始人朱哲清（Bill），深入探讨了强化学习在 AI Agent 领域的应用与前景。Bill 认为，大语言模型适合用作前端交互界面，而后端任务执行则应依赖强化学习训练的模型。这一设计思路为 Agent 产品的开发提供了新的视角。

节目中，Bill 分享了他在 Meta 的工作经历以及对强化学习的坚持。他指出，现有 LLM 在工具调用和写入能力方面存在局限性，而强化学习能有效解决这些问题。优秀的通用 Agent 需具备四个要素：速度快、无需干预、能读能写、成本低。Pokee.ai 通过连接大量 API 接口，减少对浏览器的依赖，同时保留用户控制节点以增强信任感。此外，Bill 提到，技术本身并非护城河，关键在于深度绑定用户工作流。他认为，未来 Agent 行业将留存三到五家公司，差异化竞争将成为趋势。最后，Bill 强调 Toy Example 是验证技术潜力的有效方法，并回顾了强化学习从冷门到备受关注的发展历程。

02:50

02:50

强化学习每年为 Meta 带来约五亿美元收入

05:20

05:20

时间管理和方向选择是成功的关键

08:34

08:34

若自己认为方向正确就要坚持，有时轴一点最后可能成功

12:45

12:45

通过智能探索大幅压缩所需数据量

16:52

16:52

DPC 火的原因是类似 AlphaGo 到 AlphaZero 阶段，解决了人为标注和训练速度问题

22:01

22:01

LLM 中加入工具描述后 token 数量剧增导致幻觉问题

25:25

25:25

长期来看，LM 将成为 UI、frontend 和 backend 的核心工具交互桥梁

31:02

31:02

Pokee.ai 在执行前会询问用户对任务规划的满意度，并提供手动修改功能。

39:14

39:14

通用智能体可能因功能过多让用户执行超出其能力范围的任务

45:06

45:06

智能 Agent 需根据不同情况选择绕过规则或失败

45:33

45:33

Pokee 速度和准确率大幅提升，覆盖范围广

48:00

48:00

首轮发布预计包含 1000 个子工具和几十个平台

48:50

48:50

多数 Agent 实现以 LLM 为核心，少数尝试对比学习但效果不佳

52:26

52:26

智能体不仅要有读的能力，还要有写的能力，算力成本需远低于人力成本。

58:20

58:20

团队共四人，依赖 AI 工具和承包商处理杂事

1:01:50

1:01:50

技术测试大幅提升了开发速度和稳定性

1:03:38

1:03:38

上线前一周和上线后各有 800 多人加入等待列表，未宣传流量却远超预期

1:07:33

1:07:33

首个 2C 产品的出现将震撼市场

1:09:54

1:09:54

Pokee.ai 的成本约为市面上其他产品的几十分之一

1:17:23

1:17:23

目前较少团队专注于以强化学习为核心做通用智能体

1:20:24

1:20:24

已解决集成难题，可助力很多 Vertical AI 公司

1:25:47

1:25:47

最后一种版本开源难度大但会以某种形式出现

1:28:16

1:28:16

不应盲目跟风热门领域，应专注自身了解的方向