scripod.com

走向强化学习:Agent 还是应用公司的机会吗?对话 Pokee.ai 创始人朱哲清

硅基觉醒FM

2025/04/14
硅基觉醒FM

硅基觉醒FM

2025/04/14
本期硅基觉醒聚焦于 AI Agent 与强化学习的前沿技术及其商业应用。通过与 Pokee.ai 创始人朱哲清 Bill、史业民及小苏的深度对话,探讨了下一代 Foundation AI Agent 的技术实现路径和行业变革潜力。
强化学习在构建有效 Agent 中扮演关键角色,尤其是在多步操作任务完成和工具调用能力方面。讨论指出,通用 Agent 适合开发者和 2B 业务,而垂直 Agent 则满足特定领域需求。OpenAI Deep Research 与 Pokee.ai 在模型设计上存在差异,前者强调顺序生成结合搜索 API,后者独立训练 IRL 模型。强化学习的成本和技术门槛较高,但通过优化算法和数据收集方式可以降低样本需求。尽管过去强化学习泛化性不足,但现在通过目标驱动奖励函数设计和结合大模型可解决这一问题。‘模型即产品’论调重提,表明即使大公司在通用领域占优,垂直领域仍有机会。未来 SaaS 行业可能与 Agent 更紧密协作,而招募强化学习人才需注重基础扎实和迁移能力强的人才。
00:00
00:00
做 Agent 绕不开强化学习,OpenAI 的 Deep Research 是典范
03:20
03:20
Agent 需能使用复杂工具并定义副作用
06:12
06:12
从零开始训练 RL 模型可以低成本实现复杂任务
06:44
06:44
自家 Agent 可调用上千工具,成本低至 cloud 的几十分之一
08:57
08:57
模型通过 Self-play 完成大量 scenario 训练,能调用大量工具并泛化
09:27
09:27
OpenAI Deep Research 通过 LLM 为核心完成任务,设置过程和结果奖励
11:08
11:08
IL-based 模型在训练时能区分对错,可减少搜索空间
13:56
13:56
Trading Agent 的落地点在于团队在领域内的独特优势
23:57
23:57
单一系统可通过 JSON 格式自动调用接口完成任务
26:05
26:05
Agent 在 5000 个工具版本上成功率接近 97%
28:59
28:59
复杂训练场景下一万个 episode 仅过一遍,训练成本巨大
33:24
33:24
纯技术公司难混好,因竞争激烈且大公司也在关注该领域
40:06
40:06
强化学习发展 30 多年增长缓慢,算法需求远高于算力要求
45:00
45:00
现有模型仅用 token 难以解决多工具选择和规划问题
49:30
49:30
强化学习是以目标驱动让策略收敛的过程,设计奖励函数至关重要
53:57
53:57
OpenAI 推出通用 Agent 后,其他公司仍有垂直领域机会
54:36
54:36
‘模型即产品’在某些领域为真,某些领域为假
59:51
59:51
产品使用方式包括 no code 和 local 两种模式
1:04:03
1:04:03
多数有商业集成护城河的 SaaS 公司不会被取代
1:06:26
1:06:26
当前适合 Agent 领域的人才并不存在,因此前无人研究相关方向