scripod.com

走向强化学习：Agent还是应用公司的机会吗？对话Pokee.ai创始人朱哲清

Overview

Shownote

Highlights

Transcript

Chapters

Pins

走向强化学习：Agent 还是应用公司的机会吗？对话 Pokee.ai 创始人朱哲清

硅基觉醒FM

2025/04/14

走向强化学习：Agent 还是应用公司的机会吗？对话 Pokee.ai 创始人朱哲清

走向强化学习：Agent 还是应用公司的机会吗？对话 Pokee.ai 创始人朱哲清

硅基觉醒FM

硅基觉醒FM

2025/04/14

Overview Shownote Highlights Transcript Chapters Pins

Shownote

hi，这里是硅基觉醒。这是一档围绕 AI 前沿技术与商业变革的节目，汇聚 AI 创业者、投资人以及大厂一线的实践与观察。我们期待与您共同见证超级智能的到来，迎接硅基觉醒的年代。欢迎在小宇宙平台和微信公众号搜索「硅基觉醒」订阅我们！随着对 Agent 的讨论进入深水区，强化学习（RL）成为绕不过去的一个话题。尤其以 OpenAI 的 Deep Research 开启的基于强化学习的 Agent，正成为新的 Agent 范式。但是 Agent 的强化学习怎么做，技术门槛有多高，普通创业公司能否参与，围绕 Agent 的强化学习有太多待解的问...

Highlights

本期硅基觉醒聚焦于 AI Agent 与强化学习的前沿技术及其商业应用。通过与 Pokee.ai 创始人朱哲清 Bill、史业民及小苏的深度对话，探讨了下一代 Foundation AI Agent 的技术实现路径和行业变革潜力。

00:00

做 Agent 绕不开强化学习，OpenAI 的 Deep Research 是典范

03:20

Agent 需能使用复杂工具并定义副作用

06:12

从零开始训练 RL 模型可以低成本实现复杂任务

06:44

自家 Agent 可调用上千工具，成本低至 cloud 的几十分之一

08:57

模型通过 Self-play 完成大量 scenario 训练，能调用大量工具并泛化

09:27

OpenAI Deep Research 通过 LLM 为核心完成任务，设置过程和结果奖励

11:08

IL-based 模型在训练时能区分对错，可减少搜索空间

13:56

Trading Agent 的落地点在于团队在领域内的独特优势

23:57

单一系统可通过 JSON 格式自动调用接口完成任务

26:05

Agent 在 5000 个工具版本上成功率接近 97%

28:59

复杂训练场景下一万个 episode 仅过一遍，训练成本巨大

33:24

纯技术公司难混好，因竞争激烈且大公司也在关注该领域

40:06

强化学习发展 30 多年增长缓慢，算法需求远高于算力要求

45:00

现有模型仅用 token 难以解决多工具选择和规划问题

49:30

强化学习是以目标驱动让策略收敛的过程，设计奖励函数至关重要

53:57

OpenAI 推出通用 Agent 后，其他公司仍有垂直领域机会

54:36

‘模型即产品’在某些领域为真，某些领域为假

59:51

产品使用方式包括 no code 和 local 两种模式

1:04:03

多数有商业集成护城河的 SaaS 公司不会被取代

1:06:26

当前适合 Agent 领域的人才并不存在，因此前无人研究相关方向

Chapters

硅基觉醒：Agent 与强化学习的未来

00:00

Part 1 Pokee.ai: 瞄准下一代的 AI Agent

Pokee.ai 的愿景: 下一代的 Foundation AI Agent

02:05

Agent 需要能对真实世界产生影响

04:36

Manus 属于下一代 Agent 吗？

06:36

Pokee.ai 从 0 开始训练 RL 模型，可调用上千个工具

08:54

与 OpenAI Deep Research 的差异化

09:27

Deep Research 的实现方法

11:06

通用 Agent vs 垂直 Agent

12:37

垂直 Agent 可能长在通用 Agent 上面

18:27

通用 Agent 什么时候能落地？

24:44

Part 2 技术深入: Agent 强化学习的实现细节

Agent 的强化学习是如何实现的？

27:38

实现强化学习的成本有多高？

32:01

技术层面，Agent 的强化学习与 LLM 训练过程中的 RL 有啥区别？

37:10

实现 Agent 的强化学习最难的技术部分是什么？

44:57

为什么过去强化学习不具备泛化性，而现在能解决通用问题？

48:06

Part 3 商业变革: 模型即产品论调卷土重来？

重提模型即产品

52:37

OpenAI 不可能做出一个供应链领域的 Agent

54:28

Agent 领域大模型公司和应用公司的边界划分

56:30

未来 SaaS 行业会被 Agent 取代吗？

1:04:03

如何招募 Agent 的强化学习人才

1:06:23

Transcript

Harry: 嗨，这里是《硅基觉醒》。这是一档围绕 AI 前沿技术和商业变革的节目，汇聚了 AI 创业者、投资人以及大厂一线的实践和观察。我们希望一起见证超级智能的到来，迎接《硅基觉醒》的年代。欢迎大家在小宇宙平台和微信公众号关注我们。如果你觉得本期内容不错，欢迎分享到你的朋友圈，或者分享给感兴趣的好友。将会极大帮助我们播客的成长。本期我们将继续探讨 Agent 这一话题。随着对 Agent 讨论的深入，大家逐步发现，做 Agent 绕不过去的一个技术话题，便是强化学习。OpenAI 的 Deep Rese...

小宇宙

Open in 小宇宙