scripod.com

走向强化学习:Agent 还是应用公司的机会吗?对话 Pokee.ai 创始人朱哲清

硅基觉醒FM

2025/04/14
硅基觉醒FM

硅基觉醒FM

2025/04/14

Shownote

hi,这里是硅基觉醒。 这是一档围绕 AI 前沿技术与商业变革的节目,汇聚 AI 创业者、投资人以及大厂一线的实践与观察。我们期待与您共同见证超级智能的到来,迎接硅基觉醒的年代。欢迎在小宇宙平台和微信公众号搜索「硅基觉醒」订阅我们! 随着对 Agent 的讨论进入深水区,强化学习(RL)成为绕不过去的一个话题。尤其以 OpenAI 的 Deep Research 开启的基于强化学习的 Agent,正成为新的 Agent 范式。但是 Agent 的强化学习怎么做,技术门槛有多高,普通创业公司能否参与,围绕 Agent 的强化学习有太多待解...

Highlights

本期硅基觉醒聚焦于 AI Agent 与强化学习的前沿技术及其商业应用。通过与 Pokee.ai 创始人朱哲清 Bill、史业民及小苏的深度对话,探讨了下一代 Foundation AI Agent 的技术实现路径和行业变革潜力。
00:00
做 Agent 绕不开强化学习,OpenAI 的 Deep Research 是典范
03:20
Agent 需能使用复杂工具并定义副作用
06:12
从零开始训练 RL 模型可以低成本实现复杂任务
06:44
自家 Agent 可调用上千工具,成本低至 cloud 的几十分之一
08:57
模型通过 Self-play 完成大量 scenario 训练,能调用大量工具并泛化
09:27
OpenAI Deep Research 通过 LLM 为核心完成任务,设置过程和结果奖励
11:08
IL-based 模型在训练时能区分对错,可减少搜索空间
13:56
Trading Agent 的落地点在于团队在领域内的独特优势
23:57
单一系统可通过 JSON 格式自动调用接口完成任务
26:05
Agent 在 5000 个工具版本上成功率接近 97%
28:59
复杂训练场景下一万个 episode 仅过一遍,训练成本巨大
33:24
纯技术公司难混好,因竞争激烈且大公司也在关注该领域
40:06
强化学习发展 30 多年增长缓慢,算法需求远高于算力要求
45:00
现有模型仅用 token 难以解决多工具选择和规划问题
49:30
强化学习是以目标驱动让策略收敛的过程,设计奖励函数至关重要
53:57
OpenAI 推出通用 Agent 后,其他公司仍有垂直领域机会
54:36
‘模型即产品’在某些领域为真,某些领域为假
59:51
产品使用方式包括 no code 和 local 两种模式
1:04:03
多数有商业集成护城河的 SaaS 公司不会被取代
1:06:26
当前适合 Agent 领域的人才并不存在,因此前无人研究相关方向

Chapters

硅基觉醒:Agent 与强化学习的未来
00:00
Part 1 Pokee.ai: 瞄准下一代的 AI Agent
Pokee.ai 的愿景: 下一代的 Foundation AI Agent
02:05
Agent 需要能对真实世界产生影响
04:36
Manus 属于下一代 Agent 吗?
06:36
Pokee.ai 从 0 开始训练 RL 模型,可调用上千个工具
08:54
与 OpenAI Deep Research 的差异化
09:27
Deep Research 的实现方法
11:06
通用 Agent  vs  垂直 Agent
12:37
垂直 Agent 可能长在通用 Agent 上面
18:27
通用 Agent 什么时候能落地?
24:44
Part 2 技术深入: Agent 强化学习的实现细节
Agent 的强化学习是如何实现的?
27:38
实现强化学习的成本有多高?
32:01
技术层面,Agent 的强化学习与 LLM 训练过程中的 RL 有啥区别?
37:10
实现 Agent 的强化学习最难的技术部分是什么?
44:57
为什么过去强化学习不具备泛化性,而现在能解决通用问题?
48:06
Part 3 商业变革: 模型即产品论调卷土重来?
重提模型即产品
52:37
OpenAI 不可能做出一个供应链领域的 Agent
54:28
Agent 领域大模型公司和应用公司的边界划分
56:30
未来 SaaS 行业会被 Agent 取代吗?
1:04:03
如何招募 Agent 的强化学习人才
1:06:23

Transcript

Harry: 嗨,这里是《硅基觉醒》。这是一档围绕 AI 前沿技术和商业变革的节目,汇聚了 AI 创业者、投资人以及大厂一线的实践和观察。我们希望一起见证超级智能的到来,迎接《硅基觉醒》的年代。欢迎大家在小宇宙平台和微信公众号关注我们。如果你觉得本期内容不错,欢迎分享到你的朋友圈,或者分享给感兴趣的好友。将会极大帮助我们播客的成长。本期我们将继续探讨 Agent 这一话题。随着对 Agent 讨论的深入,大家逐步发现,做 Agent 绕不过去的一个技术话题,便是强化学习。OpenAI 的 Deep Rese...
小宇宙
Open in 小宇宙