我是这样用 RL + LLM 做 Agent 的|对谈 Pokee AI 创始人朱哲清 Bill
42章经
2025/01/18
我是这样用 RL + LLM 做 Agent 的|对谈 Pokee AI 创始人朱哲清 Bill
我是这样用 RL + LLM 做 Agent 的|对谈 Pokee AI 创始人朱哲清 Bill

42章经
2025/01/18
Shownote
Shownote
新年正式第一期,来点新东西。 大家都说 Agent 热,那 Agent 到底是啥、到底为啥热、到底咋做、到底长啥样? 大家都说 RL 是新方向,那 RL 到底是啥,和 LLM 的关系是什么,又能怎么和 Agent 结合? 这期我们就请到了在 Meta 工作了七年的应用强化学习组负责人朱哲清 Bill,讲一讲他是怎么用一种很新的技术路线来做一种很新的 Agent,并且在电商等领域是如何落地的。 最后,我们的 AI 私董会也在持续报名中,目前已经聚集了一批市场上最好的 AI 创始人,欢迎点击链接报名(里...
Highlights
Highlights
本期播客探讨了强化学习(RL)与大语言模型(LLM)结合在 AI Agent 领域的应用与发展前景。通过对话 Pokee AI 创始人 Bill,深入分析了 RL 的独特优势及其在电商等实际场景中的落地案例。同时,讨论了未来 AI Agent 市场的格局与发展方向。
Chapters
Chapters
强化学习与 AI Agent 的发展趋势
00:00Part1 强化学习
我们思考方式已经全面 RL 化 —— from OpenAI 研究员
03:06Transformer 和 RL 到底是什么关系?又要如何结合?
04:36RL 解答的是平行宇宙问题
10:15RL + LLM,就是公认最好的技术路线吗?
12:35RL 的算法原理类似于「多巴胺刺激」
14:02在无法清晰定义 Reward 的场景下,RL 还好用吗?
14:42RL 最强的三个能力
15:12Part2 给 Agent 用上强化学习
为什么直接用 LLM 做不出规划型 Agent?
18:42一个有效的 Agent 架构: RL 做核心,LLM 做翻译
20:17我们做出了一个电商领域的通用型 Agent
23:35Agent 当前市场格局:
29:43万物皆可 call API
31:17一个具体的应用示例: Agent 是怎么帮商家省钱提效的?
34:07训练成本和推理成本都低得令人发指...
39:08先定一个小目标: 做各行各业的 API 杀手
40:33对 25 年硅谷 AI 市场的观察和预判
42:57Transcript
Transcript
曲凯: 我们今天很开心请到 Pokee AI 的创始人 Bill Bill 我们也是校友。你先简单介绍一下自己之前的大概的情况。
朱哲清 Bill: 我之前七年半一直都在 Meta,然后后面几年是在应用强化学习。就强化学习团队做负责人,负责的事情主要就是把强化学习这一套框架,以及研究落地到广告推荐系统,以及 Infra 各个方面。同时的话过去 6 年,多我在 Stanford 也读了强化学习的博士。是跟 Benjamin Van Roy,是做二楼方向,然后最近刚刚出来做 Pokee AI 这个 startu...

Open in 小宇宙