scripod.com

我是这样用 RL + LLM 做 Agent 的｜对谈 Pokee AI 创始人朱哲清 Bill

Overview

Shownote

Highlights

Transcript

Chapters

Pins

我是这样用 RL + LLM 做 Agent 的｜对谈 Pokee AI 创始人朱哲清 Bill

42章经

2025/01/18

我是这样用 RL + LLM 做 Agent 的｜对谈 Pokee AI 创始人朱哲清 Bill

我是这样用 RL + LLM 做 Agent 的｜对谈 Pokee AI 创始人朱哲清 Bill

42章经

42章经

2025/01/18

Overview Shownote Highlights Transcript Chapters Pins

Shownote

新年正式第一期，来点新东西。大家都说 Agent 热，那 Agent 到底是啥、到底为啥热、到底咋做、到底长啥样？大家都说 RL 是新方向，那 RL 到底是啥，和 LLM 的关系是什么，又能怎么和 Agent 结合？这期我们就请到了在 Meta 工作了七年的应用强化学习组负责人朱哲清 Bill，讲一讲他是怎么用一种很新的技术路线来做一种很新的 Agent，并且在电商等领域是如何落地的。最后，我们的 AI 私董会也在持续报名中，目前已经聚集了一批市场上最好的 AI 创始人，欢迎点击链接报名（里...

Highlights

本期播客探讨了强化学习（RL）与大语言模型（LLM）结合在 AI Agent 领域的应用与发展前景。通过对话 Pokee AI 创始人 Bill，深入分析了 RL 的独特优势及其在电商等实际场景中的落地案例。同时，讨论了未来 AI Agent 市场的格局与发展方向。

01:50

强化学习因在复杂规划和推理问题上的优势再度成为热点

03:12

LM 和算力提升是 RL 未来取得成功的基础

10:04

强化学习在不确定性认知方面具有显著优势

10:15

强化学习解决的是未发生且未来可能也不发生的事

12:36

有人认为 RL 单一方案可以完成 LLM 无法实现的目标

14:05

组合型 AI Agent 将决策模型与 LLM 结合，形成高效系统

14:42

在无标准答案的场景中，人类反馈是提升模型性能的核心

16:33

不确定性大时用户易流失，RL 更适合多步决策场景

19:54

强化学习利用 LLM 作为基础，结合 Transformer 架构进行决策

21:48

LM 架构难以解决问题的核心在算法层面而非架构层面

27:33

训练依赖语言模型生成需求及 embedding，与大模型训练不同

29:43

通用型 Agent 的目标是打造无需微调、知晓众多 API 用途的智能系统

32:28

多数场景下无需终结 Agent，主要与 API 打交道

37:50

重复性工作应由 Agent 完成，人类应从事更具创造力的工作

40:06

小模型在特定任务上的表现超越 GPT-4

41:56

Token 类似自动 AI coding 但无需编译代码只需通过一个动作获取结果

42:58

垂类 Agent 定义为可取代多数内部工程问题，但面临高成本和可靠性问题

Chapters

强化学习与 AI Agent 的发展趋势

00:00

Part1 强化学习

我们思考方式已经全面 RL 化 —— from OpenAI 研究员

03:06

Transformer 和 RL 到底是什么关系？又要如何结合？

04:36

RL 解答的是平行宇宙问题

10:15

RL + LLM，就是公认最好的技术路线吗？

12:35

RL 的算法原理类似于「多巴胺刺激」

14:02

在无法清晰定义 Reward 的场景下，RL 还好用吗？

14:42

RL 最强的三个能力

15:12

Part2 给 Agent 用上强化学习

为什么直接用 LLM 做不出规划型 Agent？

18:42

一个有效的 Agent 架构: RL 做核心，LLM 做翻译

20:17

我们做出了一个电商领域的通用型 Agent

23:35

Agent 当前市场格局:

29:43

万物皆可 call API

31:17

一个具体的应用示例: Agent 是怎么帮商家省钱提效的？

34:07

训练成本和推理成本都低得令人发指...

39:08

先定一个小目标: 做各行各业的 API 杀手

40:33

对 25 年硅谷 AI 市场的观察和预判

42:57

Transcript

曲凯: 我们今天很开心请到 Pokee AI 的创始人 Bill Bill 我们也是校友。你先简单介绍一下自己之前的大概的情况。朱哲清 Bill: 我之前七年半一直都在 Meta，然后后面几年是在应用强化学习。就强化学习团队做负责人，负责的事情主要就是把强化学习这一套框架，以及研究落地到广告推荐系统，以及 Infra 各个方面。同时的话过去 6 年，多我在 Stanford 也读了强化学习的博士。是跟 Benjamin Van Roy，是做二楼方向，然后最近刚刚出来做 Pokee AI 这个 startu...

小宇宙

Open in 小宇宙