我是这样用 RL + LLM 做 Agent 的|对谈 Pokee AI 创始人朱哲清 Bill
42章经
2025/01/18
我是这样用 RL + LLM 做 Agent 的|对谈 Pokee AI 创始人朱哲清 Bill
我是这样用 RL + LLM 做 Agent 的|对谈 Pokee AI 创始人朱哲清 Bill

42章经
2025/01/18
本期播客探讨了强化学习(RL)与大语言模型(LLM)结合在 AI Agent 领域的应用与发展前景。通过对话 Pokee AI 创始人 Bill,深入分析了 RL 的独特优势及其在电商等实际场景中的落地案例。同时,讨论了未来 AI Agent 市场的格局与发展方向。
强化学习因其在复杂规划和多步决策中的独特能力而备受关注。虽然大语言模型表现出色,但在涉及复杂推理时,RL 仍不可或缺。RL 与 LLM 结合可优化交互能力,解决实际问题如供应链管理和数学推理。RL 擅长处理不确定性较大的多步骤决策场景,而单一预测问题并非其强项。直接使用 LLM 难以构建规划型 Agent,因缺乏对未来影响的评估能力。有效的 Agent 架构以 RL 为核心,LLM 为翻译工具。Pokee AI 开发了一个电商领域的通用型 Agent,能智能调用大量 API 完成复杂任务。当前市场中,编程 Agent 较为成熟,但通用型 Agent 尚不存在。未来,Agent 将更多集中在高效利用现有工具上,而非复杂的自定义开发。一个具体应用示例是帮助商家自动议价、调整折扣和修改推荐策略,极大提升运营效率。强化学习的实际应用成本较低,小模型表现甚至优于大型模型。展望 2025 年,垂类 Agent 将成为市场热点,可能成为许多公司技术落地的关键时期。
01:50
01:50
强化学习因在复杂规划和推理问题上的优势再度成为热点
03:12
03:12
LM 和算力提升是 RL 未来取得成功的基础
10:04
10:04
强化学习在不确定性认知方面具有显著优势
10:15
10:15
强化学习解决的是未发生且未来可能也不发生的事
12:36
12:36
有人认为 RL 单一方案可以完成 LLM 无法实现的目标
14:05
14:05
组合型 AI Agent 将决策模型与 LLM 结合,形成高效系统
14:42
14:42
在无标准答案的场景中,人类反馈是提升模型性能的核心
16:33
16:33
不确定性大时用户易流失,RL 更适合多步决策场景
19:54
19:54
强化学习利用 LLM 作为基础,结合 Transformer 架构进行决策
21:48
21:48
LM 架构难以解决问题的核心在算法层面而非架构层面
27:33
27:33
训练依赖语言模型生成需求及 embedding,与大模型训练不同
29:43
29:43
通用型 Agent 的目标是打造无需微调、知晓众多 API 用途的智能系统
32:28
32:28
多数场景下无需终结 Agent,主要与 API 打交道
37:50
37:50
重复性工作应由 Agent 完成,人类应从事更具创造力的工作
40:06
40:06
小模型在特定任务上的表现超越 GPT-4
41:56
41:56
Token 类似自动 AI coding 但无需编译代码只需通过一个动作获取结果
42:58
42:58
垂类 Agent 定义为可取代多数内部工程问题,但面临高成本和可靠性问题