scripod.com

76. 王小川返场谈o1与强化学习：摸到了一条从快思考走向慢思考的路

Overview

Shownote

Highlights

Transcript

Chapters

Pins

76. 王小川返场谈 o1 与强化学习：摸到了一条从快思考走向慢思考的路

张小珺Jùn｜商业访谈录

2024/09/25

76. 王小川返场谈 o1 与强化学习：摸到了一条从快思考走向慢思考的路

76. 王小川返场谈 o1 与强化学习：摸到了一条从快思考走向慢思考的路

张小珺Jùn｜商业访谈录

张小珺Jùn｜商业访谈录

2024/09/25

Overview Shownote Highlights Transcript Chapters Pins

Shownote

在过去两集节目中，关于 OpenAI o1 和 AGI 范式转移，我们先是推出了一集预言，之后推出了一集解析。在一个新范式来临的临界点上，我们希望听到更多来自业界不同视角的声音。哪怕这些声音是切片的、冲突的，我们都希望当做一种记忆和留存收集起来。今天这期是王小川的返场。王小川在创业开始就关注到强化学习并且很早开始公开谈论。他曾说，大模型代表快思考，它叫 “学”；强化学习是慢思考，它叫 “思”。“学” 和 “思” 两个系统最终会走向融合。除了 o1，王小川也聊了聊强化学习在一个特定场景 —— 医疗 —— 中的应用。 > 我们的...

Highlights

本期节目邀请了王小川，深入探讨大模型与强化学习的融合趋势及其在医疗等领域的应用。王小川认为，大模型代表‘快思考’，强化学习代表‘慢思考’，两者结合是迈向通用人工智能的重要路径。同时，他分析了 OpenAI o1 作为范式升级的里程碑意义，以及其对技术发展的深远影响。

01:27

大模型‘学’与强化学习‘思’将融合

01:37

大模型存在‘学而不思则罔’的问题

03:48

Sam Altman 被宫斗下课可能与内部政治有关

05:47

OpenAI o1 模型是范式升级，从快思考进阶到慢思考

08:19

破解 OpenAI 的 O1 隐藏思维过程会被警告封号

10:08

Self-play RL 可减少人工成分，并以走迷宫和几何定理证明题为例说明

14:22

强化学习在数学和代码领域的突破源于足够数据验证

17:34

程序能够有效判断诗词是否符合规则

21:17

O1 的重要性不低于 GPT 3

23:26

一两个月内会有接近 GPT-4 的模型出现

27:43

未来代码将成为大模型核心能力，通过写代码解决问题

29:29

若无新思想突破，强化学习发展影响有限

34:59

大模型不应仅被视为助手，而更适合作为顾问

Chapters

大模型与强化学习的融合趋势

00:00

大模型是 “学而不思则罔”，强化学习是 “思而不学则殆”

01:30

Sam Altman 被宫斗下课与强化学习大神 Noam Brown 的动态

03:45

OpenAI o1 是范式升级，摸到了一条从快思考走向慢思考的道路

05:45

怎么看 o1 隐藏思维过程，有人破解 o1 思维链会被警告要封号？

08:18

从以语言为核心走向思维链，分两阶段运行增加泛化性

09:04

强化学习 vs 监督学习

11:38

除了数学和代码以外，医疗是可以用强化学习提升的领域

16:39

之前做强化学习实验没有 CoT（思维链），今天更强调 CoT 了

19:55

复现 o1 vs 复现 GPT-4

22:16

未来几年将从强化学习范式走向写代码解决问题新范式

26:30

做 “水涨船高的应用”，不只是 “沿途下蛋的应用”

28:35

创业公司要走出大厂射程，在射程内你是没什么好活的

31:35

Transcript

王小川: Sam Altman 之前在公司下课的时候，那个事情我们当理解里面就觉得，并不是狗血的事。因为他的董事会其实也是又聪明，也挺政治的人的，不会有犯傻。有的纯粹是要么粗要么坏，其实这些人既不粗也不坏，传不传是有点 lome P-O-A-M 之前也是在 D-Wine 做强化的一个大神，加入了 OpenA。并且的话也号称，他跟其他朋友在讲说，他们在有一些突破性的事情了。所以它不是个转弯的过程，而是怎么用大模型的快思考，之后能够让它学会了这个慢思考，这是一个进阶。张小珺: Hello 大家好，欢迎收听张小...

小宇宙

Open in 小宇宙