scripod.com

76. 王小川返场谈 o1 与强化学习:摸到了一条从快思考走向慢思考的路

Shownote

在过去两集节目中,关于 OpenAI o1 和 AGI 范式转移,我们先是推出了一集预言,之后推出了一集解析。在一个新范式来临的临界点上,我们希望听到更多来自业界不同视角的声音。哪怕这些声音是切片的、冲突的,我们都希望当做一种记忆和留存收集起来。 今天这期是王小川的返场。 王小川在创业开始就关注到强化学习并且很早开始公开谈论。他曾说,大模型代表快思考,它叫 “学”;强化学习是慢思考,它叫 “思”。“学” 和 “思” 两个系统最终会走向融合。除了 o1,王小川也聊了聊强化学习在一个特定场景 —— 医疗 —— 中的应用。 > 我们的...

Highlights

本期节目邀请了王小川,深入探讨大模型与强化学习的融合趋势及其在医疗等领域的应用。王小川认为,大模型代表‘快思考’,强化学习代表‘慢思考’,两者结合是迈向通用人工智能的重要路径。同时,他分析了 OpenAI o1 作为范式升级的里程碑意义,以及其对技术发展的深远影响。
01:27
大模型‘学’与强化学习‘思’将融合
01:37
大模型存在‘学而不思则罔’的问题
03:48
Sam Altman 被宫斗下课可能与内部政治有关
05:47
OpenAI o1 模型是范式升级,从快思考进阶到慢思考
08:19
破解 OpenAI 的 O1 隐藏思维过程会被警告封号
10:08
Self-play RL 可减少人工成分,并以走迷宫和几何定理证明题为例说明
14:22
强化学习在数学和代码领域的突破源于足够数据验证
17:34
程序能够有效判断诗词是否符合规则
21:17
O1 的重要性不低于 GPT 3
23:26
一两个月内会有接近 GPT-4 的模型出现
27:43
未来代码将成为大模型核心能力,通过写代码解决问题
29:29
若无新思想突破,强化学习发展影响有限
34:59
大模型不应仅被视为助手,而更适合作为顾问

Chapters

大模型与强化学习的融合趋势
00:00
大模型是 “学而不思则罔”,强化学习是 “思而不学则殆”
01:30
Sam Altman 被宫斗下课与强化学习大神 Noam Brown 的动态
03:45
OpenAI o1 是范式升级,摸到了一条从快思考走向慢思考的道路
05:45
怎么看 o1 隐藏思维过程,有人破解 o1 思维链会被警告要封号?
08:18
从以语言为核心走向思维链,分两阶段运行增加泛化性
09:04
强化学习 vs 监督学习
11:38
除了数学和代码以外,医疗是可以用强化学习提升的领域
16:39
之前做强化学习实验没有 CoT(思维链),今天更强调 CoT 了
19:55
复现 o1 vs 复现 GPT-4
22:16
未来几年将从强化学习范式走向写代码解决问题新范式
26:30
做 “水涨船高的应用”,不只是 “沿途下蛋的应用”
28:35
创业公司要走出大厂射程,在射程内你是没什么好活的
31:35

Transcript

王小川: Sam Altman 之前在公司下课的时候,那个事情我们当理解里面就觉得,并不是狗血的事。因为他的董事会其实也是又聪明,也挺政治的人的,不会有犯傻。有的纯粹是要么粗要么坏,其实这些人既不粗也不坏,传不传是有点 lome P-O-A-M 之前也是在 D-Wine 做强化的一个大神,加入了 OpenA。并且的话也号称,他跟其他朋友在讲说,他们在有一些突破性的事情了。所以它不是个转弯的过程,而是怎么用大模型的快思考,之后能够让它学会了这个慢思考,这是一个进阶。 张小珺: Hello 大家好,欢迎收听张小...
小宇宙
Open in 小宇宙