76. 王小川返场谈 o1 与强化学习:摸到了一条从快思考走向慢思考的路
张小珺Jùn|商业访谈录
2024/09/25
76. 王小川返场谈 o1 与强化学习:摸到了一条从快思考走向慢思考的路
76. 王小川返场谈 o1 与强化学习:摸到了一条从快思考走向慢思考的路

张小珺Jùn|商业访谈录
2024/09/25
Shownote
Shownote
在过去两集节目中,关于 OpenAI o1 和 AGI 范式转移,我们先是推出了一集预言,之后推出了一集解析。在一个新范式来临的临界点上,我们希望听到更多来自业界不同视角的声音。哪怕这些声音是切片的、冲突的,我们都希望当做一种记忆和留存收集起来。 今天这期是王小川的返场。 王小川在创业开始就关注到强化学习并且很早开始公开谈论。他曾说,大模型代表快思考,它叫 “学”;强化学习是慢思考,它叫 “思”。“学” 和 “思” 两个系统最终会走向融合。除了 o1,王小川也聊了聊强化学习在一个特定场景 —— 医疗 —— 中的应用。 > 我们的...
Highlights
Highlights
本期节目邀请了王小川,深入探讨大模型与强化学习的融合趋势及其在医疗等领域的应用。王小川认为,大模型代表‘快思考’,强化学习代表‘慢思考’,两者结合是迈向通用人工智能的重要路径。同时,他分析了 OpenAI o1 作为范式升级的里程碑意义,以及其对技术发展的深远影响。
Chapters
Chapters
大模型与强化学习的融合趋势
00:00大模型是 “学而不思则罔”,强化学习是 “思而不学则殆”
01:30Sam Altman 被宫斗下课与强化学习大神 Noam Brown 的动态
03:45OpenAI o1 是范式升级,摸到了一条从快思考走向慢思考的道路
05:45怎么看 o1 隐藏思维过程,有人破解 o1 思维链会被警告要封号?
08:18从以语言为核心走向思维链,分两阶段运行增加泛化性
09:04强化学习 vs 监督学习
11:38除了数学和代码以外,医疗是可以用强化学习提升的领域
16:39之前做强化学习实验没有 CoT(思维链),今天更强调 CoT 了
19:55复现 o1 vs 复现 GPT-4
22:16未来几年将从强化学习范式走向写代码解决问题新范式
26:30做 “水涨船高的应用”,不只是 “沿途下蛋的应用”
28:35创业公司要走出大厂射程,在射程内你是没什么好活的
31:35Transcript
Transcript
王小川: Sam Altman 之前在公司下课的时候,那个事情我们当理解里面就觉得,并不是狗血的事。因为他的董事会其实也是又聪明,也挺政治的人的,不会有犯傻。有的纯粹是要么粗要么坏,其实这些人既不粗也不坏,传不传是有点 lome P-O-A-M 之前也是在 D-Wine 做强化的一个大神,加入了 OpenA。并且的话也号称,他跟其他朋友在讲说,他们在有一些突破性的事情了。所以它不是个转弯的过程,而是怎么用大模型的快思考,之后能够让它学会了这个慢思考,这是一个进阶。
张小珺: Hello 大家好,欢迎收听张小...

Open in 小宇宙