73. AGI 范式大转移:和广密预言草莓、OpenAI o1 和 self-play RL|全球大模型季报 4
张小珺Jùn|商业访谈录
2024/09/05
73. AGI 范式大转移:和广密预言草莓、OpenAI o1 和 self-play RL|全球大模型季报 4
73. AGI 范式大转移:和广密预言草莓、OpenAI o1 和 self-play RL|全球大模型季报 4

张小珺Jùn|商业访谈录
2024/09/05
Shownote
Shownote
今天这集是我和广密【全球大模型季报】第 4 集。这期 2024 年 Q3 季报,提前和大家见面。 我们正进入的 9 月会是 AGI 的一个大月,OpenAI 造势已久且绝密的项目 “草莓(Strawberry)” 将在不久后揭开它神秘的面纱。此外,Anthropic 也会推出 Claude 3.5 Opus,这两个模型将是 AGI 进程是否顺利的关键风向标。 这些项目很可能暗示了硅谷 AGI 范式已经静悄悄地发生剧烈转移。 本集节目带来了对 AGI 发展路径的最大猜想 —— 硅谷 AGI 范式正在发生转移,self-play RL(强化学习)开启了新...
Highlights
Highlights
本期播客深入探讨了 AGI 领域在 2024 年第三季度的关键趋势,特别是强化学习(self-play RL)作为范式级方法的潜力。随着语言模型预训练面临瓶颈,硅谷多家公司正将资源重心转向强化学习,这一转变可能重新定义 AGI 的发展路径。
Chapters
Chapters
全球大模型季报第四集:2024 年 Q3 季报
00:00语言模型预训练的范式或许遇瓶颈,模型 scaling 边际效益开始递减
02:30为什么不一定能支持模型在 GPT-4o 基础上大幅跃升?现在处于 “真空死亡地带”?
05:21我最担心的是,纯靠语言模型的经典 Scaling Law /Pre train 这个物理规律遇到瓶颈,或者在更大参数比如 2-3T 以上的情况下开始失效了
06:43如果 scaling law 在模型变大的过程中不 work,现在有三条潜在路径: 1、多模态尤其是视觉(但还没有证据说能从视觉模态训练涌现智能能力);
09:373、强化学习 self-play RL(这是范式级别的大转变!)
10:15如果我是 AI 公司 CEO,我会 200% 资源 all in RL 这条路
12:53概念解释: Reinforcement Learning,简称 RL,中文强化学习(Ilya 用一句话概括强化学习: 让 AI 用随机路径去尝试一个新任务,如果效果超出预期,就更新神经网络的权重让 AI 记得多使用成功的实践,再开始下一次尝试)
13:40代码和数学可以变得很强,能不能泛化到更多领域没有证据
19:05你也可以把语言和预训练比作人类基因组,携带着人类几千年进化的基因,强化学习 RL 就是人类成长的一生
22:39必须很聪明的模型才能有能力做 self-play RL 的探索
24:55Anthropic Claude 3.5 是这一波标志性的产品,他们不搞 Sora / 搜索,主线是 RL;业内少数人意识到 RL 的重要性是最近两个月
27:07硅谷明星公司现阶段的资源投入?1-2 家公司把 RL 当作最高优先级
28:35AGI 范式大转移之下,还会有 GPT-6 和 GPT-7 吗?(可能明年会看到很小的模型比今天 GPT-4o 要聪明非常多,一个期待是实现 AGI 不一定需要巨量参数的模型)
29:42新范式的困境和卡点
30:33Character.AI 出售给 Google 预示 AGI 竞赛上半场结束,下半场开始,创始人 Noam 从 Google 进入 self-play RL 下半场
32:52新范式下,还需要那么多 GPU 吗?很多人关心英伟达股价
34:36AGI 范式转移只在最核心的 researcher 中有共识,几百人,还没扩散
37:06Claude 3.5 Sonnet 显著提升,带动了编程工具 Cursor 的火爆出圈
38:55OpenAI 在造势的草莓、Q*,猜测背后都是强化学习 RL
40:08国内公司应该应该 all in 200% 跟进 RL
41:55语言模型和 RL 是乘级关系
42:44硅谷的 AI 赛道: 围绕 LLM 周边有 3-4 个圈,搜索、代码 Coding、视频、机器人
45:122、 视频: 这个赛道诱人,但格局不稳定、决胜窗口长
46:103、通用机器人: 想赌具身领域也有个 OpenAI,现在是基础科学突破的问题,没看到在机器人领域的 “通用泛化能力” 出现
46:45美国通用机器人的明星项目(Pi、The Bot 是业界公认最头部的项目,除此之外融资金额很大、声量也比较高的是 Skild AI、Figure AI)
57:00国内 vs 硅谷机器人: 硅谷投 robot foundation model 一个大脑,像 Andorid;在国内投整机,OV 和小米
58:31LLM-> 多模态 -> 具身智能 -> 世界模型,这是 AI 发展路径
1:01:56LLM vs 移动互联网,叙事逻辑是什么?哪些明线与暗线?
1:05:54有没有可能,今天不做强化学习的公司未来都跑不出来
1:07:04站在现在,重新评论一下中国 LLM?“月亮和六便士”
1:08:05OpenAI
1:12:372、联合创始人 Greg Brockman、John Schumann 离职
1:13:203、Ilya 离开应该是 bet on 两个路线(多模态 / 强化学习,大概率是 RL)
1:14:10Q* 和草莓和 RL 应该是一件事,草莓是代号,RL 是方法
1:17:10回答红杉美国合伙人 David Cahn 发布最新文章《AI’s $600B Question》
1:18:07在 2024 年 Q3,AI 叙事还有哪些非共识?
1:20:00Character.AI 之后,哪些 AI 公司还会被收购?做个预测
1:22:452000 年互联网 hype 破灭后只留下 Amazon 一家公司,今天 AI hype 如果破灭了,谁是下一个 Amazon?
1:23:38AGI 第一幕是科技巨头受益,第二幕还没完全展开
1:24:24Transcript
Transcript
广密: 其实能称得上范式级别的就是一个,就是强化学习 RL 这个事,草莓更像是一个项目的代号吧,RL 呢其实是方法。QSTAR 可能是最早的一个源起的 paper。我觉得一个更形象的比喻就是说,你可以把语言和欲训练比作人类的一个基因组,携带着人类几千年进化的基因。那么强化学习就是人类成长的一生。语言模型普通趁遇到瓶颈,就是最近两个月吧。外界可能还不一定意识到说,语言的 pretrain 已经到了一定瓶颈甚至说有没有一个可能性?今天不做强化学习的公司,下一波浪潮里面都跑不出来。
张小珺: Hello 大家好,...

Open in 小宇宙