scripod.com

73. AGI 范式大转移:和广密预言草莓、OpenAI o1 和 self-play RL|全球大模型季报 4

Shownote

今天这集是我和广密【全球大模型季报】第 4 集。这期 2024 年 Q3 季报,提前和大家见面。 我们正进入的 9 月会是 AGI 的一个大月,OpenAI 造势已久且绝密的项目 “草莓(Strawberry)” 将在不久后揭开它神秘的面纱。此外,Anthropic 也会推出 Claude 3.5 Opus,这两个模型将是 AGI 进程是否顺利的关键风向标。 这些项目很可能暗示了硅谷 AGI 范式已经静悄悄地发生剧烈转移。 本集节目带来了对 AGI 发展路径的最大猜想 —— 硅谷 AGI 范式正在发生转移,self-play RL(强化学习)开启了新...

Highlights

本期播客深入探讨了 AGI 领域在 2024 年第三季度的关键趋势,特别是强化学习(self-play RL)作为范式级方法的潜力。随着语言模型预训练面临瓶颈,硅谷多家公司正将资源重心转向强化学习,这一转变可能重新定义 AGI 的发展路径。
00:08
强化学习 RL 是范式级方法,不做强化学习的公司或难突围
02:36
传统 Scaling Law 有 50% 概率失效,预训练路径或需新思路
05:21
Scale up 幅度不够和 H100 卡性能不佳是执行中的主要障碍
07:48
算力提升面临机群故障频繁、实验不充分等问题
09:37
替代 Scaling Law 的新方法可能是实现 AGI 的关键
11:28
强化学习能显著提升模型逻辑推理能力
12:57
强化学习是通向 AGI 的最有机会的路
16:25
LLM 奖励反馈不清晰,难以定义有效奖励模型
20:21
强化学习可显著提升大语言模型逻辑推理能力
22:42
语言和预训练可能是‘前菜’,强化学习才是‘主菜’
24:55
语言模型是强化学习的必要条件,需有 GPT4 或 Claude 3.5 水平
27:12
语言模型预训练可能遇到瓶颈,需关注 RL 上限
28:40
仅一两家公司将 RL 作为最高优先级,把语言 Pretrain 优先级放第二
29:46
实现 AGI 不一定需要巨量参数模型
32:01
应更重视天才科学家价值,如 Google 收购 Character.AI 案例
32:52
AGI 市场上半场结束,新范式 self-play RL 成主角
34:39
新范式下计算成本或大幅提升但不一定靠增加模型参数量
37:15
强化学习被认为是实现 AGI 更合理的路径
38:59
Cursor 因其接入 Claude 3.5 而变得非常流行
41:18
局部 AGI 可能在人指导下让不会编程者生成复杂程序
41:58
模型规模受限时,跟进公司可通过优化策略实现超越
42:47
下半场是 RL 的天下,创业公司需找到 reward signal
45:13
硅谷在过去一年中,coding 赛道出现多个独角兽公司
46:11
Claude 3.5 Opus 代码能力变强,好比行业的 iPhone 摄像头
54:12
未来三到四年关键赛道为 coding、视频和通用机器人
57:01
Figure AI 与 OpenAI 合作,但竞争力定位尴尬
59:37
通用具身智能大爆发可能在五到十年
1:05:32
强化学习提前到来,让模型更聪明是关键
1:05:54
人们可能低估了强化学习的重要性
1:07:08
当下不做强化学习的公司难在浪潮中脱颖而出
1:09:31
至少两三家国内公司年内可达 GPT 4 水平
1:12:40
OpenAI 领先优势未转化为产品或商业飞轮优势
1:13:23
OpenAI 的产品发布策略虽然冒险,但激发了行业创新
1:16:23
Ilya 认为纯语言模型预训练存在不足,转向强化学习和 Q* 方法
1:17:11
AI 可能尚未达到预期,但时间未到且将重构巨头
1:18:10
科技变革通常先有硬件投入,后有应用爆发
1:20:01
开源和小模型在特定高价值任务上表现不佳,用户体验受影响
1:22:45
若 AI 热潮破灭,思考谁会成为下一个 Amazon
1:23:42
Apple 未来可能成为 K - LIFE 领域的无形受益者
1:24:24
AI 提升生产力但未改变生产关系,老公司将受益

Chapters

全球大模型季报第四集:2024 年 Q3 季报
00:00
语言模型预训练的范式或许遇瓶颈,模型 scaling 边际效益开始递减
02:30
为什么不一定能支持模型在 GPT-4o 基础上大幅跃升?现在处于 “真空死亡地带”?
05:21
我最担心的是,纯靠语言模型的经典 Scaling Law /Pre train 这个物理规律遇到瓶颈,或者在更大参数比如 2-3T 以上的情况下开始失效了
06:43
如果 scaling law 在模型变大的过程中不 work,现在有三条潜在路径: 1、多模态尤其是视觉(但还没有证据说能从视觉模态训练涌现智能能力);
09:37
3、强化学习 self-play RL(这是范式级别的大转变!)
10:15
如果我是 AI 公司 CEO,我会 200% 资源 all in RL 这条路
12:53
概念解释: Reinforcement Learning,简称 RL,中文强化学习(Ilya 用一句话概括强化学习: 让 AI 用随机路径去尝试一个新任务,如果效果超出预期,就更新神经网络的权重让 AI 记得多使用成功的实践,再开始下一次尝试)
13:40
代码和数学可以变得很强,能不能泛化到更多领域没有证据
19:05
你也可以把语言和预训练比作人类基因组,携带着人类几千年进化的基因,强化学习 RL 就是人类成长的一生
22:39
必须很聪明的模型才能有能力做 self-play RL 的探索
24:55
Anthropic Claude 3.5 是这一波标志性的产品,他们不搞 Sora / 搜索,主线是 RL;业内少数人意识到 RL 的重要性是最近两个月
27:07
硅谷明星公司现阶段的资源投入?1-2 家公司把 RL 当作最高优先级
28:35
AGI 范式大转移之下,还会有 GPT-6 和 GPT-7 吗?(可能明年会看到很小的模型比今天 GPT-4o 要聪明非常多,一个期待是实现 AGI 不一定需要巨量参数的模型)
29:42
新范式的困境和卡点
30:33
Character.AI 出售给 Google 预示 AGI 竞赛上半场结束,下半场开始,创始人 Noam 从 Google 进入 self-play RL 下半场
32:52
新范式下,还需要那么多 GPU 吗?很多人关心英伟达股价
34:36
AGI 范式转移只在最核心的 researcher 中有共识,几百人,还没扩散
37:06
Claude 3.5 Sonnet 显著提升,带动了编程工具 Cursor 的火爆出圈
38:55
OpenAI 在造势的草莓、Q*,猜测背后都是强化学习 RL
40:08
国内公司应该应该 all in 200% 跟进 RL
41:55
语言模型和 RL 是乘级关系
42:44
硅谷的 AI 赛道: 围绕 LLM 周边有 3-4 个圈,搜索、代码 Coding、视频、机器人
45:12
2、 视频: 这个赛道诱人,但格局不稳定、决胜窗口长
46:10
3、通用机器人: 想赌具身领域也有个 OpenAI,现在是基础科学突破的问题,没看到在机器人领域的 “通用泛化能力” 出现
46:45
美国通用机器人的明星项目(Pi、The Bot 是业界公认最头部的项目,除此之外融资金额很大、声量也比较高的是 Skild AI、Figure AI)
57:00
国内 vs 硅谷机器人: 硅谷投 robot foundation model 一个大脑,像 Andorid;在国内投整机,OV 和小米
58:31
LLM-> 多模态 -> 具身智能 -> 世界模型,这是 AI 发展路径
1:01:56
LLM vs 移动互联网,叙事逻辑是什么?哪些明线与暗线?
1:05:54
有没有可能,今天不做强化学习的公司未来都跑不出来
1:07:04
站在现在,重新评论一下中国 LLM?“月亮和六便士”
1:08:05
OpenAI
1:12:37
2、联合创始人 Greg Brockman、John Schumann 离职
1:13:20
3、Ilya 离开应该是 bet on 两个路线(多模态 / 强化学习,大概率是 RL)
1:14:10
Q* 和草莓和 RL 应该是一件事,草莓是代号,RL 是方法
1:17:10
回答红杉美国合伙人 David Cahn 发布最新文章《AI’s $600B Question》
1:18:07
在 2024 年 Q3,AI 叙事还有哪些非共识?
1:20:00
Character.AI 之后,哪些 AI 公司还会被收购?做个预测
1:22:45
2000 年互联网 hype 破灭后只留下 Amazon 一家公司,今天 AI hype 如果破灭了,谁是下一个 Amazon?
1:23:38
AGI 第一幕是科技巨头受益,第二幕还没完全展开
1:24:24

Transcript

广密: 其实能称得上范式级别的就是一个,就是强化学习 RL 这个事,草莓更像是一个项目的代号吧,RL 呢其实是方法。QSTAR 可能是最早的一个源起的 paper。我觉得一个更形象的比喻就是说,你可以把语言和欲训练比作人类的一个基因组,携带着人类几千年进化的基因。那么强化学习就是人类成长的一生。语言模型普通趁遇到瓶颈,就是最近两个月吧。外界可能还不一定意识到说,语言的 pretrain 已经到了一定瓶颈甚至说有没有一个可能性?今天不做强化学习的公司,下一波浪潮里面都跑不出来。 张小珺: Hello 大家好,...
小宇宙
Open in 小宇宙