scripod.com

73. AGI范式大转移：和广密预言草莓、OpenAI o1和self-play RL｜全球大模型季报4

Overview

Shownote

Highlights

Transcript

Chapters

Pins

73. AGI 范式大转移：和广密预言草莓、OpenAI o1 和 self-play RL｜全球大模型季报 4

张小珺Jùn｜商业访谈录

2024/09/05

73. AGI 范式大转移：和广密预言草莓、OpenAI o1 和 self-play RL｜全球大模型季报 4

73. AGI 范式大转移：和广密预言草莓、OpenAI o1 和 self-play RL｜全球大模型季报 4

张小珺Jùn｜商业访谈录

张小珺Jùn｜商业访谈录

2024/09/05

Overview Shownote Highlights Transcript Chapters Pins

Shownote

今天这集是我和广密【全球大模型季报】第 4 集。这期 2024 年 Q3 季报，提前和大家见面。我们正进入的 9 月会是 AGI 的一个大月，OpenAI 造势已久且绝密的项目 “草莓（Strawberry）” 将在不久后揭开它神秘的面纱。此外，Anthropic 也会推出 Claude 3.5 Opus，这两个模型将是 AGI 进程是否顺利的关键风向标。这些项目很可能暗示了硅谷 AGI 范式已经静悄悄地发生剧烈转移。本集节目带来了对 AGI 发展路径的最大猜想 —— 硅谷 AGI 范式正在发生转移，self-play RL（强化学习）开启了新...

Highlights

本期播客深入探讨了 AGI 领域在 2024 年第三季度的关键趋势，特别是强化学习（self-play RL）作为范式级方法的潜力。随着语言模型预训练面临瓶颈，硅谷多家公司正将资源重心转向强化学习，这一转变可能重新定义 AGI 的发展路径。

00:08

强化学习 RL 是范式级方法，不做强化学习的公司或难突围

02:36

传统 Scaling Law 有 50% 概率失效，预训练路径或需新思路

05:21

Scale up 幅度不够和 H100 卡性能不佳是执行中的主要障碍

07:48

算力提升面临机群故障频繁、实验不充分等问题

09:37

替代 Scaling Law 的新方法可能是实现 AGI 的关键

11:28

强化学习能显著提升模型逻辑推理能力

12:57

强化学习是通向 AGI 的最有机会的路

16:25

LLM 奖励反馈不清晰，难以定义有效奖励模型

20:21

强化学习可显著提升大语言模型逻辑推理能力

22:42

语言和预训练可能是‘前菜’，强化学习才是‘主菜’

24:55

语言模型是强化学习的必要条件，需有 GPT4 或 Claude 3.5 水平

27:12

语言模型预训练可能遇到瓶颈，需关注 RL 上限

28:40

仅一两家公司将 RL 作为最高优先级，把语言 Pretrain 优先级放第二

29:46

实现 AGI 不一定需要巨量参数模型

32:01

应更重视天才科学家价值，如 Google 收购 Character.AI 案例

32:52

AGI 市场上半场结束，新范式 self-play RL 成主角

34:39

新范式下计算成本或大幅提升但不一定靠增加模型参数量

37:15

强化学习被认为是实现 AGI 更合理的路径

38:59

Cursor 因其接入 Claude 3.5 而变得非常流行

41:18

局部 AGI 可能在人指导下让不会编程者生成复杂程序

41:58

模型规模受限时，跟进公司可通过优化策略实现超越

42:47

下半场是 RL 的天下，创业公司需找到 reward signal

45:13

硅谷在过去一年中，coding 赛道出现多个独角兽公司

46:11

Claude 3.5 Opus 代码能力变强，好比行业的 iPhone 摄像头

54:12

未来三到四年关键赛道为 coding、视频和通用机器人

57:01

Figure AI 与 OpenAI 合作，但竞争力定位尴尬

59:37

通用具身智能大爆发可能在五到十年

1:05:32

强化学习提前到来，让模型更聪明是关键

1:05:54

人们可能低估了强化学习的重要性

1:07:08

当下不做强化学习的公司难在浪潮中脱颖而出

1:09:31

至少两三家国内公司年内可达 GPT 4 水平

1:12:40

OpenAI 领先优势未转化为产品或商业飞轮优势

1:13:23

OpenAI 的产品发布策略虽然冒险，但激发了行业创新

1:16:23

Ilya 认为纯语言模型预训练存在不足，转向强化学习和 Q* 方法

1:17:11

AI 可能尚未达到预期，但时间未到且将重构巨头

1:18:10

科技变革通常先有硬件投入，后有应用爆发

1:20:01

开源和小模型在特定高价值任务上表现不佳，用户体验受影响

1:22:45

若 AI 热潮破灭，思考谁会成为下一个 Amazon

1:23:42

Apple 未来可能成为 K - LIFE 领域的无形受益者

1:24:24

AI 提升生产力但未改变生产关系，老公司将受益

Chapters

全球大模型季报第四集：2024 年 Q3 季报

00:00

语言模型预训练的范式或许遇瓶颈，模型 scaling 边际效益开始递减

02:30

为什么不一定能支持模型在 GPT-4o 基础上大幅跃升？现在处于 “真空死亡地带”？

05:21

我最担心的是，纯靠语言模型的经典 Scaling Law /Pre train 这个物理规律遇到瓶颈，或者在更大参数比如 2-3T 以上的情况下开始失效了

06:43

如果 scaling law 在模型变大的过程中不 work，现在有三条潜在路径: 1、多模态尤其是视觉（但还没有证据说能从视觉模态训练涌现智能能力）；

09:37

3、强化学习 self-play RL（这是范式级别的大转变！）

10:15

如果我是 AI 公司 CEO，我会 200% 资源 all in RL 这条路

12:53

概念解释: Reinforcement Learning，简称 RL，中文强化学习（Ilya 用一句话概括强化学习: 让 AI 用随机路径去尝试一个新任务，如果效果超出预期，就更新神经网络的权重让 AI 记得多使用成功的实践，再开始下一次尝试）

13:40

代码和数学可以变得很强，能不能泛化到更多领域没有证据

19:05

你也可以把语言和预训练比作人类基因组，携带着人类几千年进化的基因，强化学习 RL 就是人类成长的一生

22:39

必须很聪明的模型才能有能力做 self-play RL 的探索

24:55

Anthropic Claude 3.5 是这一波标志性的产品，他们不搞 Sora / 搜索，主线是 RL；业内少数人意识到 RL 的重要性是最近两个月

27:07

硅谷明星公司现阶段的资源投入？1-2 家公司把 RL 当作最高优先级

28:35

AGI 范式大转移之下，还会有 GPT-6 和 GPT-7 吗？（可能明年会看到很小的模型比今天 GPT-4o 要聪明非常多，一个期待是实现 AGI 不一定需要巨量参数的模型）

29:42

新范式的困境和卡点

30:33

Character.AI 出售给 Google 预示 AGI 竞赛上半场结束，下半场开始，创始人 Noam 从 Google 进入 self-play RL 下半场

32:52

新范式下，还需要那么多 GPU 吗？很多人关心英伟达股价

34:36

AGI 范式转移只在最核心的 researcher 中有共识，几百人，还没扩散

37:06

Claude 3.5 Sonnet 显著提升，带动了编程工具 Cursor 的火爆出圈

38:55

OpenAI 在造势的草莓、Q*，猜测背后都是强化学习 RL

40:08

国内公司应该应该 all in 200% 跟进 RL

41:55

语言模型和 RL 是乘级关系

42:44

硅谷的 AI 赛道: 围绕 LLM 周边有 3-4 个圈，搜索、代码 Coding、视频、机器人

45:12

2、视频: 这个赛道诱人，但格局不稳定、决胜窗口长

46:10

3、通用机器人: 想赌具身领域也有个 OpenAI，现在是基础科学突破的问题，没看到在机器人领域的 “通用泛化能力” 出现

46:45

美国通用机器人的明星项目（Pi、The Bot 是业界公认最头部的项目，除此之外融资金额很大、声量也比较高的是 Skild AI、Figure AI）

57:00

国内 vs 硅谷机器人: 硅谷投 robot foundation model 一个大脑，像 Andorid；在国内投整机，OV 和小米

58:31

LLM-> 多模态 -> 具身智能 -> 世界模型，这是 AI 发展路径

1:01:56

LLM vs 移动互联网，叙事逻辑是什么？哪些明线与暗线？

1:05:54

有没有可能，今天不做强化学习的公司未来都跑不出来

1:07:04

站在现在，重新评论一下中国 LLM？“月亮和六便士”

1:08:05

OpenAI

1:12:37

2、联合创始人 Greg Brockman、John Schumann 离职

1:13:20

3、Ilya 离开应该是 bet on 两个路线（多模态 / 强化学习，大概率是 RL）

1:14:10

Q* 和草莓和 RL 应该是一件事，草莓是代号，RL 是方法

1:17:10

回答红杉美国合伙人 David Cahn 发布最新文章《AI’s $600B Question》

1:18:07

在 2024 年 Q3，AI 叙事还有哪些非共识？

1:20:00

Character.AI 之后，哪些 AI 公司还会被收购？做个预测

1:22:45

2000 年互联网 hype 破灭后只留下 Amazon 一家公司，今天 AI hype 如果破灭了，谁是下一个 Amazon?

1:23:38

AGI 第一幕是科技巨头受益，第二幕还没完全展开

1:24:24

Transcript

广密: 其实能称得上范式级别的就是一个，就是强化学习 RL 这个事，草莓更像是一个项目的代号吧，RL 呢其实是方法。QSTAR 可能是最早的一个源起的 paper。我觉得一个更形象的比喻就是说，你可以把语言和欲训练比作人类的一个基因组，携带着人类几千年进化的基因。那么强化学习就是人类成长的一生。语言模型普通趁遇到瓶颈，就是最近两个月吧。外界可能还不一定意识到说，语言的 pretrain 已经到了一定瓶颈甚至说有没有一个可能性？今天不做强化学习的公司，下一波浪潮里面都跑不出来。张小珺: Hello 大家好，...

小宇宙

Open in 小宇宙