scripod.com

73. AGI 范式大转移:和广密预言草莓、OpenAI o1 和 self-play RL|全球大模型季报 4

本期播客深入探讨了 AGI 领域在 2024 年第三季度的关键趋势,特别是强化学习(self-play RL)作为范式级方法的潜力。随着语言模型预训练面临瓶颈,硅谷多家公司正将资源重心转向强化学习,这一转变可能重新定义 AGI 的发展路径。
播客指出,当前 AGI 发展正处于关键转折点,语言模型的经典 Scaling Law 可能已接近极限,多模态和大规模集群计算虽有潜力但不确定性较高,而强化学习被视作最具前景的新路径。OpenAI 的‘草莓’项目与 Anthropic 的 Claude 3.5 Opus 均可能基于强化学习实现突破。此外,嘉宾分析了硅谷一级市场的明星赛道,如 Coding、视频生成和通用机器人,并强调国内公司在强化学习领域的跟进至关重要。讨论还涉及 OpenAI 及科技巨头的现状,认为其技术领先地位尚未完全转化为商业模式优势,未来 AI 叙事或将从硬件基础设施向应用爆发过渡。最终,嘉宾预测强化学习或成为实现 AGI 的核心工具,呼吁行业加大对基础研究的投入,以推动技术进步与商业化落地。
00:08
00:08
强化学习 RL 是范式级方法,不做强化学习的公司或难突围
02:36
02:36
传统 Scaling Law 有 50% 概率失效,预训练路径或需新思路
05:21
05:21
Scale up 幅度不够和 H100 卡性能不佳是执行中的主要障碍
07:48
07:48
算力提升面临机群故障频繁、实验不充分等问题
09:37
09:37
替代 Scaling Law 的新方法可能是实现 AGI 的关键
11:28
11:28
强化学习能显著提升模型逻辑推理能力
12:57
12:57
强化学习是通向 AGI 的最有机会的路
16:25
16:25
LLM 奖励反馈不清晰,难以定义有效奖励模型
20:21
20:21
强化学习可显著提升大语言模型逻辑推理能力
22:42
22:42
语言和预训练可能是‘前菜’,强化学习才是‘主菜’
24:55
24:55
语言模型是强化学习的必要条件,需有 GPT4 或 Claude 3.5 水平
27:12
27:12
语言模型预训练可能遇到瓶颈,需关注 RL 上限
28:40
28:40
仅一两家公司将 RL 作为最高优先级,把语言 Pretrain 优先级放第二
29:46
29:46
实现 AGI 不一定需要巨量参数模型
32:01
32:01
应更重视天才科学家价值,如 Google 收购 Character.AI 案例
32:52
32:52
AGI 市场上半场结束,新范式 self-play RL 成主角
34:39
34:39
新范式下计算成本或大幅提升但不一定靠增加模型参数量
37:15
37:15
强化学习被认为是实现 AGI 更合理的路径
38:59
38:59
Cursor 因其接入 Claude 3.5 而变得非常流行
41:18
41:18
局部 AGI 可能在人指导下让不会编程者生成复杂程序
41:58
41:58
模型规模受限时,跟进公司可通过优化策略实现超越
42:47
42:47
下半场是 RL 的天下,创业公司需找到 reward signal
45:13
45:13
硅谷在过去一年中,coding 赛道出现多个独角兽公司
46:11
46:11
Claude 3.5 Opus 代码能力变强,好比行业的 iPhone 摄像头
54:12
54:12
未来三到四年关键赛道为 coding、视频和通用机器人
57:01
57:01
Figure AI 与 OpenAI 合作,但竞争力定位尴尬
59:37
59:37
通用具身智能大爆发可能在五到十年
1:05:32
1:05:32
强化学习提前到来,让模型更聪明是关键
1:05:54
1:05:54
人们可能低估了强化学习的重要性
1:07:08
1:07:08
当下不做强化学习的公司难在浪潮中脱颖而出
1:09:31
1:09:31
至少两三家国内公司年内可达 GPT 4 水平
1:12:40
1:12:40
OpenAI 领先优势未转化为产品或商业飞轮优势
1:13:23
1:13:23
OpenAI 的产品发布策略虽然冒险,但激发了行业创新
1:16:23
1:16:23
Ilya 认为纯语言模型预训练存在不足,转向强化学习和 Q* 方法
1:17:11
1:17:11
AI 可能尚未达到预期,但时间未到且将重构巨头
1:18:10
1:18:10
科技变革通常先有硬件投入,后有应用爆发
1:20:01
1:20:01
开源和小模型在特定高价值任务上表现不佳,用户体验受影响
1:22:45
1:22:45
若 AI 热潮破灭,思考谁会成为下一个 Amazon
1:23:42
1:23:42
Apple 未来可能成为 K - LIFE 领域的无形受益者
1:24:24
1:24:24
AI 提升生产力但未改变生产关系,老公司将受益