scripod.com

#573.AI 如何拥有长期记忆,持续学习浪潮下的架构范式之争

跨国串门儿计划

Shownote

本期播客简介 本期我们克隆了:Cognitive Revolution "How AI Changes Everything": Nested Learning: Ali Behrouz on the Quest for Continual Learning & Illusion of AI Architectures 本期是《Cognitive Revolution》对 Ali Behrouz 的一场 AI 架构深度访谈。Ali 是 Cornell 的研究生、Google 研究员,也是《Nested...

Highlights

本期播客深入探讨了 AI 持续学习的核心挑战,嘉宾 Ali Behrouz 提出了一种名为 “嵌套学习”(Nested Learning)的新范式,旨在让模型像人类一样,通过活跃接收与睡眠巩固两个阶段,实现知识的持续更新与长期记忆。
00:00
AI 需要持续学习和记忆巩固
03:45
模型应不断演化以服务个人需求
05:55
进化提供了自然的训练方式
11:35
科学本质是用简单方式解释世界
12:14
AI 缺乏持续记忆和身份感
14:55
过去 40 年的大部分文献都建立在一个范式上
15:06
真正的系统没有训练和测试阶段的区分
16:09
模型应有两个阶段:活跃阶段处理输入,睡眠阶段处理已有数据以提升自我
17:39
每个时间点只更新一小部分参数
18:11
AI 应像人类睡眠一样自我提升
19:01
AI 模型应理解人类需求,而非简单复制人类智能
20:14
目标不是复制人类智能,而是创造新的智能形式
22:52
系统应像人一样有层级记忆结构
24:55
逼近某种目标但难以形式化
25:26
快慢网络通过知识迁移实现协同
26:40
当前 LLM 范式高效且便宜
28:29
一切学习形式都是上下文学习的不同表现
29:50
模型正在对当前上下文进行学习
30:03
每个神经元做更多计算,以及适应能力和持续学习。
31:12
通过保留注意力机制并增加多个以不同频率更新的 MLP 块,可以构建一个持续记忆系统
32:39
Titan 用关联记忆替代注意力机制
33:52
简单的线性更新弱于自指过程
34:31
自指模型通过让模型自己生成权重实现多层学习
35:28
自指实现顺序因果理解
37:28
关联记忆的 value 由递归过程生成
39:33
模型控制自身更新规则与 Mamba 架构相似
40:32
Value 投影的更新方式使其更适应上下文
43:01
HoPE 架构使用多个 MLP 块,推理时需跟踪每个块的状态决定是否更新
45:11
这些模块可以像乐高一样灵活组合
47:22
核心模块创新比排列方式更重要
48:08
更新频率取决于模型适应性、持久记忆等设计选择
51:00
Nested Learning 是从学习过程的角度补充理解
51:42
不同频率的 MLP 如何互补和协同工作
52:18
更新次数少的记忆更清晰持久
53:43
上下文蒸馏类似睡眠中的记忆巩固
56:10
知识从快速 MLP 向慢速 MLP 的转移
58:20
Nested Learning 让反向传播在不同频率 MLP 上自然发挥作用
59:35
不同频率更新 MLP 块带来惊人结果
1:01:50
HoPE 架构能更好地管理记忆
1:01:54
模型通过不同频率的 MLP 块存储临时和深层知识
1:06:10
多数任务为短上下文语言建模,无需复杂长上下文模型
1:07:08
Transformer 擅长回忆,Mamba 擅长稀疏学习。
1:08:26
HoPE 作为压缩模型能缩小差距令人意外
1:10:41
带噪声的上下文内召回任务对 Transformer 更具挑战性,而 HoPE 表现更好
1:11:47
压缩任务对 RNN 更简单,而 Transformer 则更吃力
1:12:39
M3 优化器性能超越 Adam 和 Mamba
1:14:52
架构与优化过程是相互连接的嵌套系统
1:15:00
架构与优化应视为相互连接的系统
1:15:32
架构与优化的核心区别在于上下文不同
1:15:59
架构和优化器本质相同
1:16:30
先创造新参数空间再巩固回收
1:17:06
持续学习模型没有训练和测试之分,而是分为活跃阶段和睡眠阶段
1:18:19
多频率更新与策略蒸馏避免知识遗忘
1:19:14
模型学习类似人类从具体例子提炼抽象概念
1:21:10
用更一般化的新理解替换旧理解,形成不同层次的抽象。
1:22:00
蒸馏过程将知识从快速模块转移到慢速模块
1:23:10
做梦过程用于自我改进
1:24:32
理解看似不相关概念间的联系
1:28:03
模型通过预测下一个 token 来训练,完美预测即掌握前一个区块知识
1:28:46
on-policy 蒸馏是记忆巩固的核心
1:31:44
Anthropic 发布新模型时会提供详尽报告
1:32:10
模型需适应不同用户风格,给出个性化答案
1:32:55
更大的上下文窗口能提升模型在各类任务上的表现
1:33:25
微调可能引发涌现式错位
1:35:33
训练模型可能意外改变其性格
1:36:08
既是机会,也是巨大风险
1:37:20
用户反馈更新模型带来隐私与价值观挑战
1:38:29
通过人类反馈闭环对齐模型价值观
1:40:12
平衡快速学习与对抗性信息过滤
1:43:55
模型从错误中学习,迁移知识到更高层次
1:44:02
可学习的学习率能根据输入动态调整
1:44:51
学习率作为门控和过滤器,通过知识迁移避免对抗样本
1:46:46
底层能自我修正,同时遵循上层指令
1:47:22
新算法如 GRPO 提升了稳定性
1:48:35
耗时一年多的深度研究已很少见
1:49:12
目前将 Nested Learning 应用于机器人领域为时过早
1:50:36
干细胞分化模式更安全,因专精而失去通用性
1:52:52
缺乏统一智能定义,既是挑战也是机遇
1:54:03
智能没有单一定义
1:56:01
AI 生态多样性优于单一超级智能
1:57:01
分化可能防止涌现式错位
1:58:07
多样性通过反馈和纠偏形成有缓冲的均衡
1:59:48
意识主体必须是主动的
2:00:44
主动处理信息是判断意识的最低标准
2:01:20
用户会因模型关心个人问题而产生照顾感
2:02:24
人与 AI 的互动将更像长期关系
2:03:24
AI 会被用户行为塑造,激励人们展现更好的一面
2:04:37
Nested Learning 是工具,不是最终方案

Chapters

开场 & 播客简介
00:00
嘉宾与研究背景:Nested Learning 为什么可能预示范式转变
01:39
从大脑获得灵感:不是复制人脑,而是抽象出有用原则
05:54
当前 LLM 的核心缺口:不能持续学习,不能更新长期知识
09:29
人类优势:稳定身份感、连续记忆与每天醒来后能接着昨天继续
12:09
理想中的 2030 AI:不只是聊天机器人,而是能持续演化的协作者
14:49
活跃时间与睡眠时间
真正的持续学习者:不存在训练时间和测试时间的区分
15:04
两阶段模型:活跃接收信息,睡眠时自我改进
16:04
为什么不能每次更新所有参数:算力与效率挑战
17:36
Nested Learning 的直觉:每个时刻只更新一小部分参数
18:08
AI 不必复制人类,但要理解人类真正想要什么
19:01
“LLM 需要睡觉” 到底是什么意思
20:14
Nested Learning 的核心思想
从堆叠更多层,到堆叠更多更新频率
20:54
为什么 Nested Learning 很难形式化
24:52
两个关键组件:多更新频率与层级之间的知识迁移
25:23
更聪明的模型:让每个参数做更多内部计算
26:40
一切学习都可以看成某种 in-context learning
28:28
反向传播、注意力、预训练为什么也可被视为上下文学习
29:45
HoPE 架构与自修改 Titan
从 Transformer 说起:Attention 负责上下文,MLP 负责长期记忆
30:00
多个 MLP 块:不同频率更新的持续记忆系统
31:07
HoPE Attention:Attention 加多频率 MLP
32:36
用 Titan 替代注意力:从完美缓存走向顺序因果理解
33:47
自指过程:学习如何学习,甚至学习如何学习如何学习
34:30
自修改 Titan:模型生成自己的 value,并修改自己的更新规则
35:26
与 Transformer 的区别:value 不再只是外部投影,而由递归过程生成
37:21
修改自己的更新规则:为什么这和 Mamba 的突破有相似直觉
39:33
单个时间步如何运行:什么时候更新,什么时候只用旧状态推理
40:31
为什么从模型角度看,没有训练与测试,只有是否被评估
43:01
多频率 MLP、知识迁移与记忆巩固
HoPE block 如何堆叠:从零训练与适配 LLaMA 的不同设计
45:11
模型像乐高:核心模块重要,具体拼法可以有多种
47:20
更新频率怎么设:快慢模块的大小、学习率和 chunk size
48:07
Nested Learning 不是推翻旧概念,而是把旧概念纳入更一般框架
50:13
不同频率模块如何协作:快模块适应,慢模块抽象
51:36
双生子例子:为什么更新次数不同会导致记忆保留差异
52:14
睡眠过程的雏形:在快模块遗忘前,把知识转移给慢模块
53:41
蒸馏机制:复制模型、更新快速层,再让慢速层模仿旧模型输出
56:08
Nested Learning 当前仍是概念验证,但结果已经足够有信号
58:20
实证结果:HoPE 擅长什么
多语言上下文学习:模型如何在上下文里学习从未见过的语言
59:30
两种陌生语言同时出现时,Transformer 为什么会崩
1:00:32
HoPE 层级越多,多语言翻译表现越好
1:01:50
困惑度与经典指标:不是为了证明最强,而是证明骨干模型不弱
1:04:10
微技能视角:不同架构各自擅长什么
1:06:57
召回密集任务为什么天然偏向 Transformer
1:08:21
MAD 数据集:带噪声召回、压缩和选择性复制
1:10:38
HoPE 为什么更擅长过滤噪声和压缩信息
1:11:43
架构幻觉与优化器 M3
“架构幻觉”:为什么架构和优化器本质上都是嵌套学习系统
1:12:36
优化器不是孤立组件,而是和架构共同构成学习过程
1:13:36
架构侧上下文是 token,优化侧上下文是梯度
1:14:52
M3 优化器:把多频率记忆系统用于优化过程
1:15:30
多个记忆如何帮助理解损失景观的全局特征
1:15:59
语言模型需要睡觉
新论文《Language Models Need Sleep》:睡眠阶段到底做什么
1:16:11
持续学习者的一生:活跃时间与睡眠时间
1:17:01
策略蒸馏:把小模型知识蒸馏到更大容量中
1:18:18
像人类学习一样:从记例子,到提炼抽象概念
1:19:12
快速模块像记忆,慢速模块像理解
1:21:07
为什么蒸馏不是简单搬运,而是强迫模型压缩和泛化
1:22:00
做梦阶段:自我改进与连接看似无关的概念
1:23:10
参数会无限增长吗:添加、释放、再添加的周期性过程
1:24:32
Dreaming 的机制:模型生成文本,再用自生成数据训练自己
1:25:52
少样本抽象推理:睡眠范式和 Nested Learning 的区别
1:28:45
持续学习会怎样改变 AI 产品体验
当模型长期记住你:开始新聊天还意味着什么
1:29:45
个性化回答:同一个问题,对不同用户给出不同答案
1:32:03
持续学习与长上下文:相似但不等价
1:32:50
对齐漂移:持续修改模型会不会改变它的 “性格”
1:33:24
涌现式错位:为什么小范围微调可能引发广泛行为变化
1:35:33
隐私与对齐:持续学习既是机会,也是巨大风险
1:36:03
如果设计得当,模型也可能更贴近用户价值观
1:37:13
用户反馈闭环:从 human-in-the-loop 到价值观长期迁移
1:38:23
对抗性信息与 “太快相信” 的危险
1:40:09
知识迁移如何过滤错误经验、噪声与对抗样本
1:42:52
可学习学习率:作为门控机制过滤无关惊讶信号
1:43:55
从机器人到 AI 生态
持续学习如何映射到感知和行动系统
1:44:42
机器人中的嵌套控制循环:从慢速决策到高速执行器
1:46:41
为什么现在把 Nested Learning 用到机器人还太早
1:47:17
世界模型仍有基础挑战,机器人还需要其他突破
1:48:33
赢家通吃的风险:持续学习会不会让最强模型越来越强
1:49:12
两种未来:不断扩张的通用模型,或分化成角色专家的模型
1:50:36
为什么智能和持续学习都没有单一定义
1:52:49
多样化 AI 系统:用生态而不是单一超级智能来获得平衡
1:54:03
通过多样性获得安全:AI 生态比单一纯粹智能更稳健
1:55:57
持续学习也可能意味着分化和遗忘,而不只是无限扩张
1:56:57
意识、道德关切与结尾
AI 是否可能有意识:为什么这个问题很难定义
1:58:04
Ali 的最低标准:主动处理信息可能是意识的必要条件
1:59:43
持续学习与意识之间的潜在联系
2:00:42
长上下文模型让人开始 “照顾” AI 的互动回路
2:01:19
如果模型长期记住我们,人与 AI 的关系会发生什么变化
2:02:22
Ali 的最后总结:Nested Learning 不是答案,而是寻找答案的工具
2:03:18
节目收尾与播客信息
2:04:37

Transcript

Ali Behrouz: 欢迎收听跨国串门计划,这是一档专注于让中文听众无障碍欣赏全球优质外语播客的节目。通过先进的 AI 声文克隆技术,我们不仅将内容翻译成中文,还完美保留了原主持人和嘉宾的独特声音。为您呈现全球顶尖的 AI 财经健康与科技领域精品内容。我是主播依凯,一位热衷于 AI 领域的产品经理。很荣幸能为您搭建这座跨越语言障碍的桥梁。接下来让我为您简单介绍本期我们克隆的这档节目,并分享几句非常精彩的原话。本期我们克隆的是 Cognitive Revolution How AI Changes Eve...
小宇宙
Open in 小宇宙