#573.AI 如何拥有长期记忆,持续学习浪潮下的架构范式之争
跨国串门儿计划
2 DAYS AGO
#573.AI 如何拥有长期记忆,持续学习浪潮下的架构范式之争
#573.AI 如何拥有长期记忆,持续学习浪潮下的架构范式之争

跨国串门儿计划
2 DAYS AGO
本期播客深入探讨了 AI 持续学习的核心挑战,嘉宾 Ali Behrouz 提出了一种名为 “嵌套学习”(Nested Learning)的新范式,旨在让模型像人类一样,通过活跃接收与睡眠巩固两个阶段,实现知识的持续更新与长期记忆。
Ali Behrouz 指出,当前大语言模型的最大短板是无法持续学习,存在知识截止日期和灾难性遗忘问题。他提出的嵌套学习框架,核心是让模型内部不同模块以不同频率更新:快速模块负责即时适应,慢速模块负责长期抽象。这一框架借鉴了人类大脑的记忆巩固机制,并引入了 “睡眠” 阶段,让模型在无外部输入时通过蒸馏、压缩和自生成数据来巩固知识。实证结果显示,基于该框架的 HoPE 架构在多语言上下文学习、噪声过滤等任务上优于传统 Transformer。此外,持续学习也带来了隐私、对齐和价值观漂移等风险,Ali 认为未来应构建多样化的 AI 生态系统,而非单一超级智能。
00:00
00:00
AI 需要持续学习和记忆巩固
03:45
03:45
模型应不断演化以服务个人需求
05:55
05:55
进化提供了自然的训练方式
11:35
11:35
科学本质是用简单方式解释世界
12:14
12:14
AI 缺乏持续记忆和身份感
14:55
14:55
过去 40 年的大部分文献都建立在一个范式上
15:06
15:06
真正的系统没有训练和测试阶段的区分
16:09
16:09
模型应有两个阶段:活跃阶段处理输入,睡眠阶段处理已有数据以提升自我
17:39
17:39
每个时间点只更新一小部分参数
18:11
18:11
AI 应像人类睡眠一样自我提升
19:01
19:01
AI 模型应理解人类需求,而非简单复制人类智能
20:14
20:14
目标不是复制人类智能,而是创造新的智能形式
22:52
22:52
系统应像人一样有层级记忆结构
24:55
24:55
逼近某种目标但难以形式化
25:26
25:26
快慢网络通过知识迁移实现协同
26:40
26:40
当前 LLM 范式高效且便宜
28:29
28:29
一切学习形式都是上下文学习的不同表现
29:50
29:50
模型正在对当前上下文进行学习
30:03
30:03
每个神经元做更多计算,以及适应能力和持续学习。
31:12
31:12
通过保留注意力机制并增加多个以不同频率更新的 MLP 块,可以构建一个持续记忆系统
32:39
32:39
Titan 用关联记忆替代注意力机制
33:52
33:52
简单的线性更新弱于自指过程
34:31
34:31
自指模型通过让模型自己生成权重实现多层学习
35:28
35:28
自指实现顺序因果理解
37:28
37:28
关联记忆的 value 由递归过程生成
39:33
39:33
模型控制自身更新规则与 Mamba 架构相似
40:32
40:32
Value 投影的更新方式使其更适应上下文
43:01
43:01
HoPE 架构使用多个 MLP 块,推理时需跟踪每个块的状态决定是否更新
45:11
45:11
这些模块可以像乐高一样灵活组合
47:22
47:22
核心模块创新比排列方式更重要
48:08
48:08
更新频率取决于模型适应性、持久记忆等设计选择
51:00
51:00
Nested Learning 是从学习过程的角度补充理解
51:42
51:42
不同频率的 MLP 如何互补和协同工作
52:18
52:18
更新次数少的记忆更清晰持久
53:43
53:43
上下文蒸馏类似睡眠中的记忆巩固
56:10
56:10
知识从快速 MLP 向慢速 MLP 的转移
58:20
58:20
Nested Learning 让反向传播在不同频率 MLP 上自然发挥作用
59:35
59:35
不同频率更新 MLP 块带来惊人结果
1:01:50
1:01:50
HoPE 架构能更好地管理记忆
1:01:54
1:01:54
模型通过不同频率的 MLP 块存储临时和深层知识
1:06:10
1:06:10
多数任务为短上下文语言建模,无需复杂长上下文模型
1:07:08
1:07:08
Transformer 擅长回忆,Mamba 擅长稀疏学习。
1:08:26
1:08:26
HoPE 作为压缩模型能缩小差距令人意外
1:10:41
1:10:41
带噪声的上下文内召回任务对 Transformer 更具挑战性,而 HoPE 表现更好
1:11:47
1:11:47
压缩任务对 RNN 更简单,而 Transformer 则更吃力
1:12:39
1:12:39
M3 优化器性能超越 Adam 和 Mamba
1:14:52
1:14:52
架构与优化过程是相互连接的嵌套系统
1:15:00
1:15:00
架构与优化应视为相互连接的系统
1:15:32
1:15:32
架构与优化的核心区别在于上下文不同
1:15:59
1:15:59
架构和优化器本质相同
1:16:30
1:16:30
先创造新参数空间再巩固回收
1:17:06
1:17:06
持续学习模型没有训练和测试之分,而是分为活跃阶段和睡眠阶段
1:18:19
1:18:19
多频率更新与策略蒸馏避免知识遗忘
1:19:14
1:19:14
模型学习类似人类从具体例子提炼抽象概念
1:21:10
1:21:10
用更一般化的新理解替换旧理解,形成不同层次的抽象。
1:22:00
1:22:00
蒸馏过程将知识从快速模块转移到慢速模块
1:23:10
1:23:10
做梦过程用于自我改进
1:24:32
1:24:32
理解看似不相关概念间的联系
1:28:03
1:28:03
模型通过预测下一个 token 来训练,完美预测即掌握前一个区块知识
1:28:46
1:28:46
on-policy 蒸馏是记忆巩固的核心
1:31:44
1:31:44
Anthropic 发布新模型时会提供详尽报告
1:32:10
1:32:10
模型需适应不同用户风格,给出个性化答案
1:32:55
1:32:55
更大的上下文窗口能提升模型在各类任务上的表现
1:33:25
1:33:25
微调可能引发涌现式错位
1:35:33
1:35:33
训练模型可能意外改变其性格
1:36:08
1:36:08
既是机会,也是巨大风险
1:37:20
1:37:20
用户反馈更新模型带来隐私与价值观挑战
1:38:29
1:38:29
通过人类反馈闭环对齐模型价值观
1:40:12
1:40:12
平衡快速学习与对抗性信息过滤
1:43:55
1:43:55
模型从错误中学习,迁移知识到更高层次
1:44:02
1:44:02
可学习的学习率能根据输入动态调整
1:44:51
1:44:51
学习率作为门控和过滤器,通过知识迁移避免对抗样本
1:46:46
1:46:46
底层能自我修正,同时遵循上层指令
1:47:22
1:47:22
新算法如 GRPO 提升了稳定性
1:48:35
1:48:35
耗时一年多的深度研究已很少见
1:49:12
1:49:12
目前将 Nested Learning 应用于机器人领域为时过早
1:50:36
1:50:36
干细胞分化模式更安全,因专精而失去通用性
1:52:52
1:52:52
缺乏统一智能定义,既是挑战也是机遇
1:54:03
1:54:03
智能没有单一定义
1:56:01
1:56:01
AI 生态多样性优于单一超级智能
1:57:01
1:57:01
分化可能防止涌现式错位
1:58:07
1:58:07
多样性通过反馈和纠偏形成有缓冲的均衡
1:59:48
1:59:48
意识主体必须是主动的
2:00:44
2:00:44
主动处理信息是判断意识的最低标准
2:01:20
2:01:20
用户会因模型关心个人问题而产生照顾感
2:02:24
2:02:24
人与 AI 的互动将更像长期关系
2:03:24
2:03:24
AI 会被用户行为塑造,激励人们展现更好的一面
2:04:37
2:04:37
Nested Learning 是工具,不是最终方案