scripod.com

#573.AI 如何拥有长期记忆，持续学习浪潮下的架构范式之争

Overview

Shownote

Highlights

Transcript

Chapters

Pins

#573.AI 如何拥有长期记忆，持续学习浪潮下的架构范式之争

跨国串门儿计划

Jun 07

#573.AI 如何拥有长期记忆，持续学习浪潮下的架构范式之争

#573.AI 如何拥有长期记忆，持续学习浪潮下的架构范式之争

跨国串门儿计划

跨国串门儿计划

Jun 07

Overview Shownote Highlights Transcript Chapters Pins

本期播客深入探讨了 AI 持续学习的核心挑战，嘉宾 Ali Behrouz 提出了一种名为 “嵌套学习”（Nested Learning）的新范式，旨在让模型像人类一样，通过活跃接收与睡眠巩固两个阶段，实现知识的持续更新与长期记忆。

Ali Behrouz 指出，当前大语言模型的最大短板是无法持续学习，存在知识截止日期和灾难性遗忘问题。他提出的嵌套学习框架，核心是让模型内部不同模块以不同频率更新：快速模块负责即时适应，慢速模块负责长期抽象。这一框架借鉴了人类大脑的记忆巩固机制，并引入了 “睡眠” 阶段，让模型在无外部输入时通过蒸馏、压缩和自生成数据来巩固知识。实证结果显示，基于该框架的 HoPE 架构在多语言上下文学习、噪声过滤等任务上优于传统 Transformer。此外，持续学习也带来了隐私、对齐和价值观漂移等风险，Ali 认为未来应构建多样化的 AI 生态系统，而非单一超级智能。

00:00

00:00

AI 需要持续学习和记忆巩固

03:45

03:45

模型应不断演化以服务个人需求

05:55

05:55

进化提供了自然的训练方式

11:35

11:35

科学本质是用简单方式解释世界

12:14

12:14

AI 缺乏持续记忆和身份感

14:55

14:55

过去 40 年的大部分文献都建立在一个范式上

15:06

15:06

真正的系统没有训练和测试阶段的区分

16:09

16:09

模型应有两个阶段：活跃阶段处理输入，睡眠阶段处理已有数据以提升自我

17:39

17:39

每个时间点只更新一小部分参数

18:11

18:11

AI 应像人类睡眠一样自我提升

19:01

19:01

AI 模型应理解人类需求，而非简单复制人类智能

20:14

20:14

目标不是复制人类智能，而是创造新的智能形式

22:52

22:52

系统应像人一样有层级记忆结构

24:55

24:55

逼近某种目标但难以形式化

25:26

25:26

快慢网络通过知识迁移实现协同

26:40

26:40

当前 LLM 范式高效且便宜

28:29

28:29

一切学习形式都是上下文学习的不同表现

29:50

29:50

模型正在对当前上下文进行学习

30:03

30:03

每个神经元做更多计算，以及适应能力和持续学习。

31:12

31:12

通过保留注意力机制并增加多个以不同频率更新的 MLP 块，可以构建一个持续记忆系统

32:39

32:39

Titan 用关联记忆替代注意力机制

33:52

33:52

简单的线性更新弱于自指过程

34:31

34:31

自指模型通过让模型自己生成权重实现多层学习

35:28

35:28

自指实现顺序因果理解

37:28

37:28

关联记忆的 value 由递归过程生成

39:33

39:33

模型控制自身更新规则与 Mamba 架构相似

40:32

40:32

Value 投影的更新方式使其更适应上下文

43:01

43:01

HoPE 架构使用多个 MLP 块，推理时需跟踪每个块的状态决定是否更新

45:11

45:11

这些模块可以像乐高一样灵活组合

47:22

47:22

核心模块创新比排列方式更重要

48:08

48:08

更新频率取决于模型适应性、持久记忆等设计选择

51:00

51:00

Nested Learning 是从学习过程的角度补充理解

51:42

51:42

不同频率的 MLP 如何互补和协同工作

52:18

52:18

更新次数少的记忆更清晰持久

53:43

53:43

上下文蒸馏类似睡眠中的记忆巩固

56:10

56:10

知识从快速 MLP 向慢速 MLP 的转移

58:20

58:20

Nested Learning 让反向传播在不同频率 MLP 上自然发挥作用

59:35

59:35

不同频率更新 MLP 块带来惊人结果

1:01:50

1:01:50

HoPE 架构能更好地管理记忆

1:01:54

1:01:54

模型通过不同频率的 MLP 块存储临时和深层知识

1:06:10

1:06:10

多数任务为短上下文语言建模，无需复杂长上下文模型

1:07:08

1:07:08

Transformer 擅长回忆，Mamba 擅长稀疏学习。

1:08:26

1:08:26

HoPE 作为压缩模型能缩小差距令人意外

1:10:41

1:10:41

带噪声的上下文内召回任务对 Transformer 更具挑战性，而 HoPE 表现更好

1:11:47

1:11:47

压缩任务对 RNN 更简单，而 Transformer 则更吃力

1:12:39

1:12:39

M3 优化器性能超越 Adam 和 Mamba

1:14:52

1:14:52

架构与优化过程是相互连接的嵌套系统

1:15:00

1:15:00

架构与优化应视为相互连接的系统

1:15:32

1:15:32

架构与优化的核心区别在于上下文不同

1:15:59

1:15:59

架构和优化器本质相同

1:16:30

1:16:30

先创造新参数空间再巩固回收

1:17:06

1:17:06

持续学习模型没有训练和测试之分，而是分为活跃阶段和睡眠阶段

1:18:19

1:18:19

多频率更新与策略蒸馏避免知识遗忘

1:19:14

1:19:14

模型学习类似人类从具体例子提炼抽象概念

1:21:10

1:21:10

用更一般化的新理解替换旧理解，形成不同层次的抽象。

1:22:00

1:22:00

蒸馏过程将知识从快速模块转移到慢速模块

1:23:10

1:23:10

做梦过程用于自我改进

1:24:32

1:24:32

理解看似不相关概念间的联系

1:28:03

1:28:03

模型通过预测下一个 token 来训练，完美预测即掌握前一个区块知识

1:28:46

1:28:46

on-policy 蒸馏是记忆巩固的核心

1:31:44

1:31:44

Anthropic 发布新模型时会提供详尽报告

1:32:10

1:32:10

模型需适应不同用户风格，给出个性化答案

1:32:55

1:32:55

更大的上下文窗口能提升模型在各类任务上的表现

1:33:25

1:33:25

微调可能引发涌现式错位

1:35:33

1:35:33

训练模型可能意外改变其性格

1:36:08

1:36:08

既是机会，也是巨大风险

1:37:20

1:37:20

用户反馈更新模型带来隐私与价值观挑战

1:38:29

1:38:29

通过人类反馈闭环对齐模型价值观

1:40:12

1:40:12

平衡快速学习与对抗性信息过滤

1:43:55

1:43:55

模型从错误中学习，迁移知识到更高层次

1:44:02

1:44:02

可学习的学习率能根据输入动态调整

1:44:51

1:44:51

学习率作为门控和过滤器，通过知识迁移避免对抗样本

1:46:46

1:46:46

底层能自我修正，同时遵循上层指令

1:47:22

1:47:22

新算法如 GRPO 提升了稳定性

1:48:35

1:48:35

耗时一年多的深度研究已很少见

1:49:12

1:49:12

目前将 Nested Learning 应用于机器人领域为时过早

1:50:36

1:50:36

干细胞分化模式更安全，因专精而失去通用性

1:52:52

1:52:52

缺乏统一智能定义，既是挑战也是机遇

1:54:03

1:54:03

智能没有单一定义

1:56:01

1:56:01

AI 生态多样性优于单一超级智能

1:57:01

1:57:01

分化可能防止涌现式错位

1:58:07

1:58:07

多样性通过反馈和纠偏形成有缓冲的均衡

1:59:48

1:59:48

意识主体必须是主动的

2:00:44

2:00:44

主动处理信息是判断意识的最低标准

2:01:20

2:01:20

用户会因模型关心个人问题而产生照顾感

2:02:24

2:02:24

人与 AI 的互动将更像长期关系

2:03:24

2:03:24

AI 会被用户行为塑造，激励人们展现更好的一面

2:04:37

2:04:37

Nested Learning 是工具，不是最终方案