scripod.com

#573.AI 如何拥有长期记忆，持续学习浪潮下的架构范式之争

Overview

Shownote

Highlights

Transcript

Chapters

Pins

#573.AI 如何拥有长期记忆，持续学习浪潮下的架构范式之争

跨国串门儿计划

Jun 07

#573.AI 如何拥有长期记忆，持续学习浪潮下的架构范式之争

#573.AI 如何拥有长期记忆，持续学习浪潮下的架构范式之争

跨国串门儿计划

跨国串门儿计划

Jun 07

Overview Shownote Highlights Transcript Chapters Pins

Shownote

本期播客简介本期我们克隆了：Cognitive Revolution "How AI Changes Everything": Nested Learning: Ali Behrouz on the Quest for Continual Learning & Illusion of AI Architectures 本期是《Cognitive Revolution》对 Ali Behrouz 的一场 AI 架构深度访谈。Ali 是 Cornell 的研究生、Google 研究员，也是《Nested...

Highlights

本期播客深入探讨了 AI 持续学习的核心挑战，嘉宾 Ali Behrouz 提出了一种名为 “嵌套学习”（Nested Learning）的新范式，旨在让模型像人类一样，通过活跃接收与睡眠巩固两个阶段，实现知识的持续更新与长期记忆。

00:00

AI 需要持续学习和记忆巩固

03:45

模型应不断演化以服务个人需求

05:55

进化提供了自然的训练方式

11:35

科学本质是用简单方式解释世界

12:14

AI 缺乏持续记忆和身份感

14:55

过去 40 年的大部分文献都建立在一个范式上

15:06

真正的系统没有训练和测试阶段的区分

16:09

模型应有两个阶段：活跃阶段处理输入，睡眠阶段处理已有数据以提升自我

17:39

每个时间点只更新一小部分参数

18:11

AI 应像人类睡眠一样自我提升

19:01

AI 模型应理解人类需求，而非简单复制人类智能

20:14

目标不是复制人类智能，而是创造新的智能形式

22:52

系统应像人一样有层级记忆结构

24:55

逼近某种目标但难以形式化

25:26

快慢网络通过知识迁移实现协同

26:40

当前 LLM 范式高效且便宜

28:29

一切学习形式都是上下文学习的不同表现

29:50

模型正在对当前上下文进行学习

30:03

每个神经元做更多计算，以及适应能力和持续学习。

31:12

通过保留注意力机制并增加多个以不同频率更新的 MLP 块，可以构建一个持续记忆系统

32:39

Titan 用关联记忆替代注意力机制

33:52

简单的线性更新弱于自指过程

34:31

自指模型通过让模型自己生成权重实现多层学习

35:28

自指实现顺序因果理解

37:28

关联记忆的 value 由递归过程生成

39:33

模型控制自身更新规则与 Mamba 架构相似

40:32

Value 投影的更新方式使其更适应上下文

43:01

HoPE 架构使用多个 MLP 块，推理时需跟踪每个块的状态决定是否更新

45:11

这些模块可以像乐高一样灵活组合

47:22

核心模块创新比排列方式更重要

48:08

更新频率取决于模型适应性、持久记忆等设计选择

51:00

Nested Learning 是从学习过程的角度补充理解

51:42

不同频率的 MLP 如何互补和协同工作

52:18

更新次数少的记忆更清晰持久

53:43

上下文蒸馏类似睡眠中的记忆巩固

56:10

知识从快速 MLP 向慢速 MLP 的转移

58:20

Nested Learning 让反向传播在不同频率 MLP 上自然发挥作用

59:35

不同频率更新 MLP 块带来惊人结果

1:01:50

HoPE 架构能更好地管理记忆

1:01:54

模型通过不同频率的 MLP 块存储临时和深层知识

1:06:10

多数任务为短上下文语言建模，无需复杂长上下文模型

1:07:08

Transformer 擅长回忆，Mamba 擅长稀疏学习。

1:08:26

HoPE 作为压缩模型能缩小差距令人意外

1:10:41

带噪声的上下文内召回任务对 Transformer 更具挑战性，而 HoPE 表现更好

1:11:47

压缩任务对 RNN 更简单，而 Transformer 则更吃力

1:12:39

M3 优化器性能超越 Adam 和 Mamba

1:14:52

架构与优化过程是相互连接的嵌套系统

1:15:00

架构与优化应视为相互连接的系统

1:15:32

架构与优化的核心区别在于上下文不同

1:15:59

架构和优化器本质相同

1:16:30

先创造新参数空间再巩固回收

1:17:06

持续学习模型没有训练和测试之分，而是分为活跃阶段和睡眠阶段

1:18:19

多频率更新与策略蒸馏避免知识遗忘

1:19:14

模型学习类似人类从具体例子提炼抽象概念

1:21:10

用更一般化的新理解替换旧理解，形成不同层次的抽象。

1:22:00

蒸馏过程将知识从快速模块转移到慢速模块

1:23:10

做梦过程用于自我改进

1:24:32

理解看似不相关概念间的联系

1:28:03

模型通过预测下一个 token 来训练，完美预测即掌握前一个区块知识

1:28:46

on-policy 蒸馏是记忆巩固的核心

1:31:44

Anthropic 发布新模型时会提供详尽报告

1:32:10

模型需适应不同用户风格，给出个性化答案

1:32:55

更大的上下文窗口能提升模型在各类任务上的表现

1:33:25

微调可能引发涌现式错位

1:35:33

训练模型可能意外改变其性格

1:36:08

既是机会，也是巨大风险

1:37:20

用户反馈更新模型带来隐私与价值观挑战

1:38:29

通过人类反馈闭环对齐模型价值观

1:40:12

平衡快速学习与对抗性信息过滤

1:43:55

模型从错误中学习，迁移知识到更高层次

1:44:02

可学习的学习率能根据输入动态调整

1:44:51

学习率作为门控和过滤器，通过知识迁移避免对抗样本

1:46:46

底层能自我修正，同时遵循上层指令

1:47:22

新算法如 GRPO 提升了稳定性

1:48:35

耗时一年多的深度研究已很少见

1:49:12

目前将 Nested Learning 应用于机器人领域为时过早

1:50:36

干细胞分化模式更安全，因专精而失去通用性

1:52:52

缺乏统一智能定义，既是挑战也是机遇

1:54:03

智能没有单一定义

1:56:01

AI 生态多样性优于单一超级智能

1:57:01

分化可能防止涌现式错位

1:58:07

多样性通过反馈和纠偏形成有缓冲的均衡

1:59:48

意识主体必须是主动的

2:00:44

主动处理信息是判断意识的最低标准

2:01:20

用户会因模型关心个人问题而产生照顾感

2:02:24

人与 AI 的互动将更像长期关系

2:03:24

AI 会被用户行为塑造，激励人们展现更好的一面

2:04:37

Nested Learning 是工具，不是最终方案

Chapters

开场 & 播客简介

00:00

嘉宾与研究背景：Nested Learning 为什么可能预示范式转变

01:39

从大脑获得灵感：不是复制人脑，而是抽象出有用原则

05:54

当前 LLM 的核心缺口：不能持续学习，不能更新长期知识

09:29

人类优势：稳定身份感、连续记忆与每天醒来后能接着昨天继续

12:09

理想中的 2030 AI：不只是聊天机器人，而是能持续演化的协作者

14:49

活跃时间与睡眠时间

真正的持续学习者：不存在训练时间和测试时间的区分

15:04

两阶段模型：活跃接收信息，睡眠时自我改进

16:04

为什么不能每次更新所有参数：算力与效率挑战

17:36

Nested Learning 的直觉：每个时刻只更新一小部分参数

18:08

AI 不必复制人类，但要理解人类真正想要什么

19:01

“LLM 需要睡觉” 到底是什么意思

20:14

Nested Learning 的核心思想

从堆叠更多层，到堆叠更多更新频率

20:54

为什么 Nested Learning 很难形式化

24:52

两个关键组件：多更新频率与层级之间的知识迁移

25:23

更聪明的模型：让每个参数做更多内部计算

26:40

一切学习都可以看成某种 in-context learning

28:28

反向传播、注意力、预训练为什么也可被视为上下文学习

29:45

HoPE 架构与自修改 Titan

从 Transformer 说起：Attention 负责上下文，MLP 负责长期记忆

30:00

多个 MLP 块：不同频率更新的持续记忆系统

31:07

HoPE Attention：Attention 加多频率 MLP

32:36

用 Titan 替代注意力：从完美缓存走向顺序因果理解

33:47

自指过程：学习如何学习，甚至学习如何学习如何学习

34:30

自修改 Titan：模型生成自己的 value，并修改自己的更新规则

35:26

与 Transformer 的区别：value 不再只是外部投影，而由递归过程生成

37:21

修改自己的更新规则：为什么这和 Mamba 的突破有相似直觉

39:33

单个时间步如何运行：什么时候更新，什么时候只用旧状态推理

40:31

为什么从模型角度看，没有训练与测试，只有是否被评估

43:01

多频率 MLP、知识迁移与记忆巩固

HoPE block 如何堆叠：从零训练与适配 LLaMA 的不同设计

45:11

模型像乐高：核心模块重要，具体拼法可以有多种

47:20

更新频率怎么设：快慢模块的大小、学习率和 chunk size

48:07

Nested Learning 不是推翻旧概念，而是把旧概念纳入更一般框架

50:13

不同频率模块如何协作：快模块适应，慢模块抽象

51:36

双生子例子：为什么更新次数不同会导致记忆保留差异

52:14

睡眠过程的雏形：在快模块遗忘前，把知识转移给慢模块

53:41

蒸馏机制：复制模型、更新快速层，再让慢速层模仿旧模型输出

56:08

Nested Learning 当前仍是概念验证，但结果已经足够有信号

58:20

实证结果：HoPE 擅长什么

多语言上下文学习：模型如何在上下文里学习从未见过的语言

59:30

两种陌生语言同时出现时，Transformer 为什么会崩

1:00:32

HoPE 层级越多，多语言翻译表现越好

1:01:50

困惑度与经典指标：不是为了证明最强，而是证明骨干模型不弱

1:04:10

微技能视角：不同架构各自擅长什么

1:06:57

召回密集任务为什么天然偏向 Transformer

1:08:21

MAD 数据集：带噪声召回、压缩和选择性复制

1:10:38

HoPE 为什么更擅长过滤噪声和压缩信息

1:11:43

架构幻觉与优化器 M3

“架构幻觉”：为什么架构和优化器本质上都是嵌套学习系统

1:12:36

优化器不是孤立组件，而是和架构共同构成学习过程

1:13:36

架构侧上下文是 token，优化侧上下文是梯度

1:14:52

M3 优化器：把多频率记忆系统用于优化过程

1:15:30

多个记忆如何帮助理解损失景观的全局特征

1:15:59

语言模型需要睡觉

新论文《Language Models Need Sleep》：睡眠阶段到底做什么

1:16:11

持续学习者的一生：活跃时间与睡眠时间

1:17:01

策略蒸馏：把小模型知识蒸馏到更大容量中

1:18:18

像人类学习一样：从记例子，到提炼抽象概念

1:19:12

快速模块像记忆，慢速模块像理解

1:21:07

为什么蒸馏不是简单搬运，而是强迫模型压缩和泛化

1:22:00

做梦阶段：自我改进与连接看似无关的概念

1:23:10

参数会无限增长吗：添加、释放、再添加的周期性过程

1:24:32

Dreaming 的机制：模型生成文本，再用自生成数据训练自己

1:25:52

少样本抽象推理：睡眠范式和 Nested Learning 的区别

1:28:45

持续学习会怎样改变 AI 产品体验

当模型长期记住你：开始新聊天还意味着什么

1:29:45

个性化回答：同一个问题，对不同用户给出不同答案

1:32:03

持续学习与长上下文：相似但不等价

1:32:50

对齐漂移：持续修改模型会不会改变它的 “性格”

1:33:24

涌现式错位：为什么小范围微调可能引发广泛行为变化

1:35:33

隐私与对齐：持续学习既是机会，也是巨大风险

1:36:03

如果设计得当，模型也可能更贴近用户价值观

1:37:13

用户反馈闭环：从 human-in-the-loop 到价值观长期迁移

1:38:23

对抗性信息与 “太快相信” 的危险

1:40:09

知识迁移如何过滤错误经验、噪声与对抗样本

1:42:52

可学习学习率：作为门控机制过滤无关惊讶信号

1:43:55

从机器人到 AI 生态

持续学习如何映射到感知和行动系统

1:44:42

机器人中的嵌套控制循环：从慢速决策到高速执行器

1:46:41

为什么现在把 Nested Learning 用到机器人还太早

1:47:17

世界模型仍有基础挑战，机器人还需要其他突破

1:48:33

赢家通吃的风险：持续学习会不会让最强模型越来越强

1:49:12

两种未来：不断扩张的通用模型，或分化成角色专家的模型

1:50:36

为什么智能和持续学习都没有单一定义

1:52:49

多样化 AI 系统：用生态而不是单一超级智能来获得平衡

1:54:03

通过多样性获得安全：AI 生态比单一纯粹智能更稳健

1:55:57

持续学习也可能意味着分化和遗忘，而不只是无限扩张

1:56:57

意识、道德关切与结尾

AI 是否可能有意识：为什么这个问题很难定义

1:58:04

Ali 的最低标准：主动处理信息可能是意识的必要条件

1:59:43

持续学习与意识之间的潜在联系

2:00:42

长上下文模型让人开始 “照顾” AI 的互动回路

2:01:19

如果模型长期记住我们，人与 AI 的关系会发生什么变化

2:02:22

Ali 的最后总结：Nested Learning 不是答案，而是寻找答案的工具

2:03:18

节目收尾与播客信息

2:04:37

Transcript

Ali Behrouz: 欢迎收听跨国串门计划，这是一档专注于让中文听众无障碍欣赏全球优质外语播客的节目。通过先进的 AI 声文克隆技术，我们不仅将内容翻译成中文，还完美保留了原主持人和嘉宾的独特声音。为您呈现全球顶尖的 AI 财经健康与科技领域精品内容。我是主播依凯，一位热衷于 AI 领域的产品经理。很荣幸能为您搭建这座跨越语言障碍的桥梁。接下来让我为您简单介绍本期我们克隆的这档节目，并分享几句非常精彩的原话。本期我们克隆的是 Cognitive Revolution How AI Changes Eve...

小宇宙

Open in 小宇宙