#573.AI 如何拥有长期记忆,持续学习浪潮下的架构范式之争
跨国串门儿计划
2 DAYS AGO
#573.AI 如何拥有长期记忆,持续学习浪潮下的架构范式之争
#573.AI 如何拥有长期记忆,持续学习浪潮下的架构范式之争

跨国串门儿计划
2 DAYS AGO
Shownote
Shownote
本期播客简介 本期我们克隆了:Cognitive Revolution "How AI Changes Everything": Nested Learning: Ali Behrouz on the Quest for Continual Learning & Illusion of AI Architectures 本期是《Cognitive Revolution》对 Ali Behrouz 的一场 AI 架构深度访谈。Ali 是 Cornell 的研究生、Google 研究员,也是《Nested...
Highlights
Highlights
本期播客深入探讨了 AI 持续学习的核心挑战,嘉宾 Ali Behrouz 提出了一种名为 “嵌套学习”(Nested Learning)的新范式,旨在让模型像人类一样,通过活跃接收与睡眠巩固两个阶段,实现知识的持续更新与长期记忆。
Chapters
Chapters
开场 & 播客简介
00:00嘉宾与研究背景:Nested Learning 为什么可能预示范式转变
01:39从大脑获得灵感:不是复制人脑,而是抽象出有用原则
05:54当前 LLM 的核心缺口:不能持续学习,不能更新长期知识
09:29人类优势:稳定身份感、连续记忆与每天醒来后能接着昨天继续
12:09理想中的 2030 AI:不只是聊天机器人,而是能持续演化的协作者
14:49活跃时间与睡眠时间
真正的持续学习者:不存在训练时间和测试时间的区分
15:04两阶段模型:活跃接收信息,睡眠时自我改进
16:04为什么不能每次更新所有参数:算力与效率挑战
17:36Nested Learning 的直觉:每个时刻只更新一小部分参数
18:08AI 不必复制人类,但要理解人类真正想要什么
19:01“LLM 需要睡觉” 到底是什么意思
20:14Nested Learning 的核心思想
从堆叠更多层,到堆叠更多更新频率
20:54为什么 Nested Learning 很难形式化
24:52两个关键组件:多更新频率与层级之间的知识迁移
25:23更聪明的模型:让每个参数做更多内部计算
26:40一切学习都可以看成某种 in-context learning
28:28反向传播、注意力、预训练为什么也可被视为上下文学习
29:45HoPE 架构与自修改 Titan
从 Transformer 说起:Attention 负责上下文,MLP 负责长期记忆
30:00多个 MLP 块:不同频率更新的持续记忆系统
31:07HoPE Attention:Attention 加多频率 MLP
32:36用 Titan 替代注意力:从完美缓存走向顺序因果理解
33:47自指过程:学习如何学习,甚至学习如何学习如何学习
34:30自修改 Titan:模型生成自己的 value,并修改自己的更新规则
35:26与 Transformer 的区别:value 不再只是外部投影,而由递归过程生成
37:21修改自己的更新规则:为什么这和 Mamba 的突破有相似直觉
39:33单个时间步如何运行:什么时候更新,什么时候只用旧状态推理
40:31为什么从模型角度看,没有训练与测试,只有是否被评估
43:01多频率 MLP、知识迁移与记忆巩固
HoPE block 如何堆叠:从零训练与适配 LLaMA 的不同设计
45:11模型像乐高:核心模块重要,具体拼法可以有多种
47:20更新频率怎么设:快慢模块的大小、学习率和 chunk size
48:07Nested Learning 不是推翻旧概念,而是把旧概念纳入更一般框架
50:13不同频率模块如何协作:快模块适应,慢模块抽象
51:36双生子例子:为什么更新次数不同会导致记忆保留差异
52:14睡眠过程的雏形:在快模块遗忘前,把知识转移给慢模块
53:41蒸馏机制:复制模型、更新快速层,再让慢速层模仿旧模型输出
56:08Nested Learning 当前仍是概念验证,但结果已经足够有信号
58:20实证结果:HoPE 擅长什么
多语言上下文学习:模型如何在上下文里学习从未见过的语言
59:30两种陌生语言同时出现时,Transformer 为什么会崩
1:00:32HoPE 层级越多,多语言翻译表现越好
1:01:50困惑度与经典指标:不是为了证明最强,而是证明骨干模型不弱
1:04:10微技能视角:不同架构各自擅长什么
1:06:57召回密集任务为什么天然偏向 Transformer
1:08:21MAD 数据集:带噪声召回、压缩和选择性复制
1:10:38HoPE 为什么更擅长过滤噪声和压缩信息
1:11:43架构幻觉与优化器 M3
“架构幻觉”:为什么架构和优化器本质上都是嵌套学习系统
1:12:36优化器不是孤立组件,而是和架构共同构成学习过程
1:13:36架构侧上下文是 token,优化侧上下文是梯度
1:14:52M3 优化器:把多频率记忆系统用于优化过程
1:15:30多个记忆如何帮助理解损失景观的全局特征
1:15:59语言模型需要睡觉
新论文《Language Models Need Sleep》:睡眠阶段到底做什么
1:16:11持续学习者的一生:活跃时间与睡眠时间
1:17:01策略蒸馏:把小模型知识蒸馏到更大容量中
1:18:18像人类学习一样:从记例子,到提炼抽象概念
1:19:12快速模块像记忆,慢速模块像理解
1:21:07为什么蒸馏不是简单搬运,而是强迫模型压缩和泛化
1:22:00做梦阶段:自我改进与连接看似无关的概念
1:23:10参数会无限增长吗:添加、释放、再添加的周期性过程
1:24:32Dreaming 的机制:模型生成文本,再用自生成数据训练自己
1:25:52少样本抽象推理:睡眠范式和 Nested Learning 的区别
1:28:45持续学习会怎样改变 AI 产品体验
当模型长期记住你:开始新聊天还意味着什么
1:29:45个性化回答:同一个问题,对不同用户给出不同答案
1:32:03持续学习与长上下文:相似但不等价
1:32:50对齐漂移:持续修改模型会不会改变它的 “性格”
1:33:24涌现式错位:为什么小范围微调可能引发广泛行为变化
1:35:33隐私与对齐:持续学习既是机会,也是巨大风险
1:36:03如果设计得当,模型也可能更贴近用户价值观
1:37:13用户反馈闭环:从 human-in-the-loop 到价值观长期迁移
1:38:23对抗性信息与 “太快相信” 的危险
1:40:09知识迁移如何过滤错误经验、噪声与对抗样本
1:42:52可学习学习率:作为门控机制过滤无关惊讶信号
1:43:55从机器人到 AI 生态
持续学习如何映射到感知和行动系统
1:44:42机器人中的嵌套控制循环:从慢速决策到高速执行器
1:46:41为什么现在把 Nested Learning 用到机器人还太早
1:47:17世界模型仍有基础挑战,机器人还需要其他突破
1:48:33赢家通吃的风险:持续学习会不会让最强模型越来越强
1:49:12两种未来:不断扩张的通用模型,或分化成角色专家的模型
1:50:36为什么智能和持续学习都没有单一定义
1:52:49多样化 AI 系统:用生态而不是单一超级智能来获得平衡
1:54:03通过多样性获得安全:AI 生态比单一纯粹智能更稳健
1:55:57持续学习也可能意味着分化和遗忘,而不只是无限扩张
1:56:57意识、道德关切与结尾
AI 是否可能有意识:为什么这个问题很难定义
1:58:04Ali 的最低标准:主动处理信息可能是意识的必要条件
1:59:43持续学习与意识之间的潜在联系
2:00:42长上下文模型让人开始 “照顾” AI 的互动回路
2:01:19如果模型长期记住我们,人与 AI 的关系会发生什么变化
2:02:22Ali 的最后总结:Nested Learning 不是答案,而是寻找答案的工具
2:03:18节目收尾与播客信息
2:04:37Transcript
Transcript
Ali Behrouz: 欢迎收听跨国串门计划,这是一档专注于让中文听众无障碍欣赏全球优质外语播客的节目。通过先进的 AI 声文克隆技术,我们不仅将内容翻译成中文,还完美保留了原主持人和嘉宾的独特声音。为您呈现全球顶尖的 AI 财经健康与科技领域精品内容。我是主播依凯,一位热衷于 AI 领域的产品经理。很荣幸能为您搭建这座跨越语言障碍的桥梁。接下来让我为您简单介绍本期我们克隆的这档节目,并分享几句非常精彩的原话。本期我们克隆的是 Cognitive Revolution How AI Changes Eve...

Open in 小宇宙