scripod.com

144: “大而强”到“小而强”|与刘知远、肖朝军聊密度法则、RL 的 Scaling Law 和智能的分布式未来

Overview

Shownote

Highlights

Transcript

Chapters

Pins

144: “大而强” 到 “小而强”|与刘知远、肖朝军聊密度法则、RL 的 Scaling Law 和智能的分布式未来

晚点聊 LateTalk

2025/12/11

144: “大而强” 到 “小而强”|与刘知远、肖朝军聊密度法则、RL 的 Scaling Law 和智能的分布式未来

144: “大而强” 到 “小而强”|与刘知远、肖朝军聊密度法则、RL 的 Scaling Law 和智能的分布式未来

晚点聊 LateTalk

晚点聊 LateTalk

2025/12/11

Overview Shownote Highlights Transcript Chapters Pins

在大模型技术迅猛发展的背后，一场关于效率的革命正在悄然展开。本期节目聚焦于 “密度法则” 这一新兴范式，探讨如何用更少的算力与数据实现更高的智能水平。

清华大学刘知远与肖朝军团队在《自然》子刊发表的 “密度法则” 指出，大模型的能力密度每 3.5 个月翻倍，标志着 AI 从拼算力转向提效率。提升路径涵盖四个关键环节：架构上采用 MoE 和稀疏注意力机制；数据治理中通过高质量清洗与合成数据实现 “少即是多”；算法层面探索强化学习的 Scaling Law 突破；软硬协同则优化 GPU 利用率并推动端侧专用芯片发展。随着技术演进，未来五年内手机等终端将可运行 GPT-4 级别模型，智能将走向分布式，每个人拥有专属 AI 助手。长远来看，自主学习、AI 协作网络乃至 AI 自我制造将成为可能，开启真正的智能大生产时代。

08:34

08:34

密度法则是为寻找大模型的摩尔定律

14:46

14:46

密度法则逆熵增趋势，靠技术创新追求内在秩序

18:43

18:43

追求单位开销下智能能力的转化率是技术发展的关键主线

23:36

23:36

用 24 亿参数实现接近 Llama 2 13B 和 Mixtral 7B 的效果，证明模型效率可大幅提升。

29:06

29:06

Scaling Law 可通过小模型预测大模型能力，对设置大模型配置很重要

30:42

30:42

DeepSeek 成功将 MOE 从非共识技术转变为大模型主流架构

39:04

39:04

数据是模型学习的教材

47:27

47:27

用一个通用人工智能创造另一个通用人工智能

49:21

49:21

Transformer 因能打满 GPU 利用率而胜出

53:56

53:56

DSA 抛弃 NSA 缺点，优化短文本与后训练表现

57:29

57:29

长输出的重要性尚未达成共识，但已成下一代模型核心挑战

1:03:09

1:03:09

到 2030 年端侧可部署超 600 亿参数大模型，激活参数达 8B 以上

1:06:23

1:06:23

密度法则使团队能构建高密度模型，在汽车智能座舱竞争中领先

1:14:38

1:14:38

AGI 时代的智能既会出现在云端，也会出现在端侧，现在少有人关注端侧方向

1:15:07

1:15:07

端侧模型可利用个人数据成长为专属大模型助手

1:19:19

1:19:19

真正的创新是 meta 层面的能力，而非特定领域突破

1:23:08

1:23:08

未来每个智能终端都将拥有基于个人数据的专属大模型，与云端专家模型协同工作

1:26:46

1:26:46

未来公司可能出现以 AI 为员工的组织模式

1:30:32

1:30:32

有了 AI，原本需十几年、几十年的工作可能几小时就能完成。

1:35:01

1:35:01

AI 大生产的本质是用 AI 制造 AI