scripod.com

144: “大而强”到“小而强”|与刘知远、肖朝军聊密度法则、RL 的 Scaling Law 和智能的分布式未来

Overview

Shownote

Highlights

Transcript

Chapters

Pins

144: “大而强” 到 “小而强”|与刘知远、肖朝军聊密度法则、RL 的 Scaling Law 和智能的分布式未来

晚点聊 LateTalk

2025/12/11

144: “大而强” 到 “小而强”|与刘知远、肖朝军聊密度法则、RL 的 Scaling Law 和智能的分布式未来

144: “大而强” 到 “小而强”|与刘知远、肖朝军聊密度法则、RL 的 Scaling Law 和智能的分布式未来

晚点聊 LateTalk

晚点聊 LateTalk

2025/12/11

Overview Shownote Highlights Transcript Chapters Pins

Shownote

本期嘉宾，是清华大学的刘知远和肖朝军，他们刚在 11 月的《自然》杂志《机器学习》子刊上发表了封面文章：Densing Law of LLMS，大模型的密度法则。所谓 “密度”，就是用更少的算力和数据获得相当乃至更多的智能。刘知远是清华计算机系副教授和面壁智能首席科学家，肖朝军现在在清华做博士后，也是面壁 MiniCPM 系列的文本模型负责人。图注：此图描述了 2023 年 4 月之后，主要开源模型的能力密度的变化。能力密度是衡量单位参数 / 算力下，模型能力的指标。目前版本的密度法则总结了预训练大语言...

Highlights

在大模型技术迅猛发展的背后，一场关于效率的革命正在悄然展开。本期节目聚焦于 “密度法则” 这一新兴范式，探讨如何用更少的算力与数据实现更高的智能水平。

08:34

密度法则是为寻找大模型的摩尔定律

14:46

密度法则逆熵增趋势，靠技术创新追求内在秩序

18:43

追求单位开销下智能能力的转化率是技术发展的关键主线

23:36

用 24 亿参数实现接近 Llama 2 13B 和 Mixtral 7B 的效果，证明模型效率可大幅提升。

29:06

Scaling Law 可通过小模型预测大模型能力，对设置大模型配置很重要

30:42

DeepSeek 成功将 MOE 从非共识技术转变为大模型主流架构

39:04

数据是模型学习的教材

47:27

用一个通用人工智能创造另一个通用人工智能

49:21

Transformer 因能打满 GPU 利用率而胜出

53:56

DSA 抛弃 NSA 缺点，优化短文本与后训练表现

57:29

长输出的重要性尚未达成共识，但已成下一代模型核心挑战

1:03:09

到 2030 年端侧可部署超 600 亿参数大模型，激活参数达 8B 以上

1:06:23

密度法则使团队能构建高密度模型，在汽车智能座舱竞争中领先

1:14:38

AGI 时代的智能既会出现在云端，也会出现在端侧，现在少有人关注端侧方向

1:15:07

端侧模型可利用个人数据成长为专属大模型助手

1:19:19

真正的创新是 meta 层面的能力，而非特定领域突破

1:23:08

未来每个智能终端都将拥有基于个人数据的专属大模型，与云端专家模型协同工作

1:26:46

未来公司可能出现以 AI 为员工的组织模式

1:30:32

有了 AI，原本需十几年、几十年的工作可能几小时就能完成。

1:35:01

AI 大生产的本质是用 AI 制造 AI

Chapters

大模型密度法则的突破

00:00

- 大模型时代的 “摩尔定律”

Gemini 3 和 Nano Banana Pro 的启发：统一的 “自回归式视觉 + 语言生成” 即将突破

02:09

大模型演进的两条主线：能力和效率

04:31

和摩尔定律一样，“密度法则” 是行业现实，也是 “自我实现”

10:23

每 3.5 个月，大模型的能力密度翻一番

18:43

2023 年下半年的抉择：花几千万再训一个更大的模型，然后呢？

21:01

- 提升密度的四个环节

架构、数据、算法、软硬协同优化

27:08

(1) 架构：MoE (混合专家系统) + 注意力机制改进

30:41

(2) 数据治理：Ultra-FinWeb 用 1 / 10 数据量达到更好效果

34:28

(3) 算法：RL 还没有 Scaling Law，接下来可能有两条路

40:24

(4) 软硬协同优化

49:21

InfLLM-V2 的核心更新：把稀疏注意力做到预训练阶段

52:02

注意力改进趋势：长文本不仅是长输入，更多关注 “长输出”

55:18

- 大模型上车、上手机

5 年内，手机可跑 GPT-4~5 级别的模型

58:53

大模型在汽车上已开始量产落地

1:06:23

“别人得到的，不一定是你失去的”，AGI 既会发生在云端，也会发生在终端

1:10:34

未来入口也许不是手机，而是属于每个人的移动计算终端

1:15:07

-AGI 下一步：自主学习 + 分布式的智能

自主学习→AI 协作网络→真正的创新

1:17:40

2023 年初，有巨头说世界上只会拥有几个大模型，就像 1943 年，IBM 董事长曾说全球不需要超过 5 台主机

1:21:04

AI 助手帮成为更好的工作者

1:24:46

不担心生产过剩，未知领域还太多

1:28:53

机器制造机器，AI 制造 AI

1:31:39

☆连点成线

1:40:01

Transcript

程曼祺: 欢迎收听晚点聊，我是程曼祺。今天的嘉宾是清华大学的刘知远和肖朝军。刘知远是清华计算机系副教授和面壁智能的首席科学家。肖朝军现在在清华做博士后，也是面壁 MiniCPM 系列的文本模型负责人。他们的团队刚在 11 月的《自然》杂志《机器学习》子刊子刊上，发表了封面文章 Densing Law of LLMs。大模型的密度法则，所谓密度就是用更少的算力和数据，获得相当乃至更多的智能。我们讨论了密度法则研究的缘起。刘知远: 虽然你说高效是不言自明的，但是从事实上来讲。2022 年 ChatGPT 兴起...