scripod.com

144: 从「大而强」到「小而强」,密度法则、RL 的 Scaling Law 和智能的分布式未来

晚点聊 LateTalk

Shownote

本期嘉宾,是清华大学的刘知远和肖朝军,他们刚在 11 月的《自然》杂志《机器学习》子刊上发表了封面文章:Densing Law of LLMS,大模型的密度法则。所谓 “密度”,就是用更少的算力和数据获得相当乃至更多的智能。 刘知远是清华计算机系副教授和面壁智能首席科学家,肖朝军现在在清华做博士后,也是面壁 MiniCPM 系列的文本模型负责人。 https://pic4.fukit.cn/autoupload/n - L6s5C_cu5ZZHPwIYlQzY12_FRYNb81z6UPhMWD8iI/20251...

Highlights

在大模型技术迅猛发展的背后,一场关于效率的革命正在悄然展开。本期节目聚焦于 “密度法则” 这一新兴范式,探讨如何用更少的算力与数据实现更高的智能水平。
08:34
密度法则是为寻找大模型的摩尔定律
14:46
密度法则逆熵增趋势,靠技术创新追求内在秩序
18:43
追求单位开销下智能能力的转化率是技术发展的关键主线
23:36
用 24 亿参数实现接近 Llama 2 13B 和 Mixtral 7B 的效果,证明模型效率可大幅提升。
29:06
Scaling Law 可通过小模型预测大模型能力,对设置大模型配置很重要
30:42
DeepSeek 成功将 MOE 从非共识技术转变为大模型主流架构
39:04
数据是模型学习的教材
47:27
用一个通用人工智能创造另一个通用人工智能
49:21
Transformer 因能打满 GPU 利用率而胜出
53:56
DSA 抛弃 NSA 缺点,优化短文本与后训练表现
57:29
长输出的重要性尚未达成共识,但已成下一代模型核心挑战
1:03:09
到 2030 年端侧可部署超 600 亿参数大模型,激活参数达 8B 以上
1:06:23
密度法则使团队能构建高密度模型,在汽车智能座舱竞争中领先
1:14:38
AGI 时代的智能既会出现在云端,也会出现在端侧,现在少有人关注端侧方向
1:15:07
端侧模型可利用个人数据成长为专属大模型助手
1:19:19
真正的创新是 meta 层面的能力,而非特定领域突破
1:23:08
未来每个智能终端都将拥有基于个人数据的专属大模型,与云端专家模型协同工作
1:26:46
未来公司可能出现以 AI 为员工的组织模式
1:30:32
有了 AI,原本需十几年、几十年的工作可能几小时就能完成。
1:35:01
AI 大生产的本质是用 AI 制造 AI

Chapters

大模型密度法则的突破
00:00
- 大模型时代的 “摩尔定律”
Gemini 3 和 Nano Banana Pro 的启发:统一的 “自回归式视觉 + 语言生成” 即将突破
02:09
大模型演进的两条主线:能力和效率
04:31
和摩尔定律一样,“密度法则” 是行业现实,也是 “自我实现”
10:23
每 3.5 个月,大模型的能力密度翻一番
18:43
2023 年下半年的抉择:花几千万再训一个更大的模型,然后呢?
21:01
- 提升密度的四个环节
架构、数据、算法、软硬协同优化
27:08
(1) 架构:MoE (混合专家系统) + 注意力机制改进
30:41
(2) 数据治理:Ultra-FinWeb 用 1 / 10 数据量达到更好效果
34:28
(3) 算法:RL 还没有 Scaling Law,接下来可能有两条路
40:24
(4) 软硬协同优化
49:21
InfLLM-V2 的核心更新:把稀疏注意力做到预训练阶段
52:02
注意力改进趋势:长文本不仅是长输入,更多关注 “长输出”
55:18
- 大模型上车、上手机
5 年内,手机可跑 GPT-4~5 级别的模型
58:53
大模型在汽车上已开始量产落地
1:06:23
“别人得到的,不一定是你失去的”,AGI 既会发生在云端,也会发生在终端
1:10:34
未来入口也许不是手机,而是属于每个人的移动计算终端
1:15:07
-AGI 下一步:自主学习 + 分布式的智能
自主学习→AI 协作网络→真正的创新
1:17:40
2023 年初,有巨头说世界上只会拥有几个大模型,就像 1943 年,IBM 董事长曾说全球不需要超过 5 台主机
1:21:04
AI 助手帮成为更好的工作者
1:24:46
不担心生产过剩,未知领域还太多
1:28:53
机器制造机器,AI 制造 AI
1:31:39
☆连点成线
1:40:01

Transcript

程曼祺: 欢迎收听晚点聊,我是程曼祺。今天的嘉宾是清华大学的刘知远和肖朝军。刘知远是清华计算机系副教授和面壁智能的首席科学家。肖朝军现在在清华做博士后,也是面壁 MiniCPM 系列的文本模型负责人。他们的团队刚在 11 月的《自然》杂志《机器学习》子刊子刊上,发表了封面文章 Densing Law of LLMs。大模型的密度法则,所谓密度就是用更少的算力和数据,获得相当乃至更多的智能。我们讨论了密度法则研究的缘起。 刘知远: 虽然你说高效是不言自明的,但是从事实上来讲。2022 年 ChatGPT 兴起...