144: 从「大而强」到「小而强」,密度法则、RL 的 Scaling Law 和智能的分布式未来
晚点聊 LateTalk
2025/12/11
144: 从「大而强」到「小而强」,密度法则、RL 的 Scaling Law 和智能的分布式未来
144: 从「大而强」到「小而强」,密度法则、RL 的 Scaling Law 和智能的分布式未来

晚点聊 LateTalk
2025/12/11
Shownote
Shownote
本期嘉宾,是清华大学的刘知远和肖朝军,他们刚在 11 月的《自然》杂志《机器学习》子刊上发表了封面文章:Densing Law of LLMS,大模型的密度法则。所谓 “密度”,就是用更少的算力和数据获得相当乃至更多的智能。
刘知远是清华计算机系副教授和面壁智能首席科学家,肖朝军现在在清华做博士后,也是面壁 MiniCPM 系列的文本模型负责人。
https://pic4.fukit.cn/autoupload/n - L6s5C_cu5ZZHPwIYlQzY12_FRYNb81z6UPhMWD8iI/20251...
Highlights
Highlights
在大模型技术迅猛发展的背后,一场关于效率的革命正在悄然展开。本期节目聚焦于 “密度法则” 这一新兴范式,探讨如何用更少的算力与数据实现更高的智能水平。
Chapters
Chapters
大模型密度法则的突破
00:00- 大模型时代的 “摩尔定律”
Gemini 3 和 Nano Banana Pro 的启发:统一的 “自回归式视觉 + 语言生成” 即将突破
02:09大模型演进的两条主线:能力和效率
04:31和摩尔定律一样,“密度法则” 是行业现实,也是 “自我实现”
10:23每 3.5 个月,大模型的能力密度翻一番
18:432023 年下半年的抉择:花几千万再训一个更大的模型,然后呢?
21:01- 提升密度的四个环节
架构、数据、算法、软硬协同优化
27:08(1) 架构:MoE (混合专家系统) + 注意力机制改进
30:41(2) 数据治理:Ultra-FinWeb 用 1 / 10 数据量达到更好效果
34:28(3) 算法:RL 还没有 Scaling Law,接下来可能有两条路
40:24(4) 软硬协同优化
49:21InfLLM-V2 的核心更新:把稀疏注意力做到预训练阶段
52:02注意力改进趋势:长文本不仅是长输入,更多关注 “长输出”
55:18- 大模型上车、上手机
5 年内,手机可跑 GPT-4~5 级别的模型
58:53大模型在汽车上已开始量产落地
1:06:23“别人得到的,不一定是你失去的”,AGI 既会发生在云端,也会发生在终端
1:10:34未来入口也许不是手机,而是属于每个人的移动计算终端
1:15:07-AGI 下一步:自主学习 + 分布式的智能
自主学习→AI 协作网络→真正的创新
1:17:402023 年初,有巨头说世界上只会拥有几个大模型,就像 1943 年,IBM 董事长曾说全球不需要超过 5 台主机
1:21:04AI 助手帮成为更好的工作者
1:24:46不担心生产过剩,未知领域还太多
1:28:53机器制造机器,AI 制造 AI
1:31:39☆连点成线
1:40:01Transcript
Transcript
程曼祺: 欢迎收听晚点聊,我是程曼祺。今天的嘉宾是清华大学的刘知远和肖朝军。刘知远是清华计算机系副教授和面壁智能的首席科学家。肖朝军现在在清华做博士后,也是面壁 MiniCPM 系列的文本模型负责人。他们的团队刚在 11 月的《自然》杂志《机器学习》子刊子刊上,发表了封面文章 Densing Law of LLMs。大模型的密度法则,所谓密度就是用更少的算力和数据,获得相当乃至更多的智能。我们讨论了密度法则研究的缘起。
刘知远: 虽然你说高效是不言自明的,但是从事实上来讲。2022 年 ChatGPT 兴起...