144: 从「大而强」到「小而强」,密度法则、RL 的 Scaling Law 和智能的分布式未来
晚点聊 LateTalk
2025/12/11
144: 从「大而强」到「小而强」,密度法则、RL 的 Scaling Law 和智能的分布式未来
144: 从「大而强」到「小而强」,密度法则、RL 的 Scaling Law 和智能的分布式未来

晚点聊 LateTalk
2025/12/11
在大模型技术迅猛发展的背后,一场关于效率的革命正在悄然展开。本期节目聚焦于 “密度法则” 这一新兴范式,探讨如何用更少的算力与数据实现更高的智能水平。
清华大学刘知远与肖朝军团队在《自然》子刊发表的 “密度法则” 指出,大模型的能力密度每 3.5 个月翻倍,标志着 AI 从拼算力转向提效率。提升路径涵盖四个关键环节:架构上采用 MoE 和稀疏注意力机制;数据治理中通过高质量清洗与合成数据实现 “少即是多”;算法层面探索强化学习的 Scaling Law 突破;软硬协同则优化 GPU 利用率并推动端侧专用芯片发展。随着技术演进,未来五年内手机等终端将可运行 GPT-4 级别模型,智能将走向分布式,每个人拥有专属 AI 助手。长远来看,自主学习、AI 协作网络乃至 AI 自我制造将成为可能,开启真正的智能大生产时代。
08:34
08:34
密度法则是为寻找大模型的摩尔定律
14:46
14:46
密度法则逆熵增趋势,靠技术创新追求内在秩序
18:43
18:43
追求单位开销下智能能力的转化率是技术发展的关键主线
23:36
23:36
用 24 亿参数实现接近 Llama 2 13B 和 Mixtral 7B 的效果,证明模型效率可大幅提升。
29:06
29:06
Scaling Law 可通过小模型预测大模型能力,对设置大模型配置很重要
30:42
30:42
DeepSeek 成功将 MOE 从非共识技术转变为大模型主流架构
39:04
39:04
数据是模型学习的教材
47:27
47:27
用一个通用人工智能创造另一个通用人工智能
49:21
49:21
Transformer 因能打满 GPU 利用率而胜出
53:56
53:56
DSA 抛弃 NSA 缺点,优化短文本与后训练表现
57:29
57:29
长输出的重要性尚未达成共识,但已成下一代模型核心挑战
1:03:09
1:03:09
到 2030 年端侧可部署超 600 亿参数大模型,激活参数达 8B 以上
1:06:23
1:06:23
密度法则使团队能构建高密度模型,在汽车智能座舱竞争中领先
1:14:38
1:14:38
AGI 时代的智能既会出现在云端,也会出现在端侧,现在少有人关注端侧方向
1:15:07
1:15:07
端侧模型可利用个人数据成长为专属大模型助手
1:19:19
1:19:19
真正的创新是 meta 层面的能力,而非特定领域突破
1:23:08
1:23:08
未来每个智能终端都将拥有基于个人数据的专属大模型,与云端专家模型协同工作
1:26:46
1:26:46
未来公司可能出现以 AI 为员工的组织模式
1:30:32
1:30:32
有了 AI,原本需十几年、几十年的工作可能几小时就能完成。
1:35:01
1:35:01
AI 大生产的本质是用 AI 制造 AI