scripod.com

115: 华为发布超节点,如何搅动 AI 算力市场?与魔形智能徐凌杰聊芯片层新变化

晚点聊 LateTalk

Shownote

「从拼单颗芯片的性能,到优化多芯片互联的系统。」 AI 算力,现在是中美都最关注的 AI 底层竞争力。约 1 个月前,华为推出由 384 块昇腾 910 互联而成的/超节点 AI 集群,CloudMatrix 384。 https://cdn.z.wiki/autoupload/20250511/lcah/1707X960/6q3VUj0GtASHEDVv.jpg 图注:这是超节点发布会上展示的 CloudMatrix 服务器机柜组,如播客中介绍的,一共是 12 台机柜(每台机柜里又有 4 个服务器),中间有光纤、交换机等部件连接。 华为超节点发布后不久,我邀请有 20 多年芯片从业经验的徐凌杰来一起聊一聊这项算力底层的新变化。 自 2000 年代中期,徐凌杰先后在英伟达、AMD 和三星,参与设计 GPU 架构。后来加入阿里云,领导 GPU 云计算基础设施的搭建;2019 年与张文等人联合创立国产 GPU 公司壁仞科技;2024 年开始新创业,成立魔形智能,专注 AI 算力集群产品设计和优化。 超节点本身就是一种从拼单芯片性能,到优化整个节点和机架的算力思路变化,徐凌杰的从业经验正好匹配了这一趋势。 本期节目的第一部分,我们聊了华为 CloudMatrix 384 是什么,它和英伟达 2024 年开始重磅推出的集群方案 NVL72 的异同。不止英伟达、华为,把节点做得越来越大,从集群芯片数量要性能,以网络能力弥补计算和存储的瓶颈,已成为算力市场的共识性趋势。 在第二部分,我们则主要讨论了超节点趋势,对英伟达、对其它国产芯片,对整个 AI 算力市场的可能影响,和一个 “经典问题”:下一个改变算力格局的变量可能是什么? 节目录制后不久,华为超节点开始出货。据《金融时报》报道,一套完整的 CloudMatrix 384 售价约 800 万美元,是售价约 300 万美元的 NVL72 的 2 倍多。但要注意,这并不是华为的官方价格信息。 5 月 7 日,华为盘古大模型团队又在预印本平台 Arxiv 发表了一篇论文,称在 6000 多块昇腾芯片组成的超大集群上,实现了 7180 亿(718B)参数 MoE 模型的长期稳定训练。 本期嘉宾: 徐凌杰,魔形智能 CEO,邮箱:lingjie@magikcompute.ai 时间线跳转: - 华为 Cloud 384 集群 & 把节点做大的趋势 03:15 CloudMatrix 384 是什么?Scale up vs Scale out 08:33 算力底层构成,不止 GPU,还有互联、网络、冷却等综合系统 11:09 NVLink、NVSwitch 是英伟达的另一重壁垒,69 亿美元收购 Mellanox 前后开始布局 18:22 广义与狭义的 AI Infra 20:38 第三方系统优化公司的机会?—— 同时掌握计算、网络能力的芯片原厂是少数 22:51 “超节点” 好坏,看什么指标? 29:08 黄仁勋想推 “训推一体”,实际上业界在怎么用 GPU? 33:17 模型越大,显存压力越大 —— 显存正成为芯片主要成本 36:02 华为超节点功耗高,但中国电费成本相对小,以总量换性能 38:11 华为的多卡互联来自什么积累 —— 华为在成为 Nvidia 之前已是一个 Mellanox 42:57 NV Switch 为何难?去年 AMD 49 亿美元收购 ZT 补能力 - 超节点趋势,对英伟达和 AI 算力市场的影响 45:43 华为超节点,短期不冲击英伟达,压力给到其它 AI 国产芯片商 47:51 英伟达 H20 已计提 55 亿美元损失,但可能通过技术手段提升部分性能 51:19 华为在阿里 Qwen3 发布当天宣布支持 55:12 英伟达上游有全球供应链支持,下游有客户生态,危险之一是客户集中 01:00:44 为什么 Google TPU 没有动摇英伟达的地位? 01:04:23 可能是 Nvidia 的 “防守措施”:已成立 “半定制” 部门 01:06:17 为什么离开英伟达,十年前的老黄是什么样? 01:12:01 2024 年选择创业:看到芯片周边集群优化能做出差异化,也是长坡厚雪 01:18:44 新硬件架构的苗头?—— 存算一体、类脑计算(脉冲神经网络) 相关链接 一文洞悉超节点:解密 AI 时代的算力基 (https://mp.weixin.qq.com/s/QOd3KG8E8pehnrIoYkD7aQ) Pangu Ultra MoE: How to Train Your Big MoE on Ascend NPUs(盘古超级混合专家模型:如何在昇腾 NPU 上训练超大规模混合模型 (https://arxiv.org/abs/2505.04519) 晚点聊 103:用 Attention 串起大模型优化史,详解 DeepSeek、Kimi 最新注意力机制改进 (https://www.xiaoyuzhoufm.com/episode/67bf356952a6af799c558399?s = eyJ1IjoiNjBkODRlZTVlMGY1ZTcyM2JiNzdiOGYwIn0%3D) 晚点聊 49:3nm 是谎言?光刻工厂真能造芯片?与汪波聊芯片行业那些流传的误解 (https://www.xiaoyuzhoufm.com/episode/6539a26bf22dab1924a45eb1) 晚点聊 32:最怕客户来参观的行业:和谈三圈仔细谈谈芯片 (https://www.xiaoyuzhoufm.com/episode/6413a0a3a988be4df94059ab) 附录: GPU、GPGPU、ASIC、NPU:都是可以做 AI 模型训练和推理的 AI 芯片。GPU 是图形处理器,GPGPU 是针对通用计算(而非图形任务)优化的 GPU,AISC 是专用集成电路,它的性价比理论上比 GPU 更好,但不如 GPU 通用;NPU(Neural Processing Unit)也是一种 ASIC。 DPU(Data Processing Unit)::数据处理单元,用于优化网络通信、安全和存储操作,减轻 CPU 和 GPU 的负担,提升 AI 算力中心整体性能。 GPU 的精度:如节目中提到的 FP8((8 位浮点数)、INT8((8 位浮点数) 都是 GPU 精度的一种,是不同的数据格式标准。DeepSeek-V3 和 R1 就是在预训练阶段使用了以 FP8 为主的混合低精度训练方法。 总线(Bus):计算机内部用于传输数据、地址和控制信号的通信系统,连接 CPU、内存和外设等组件,确保信息在各部分之间高效传递。 高速互联协议:用于在计算系统内部或系统之间实现高速、低延迟的数据通信的协议,如英伟达的 NVLink、InfiniBand(由 IBTA 协会开发)和 PCIe (由 Intel、Dell、HP、IBM 等公司成立的联盟 PCI - SIG 开发),支持大规模并行计算和数据中心的高效运行。 Mellanox:一家提供高性能互联解决方案的以色列公司,英伟达在 2019 年以 69 亿美元收购了 Mellanox。 ZT Systems:2024 年,AMD 则以 49 亿美元收购了 ZT Systems,为云计算厂商设计、制造和部署复杂的计算、存储和加速器解决方案。 NVSwitch:英伟达推出的高带宽交换芯片,支持多 GPU 间的全互联通信,可提升系统整体性能和可扩展性。 NVLink:英伟达开发的高速互联技术,提供高带宽、低延迟的 GPU 与 GPU、GPU 与 CPU 之间的通信,支持大规模并行计算和深度学习任务。 Dynamo:英伟达推出的开源推理软件平台,支持多种 AI 框架和硬件架构。在谈到英伟达收购 Lepton.ai 的背景时提及。 英伟达的费米(Fermi)架构:英伟达 2010 前后开发、推出的 GPU 架构,开发过程很不顺利,经历两次流片失败。 神经脉冲(Neuromorphic Computing):模拟人脑神经网络结构和功能的计算方法,用脉冲神经网络处理信息,特点是高效能、低功耗。(人脑的功耗就比较低,只有 20 W 左右) 存算一体(Compute-in-Memory):将计算功能集成到存储器中的计算架构,减少数据在存储器和处理器之间的传输,提高计算效率和能效,适用于大规模数据处理和人工智能应用。 剪辑制作:甜食、Nick 本期主播:小红书 @曼祺_火柴 Q (https://www.xiaohongshu.com/user/profile/5dfa9e92000000000100626f?xsec_token = YBSKzbnOGWpnyJ5fxw_yafTdnAUIDw - EfCtqmFTkCIM2o=&xsec_source = app_share & xhsshare = CopyLink & appuid = 5dfa9e92000000000100626f & apptime = 1736682459 & share_id = 331aecb9ca7941f498d81fb9c32ea810),即刻 @曼祺_火柴 Q (https://okjk.co/FBoH1Q) https://cdn.z.wiki/autoupload/20250129/p96l/1428X298/% E6%92% AD% E5% AE% A2-% E7% BB%93% E5% B0% BE% E4% BD%9C% E8%80%85% E7% AD% BE% E5%90%8D.png ☆《晚点聊 LateTalk》建立「 播客听友群」啦!☆ 欢迎关注科技、商业大公司动态和创业创新的小伙伴进群交流,第一时间收听新节目。 这里有更多互动,更多话题讨论。欢迎贡献选题 & 推荐嘉宾。 请先添加「晚点」小助手的微信号,备注:“晚点聊”,我们邀请您入群。 https://tc.z.wiki/autoupload/f/vF9vElnh05iCqwr0xfm9iL4wP3sHaC7Y1psXYbgMe5eyl5f0KlZfm6UsKj-HyTuv/20250730/YNjr/907X339/WechatIMG1646.jpg 关注公众号《晚点 LatePost》和《晚点对话》,阅读更多商业、科技文章: https://hv.z.wiki/autoupload/20250129/DqTi/1452X514/% E6%92% AD% E5% AE% A2% E7% BB%93% E5% B0% BE% E6%88% AA% E5%9B% BE.png

Highlights

本期播客围绕华为 CloudMatrix 384 超节点 AI 集群的发布展开讨论,深入分析了其与英伟达 NVL72 集群方案的异同,并探讨了超节点技术对 AI 算力市场的影响。嘉宾徐凌杰结合自身丰富的行业经验,从芯片设计、互联技术到系统优化等多个角度解析了当前 AI 算力市场的趋势与挑战。
01:18
华为 CloudMatrix 384 超节点开始出货,盘古大模型团队发表论文
04:20
华为 CloudMatrix 384 超节点 AI 集群总算力较 NVL72 提升 67%
09:44
英伟达 NVLink 和 NVSwitch 技术对 AI 算力的重要性
18:21
初创公司眼光比很多投资机构还好
18:29
广义 AI Infra 更值得重视,涵盖芯片到应用的中间环节
22:49
公版设计在某些情况下被认为更可行
26:12
DeepSeek 满血版在 H20 机器上优化效果显著实现 API 业务盈利
30:20
训练常用 H800,推理 H800 性价比高于 H20
34:35
新一代芯片中显存成本占比达五成到六成
36:02
华为集群算力约为英伟达 NVL72 的两倍,但功耗可能高四倍
42:06
华为在过去十几年中在 NPU 领域有深厚的技术和人才积累
43:56
中国多数公司结合计算芯片与交换芯片有难度
46:57
长期来看,结合系统能力与优化进行扩展是保持算力产业竞争力的关键
49:05
H20 算力约为 H200 的六分之一,部分计算单元被刻意屏蔽以符合出货管制限制
52:34
模型推理的核心在于保证每秒 token 数前提下的系统并发与吞吐
56:16
美国禁令可能推动中国芯片产业崛起
1:01:43
北美和中国互联网大厂曾是英伟达最大采购方,自研芯片可降低成本并保障供应链安全
1:04:31
AMD 早有针对大体量客户的半定制业务,或许能绑定公司生态
1:10:49
费米架构产品芯片三次流片才成功,但团队仍愿追随
1:16:02
光电共封装产品将提高互联要求,推动芯片连接技术发展
1:23:45
技术发展有时是量变到质变,有时是突变,如 DeepSeek。

Chapters

华为 CloudMatrix 384 超节点技术讨论
00:00
华为 Cloud 384 集群 & 把节点做大的趋势
CloudMatrix 384 是什么?Scale up vs Scale out
03:15
算力底层构成,不止 GPU,还有互联、网络、冷却等综合系统
08:33
NVLink、NVSwitch 是英伟达的另一重壁垒,69 亿美元收购 Mellanox 前后开始布局
11:09
广义与狭义的 AI Infra
18:22
第三方系统优化公司的机会?—— 同时掌握计算、网络能力的芯片原厂是少数
20:38
“超节点” 好坏,看什么指标?
22:51
黄仁勋想推 “训推一体”,实际上业界在怎么用 GPU?
29:08
模型越大,显存压力越大 —— 显存正成为芯片主要成本
33:17
华为超节点功耗高,但中国电费成本相对小,以总量换性能
36:02
华为的多卡互联来自什么积累 —— 华为在成为 Nvidia 之前已是一个 Mellanox
38:11
NV Switch 为何难?去年 AMD 49 亿美元收购 ZT 补能力
42:57
超节点趋势,对英伟达和 AI 算力市场的影响
华为超节点,短期不冲击英伟达,压力给到其它 AI 国产芯片商
45:43
英伟达 H20 已计提 55 亿美元损失,但可能通过技术手段提升部分性能
47:51
华为在阿里 Qwen3 发布当天宣布支持
51:19
英伟达上游有全球供应链支持,下游有客户生态,危险之一是客户集中
55:12
为什么 Google TPU 没有动摇英伟达的地位?
1:00:44
可能是 Nvidia 的 “防守措施”:已成立 “半定制” 部门
1:04:23
为什么离开英伟达,十年前的老黄是什么样?
1:06:17
2024 年选择创业: 看到芯片周边集群优化能做出差异化,也是长坡厚雪
1:12:01
新硬件架构的苗头?—— 存算一体、类脑计算(脉冲神经网络)
1:18:44

Transcript

曼祺: 欢迎收听晚点聊,我是曼琪。AI 算力现在是中美都最关注的 AI 底层竞争力。约一个月前,华为推出了由 384 块昇腾 910 互联而成的超节点 AI 集群 Cloud Matrix 384 华为超节点发布后不久,我邀请有 20 多年芯片从业经验的徐凌杰,来一起聊聊借向算力底层的新变化。自 2000 年代中期,徐凌杰先后在英伟达,AMD 和三星,参与设计 GPU 架构。后来他加入阿里云,领导了 GPU 云计算基础设施的搭建。2019 年他与张文等人,联合创立国产 GPU 公司,壁仞科技。2024 年他...