115: 华为发布超节点，如何搅动 AI 算力市场？与魔形智能徐凌杰聊芯片层新变化

晚点聊 LateTalk

2025/05/11

Overview Shownote Highlights Transcript Chapters Pins

Shownote

「从拼单颗芯片的性能，到优化多芯片互联的系统。」 AI 算力，现在是中美都最关注的 AI 底层竞争力。约 1 个月前，华为推出由 384 块昇腾 910 互联而成的/超节点 AI 集群，CloudMatrix 384。 https://cdn.z.wiki/autoupload/20250511/lcah/1707X960/6q3VUj0GtASHEDVv.jpg 图注：这是超节点发布会上展示的 CloudMatrix 服务器机柜组，如播客中介绍的，一共是 12 台机柜（每台机柜里又有 4 个服务器），中间有光纤、交换机等部件连接。华为超节点发布后不久，我邀请有 20 多年芯片从业经验的徐凌杰来一起聊一聊这项算力底层的新变化。自 2000 年代中期，徐凌杰先后在英伟达、AMD 和三星，参与设计 GPU 架构。后来加入阿里云，领导 GPU 云计算基础设施的搭建；2019 年与张文等人联合创立国产 GPU 公司壁仞科技；2024 年开始新创业，成立魔形智能，专注 AI 算力集群产品设计和优化。超节点本身就是一种从拼单芯片性能，到优化整个节点和机架的算力思路变化，徐凌杰的从业经验正好匹配了这一趋势。本期节目的第一部分，我们聊了华为 CloudMatrix 384 是什么，它和英伟达 2024 年开始重磅推出的集群方案 NVL72 的异同。不止英伟达、华为，把节点做得越来越大，从集群芯片数量要性能，以网络能力弥补计算和存储的瓶颈，已成为算力市场的共识性趋势。在第二部分，我们则主要讨论了超节点趋势，对英伟达、对其它国产芯片，对整个 AI 算力市场的可能影响，和一个 “经典问题”：下一个改变算力格局的变量可能是什么？节目录制后不久，华为超节点开始出货。据《金融时报》报道，一套完整的 CloudMatrix 384 售价约 800 万美元，是售价约 300 万美元的 NVL72 的 2 倍多。但要注意，这并不是华为的官方价格信息。 5 月 7 日，华为盘古大模型团队又在预印本平台 Arxiv 发表了一篇论文，称在 6000 多块昇腾芯片组成的超大集群上，实现了 7180 亿（718B）参数 MoE 模型的长期稳定训练。本期嘉宾：徐凌杰，魔形智能 CEO，邮箱：lingjie@magikcompute.ai 时间线跳转： - 华为 Cloud 384 集群 & 把节点做大的趋势 03:15 CloudMatrix 384 是什么？Scale up vs Scale out 08:33 算力底层构成，不止 GPU，还有互联、网络、冷却等综合系统 11:09 NVLink、NVSwitch 是英伟达的另一重壁垒，69 亿美元收购 Mellanox 前后开始布局 18:22 广义与狭义的 AI Infra 20:38 第三方系统优化公司的机会？—— 同时掌握计算、网络能力的芯片原厂是少数 22:51 “超节点” 好坏，看什么指标？ 29:08 黄仁勋想推 “训推一体”，实际上业界在怎么用 GPU？ 33:17 模型越大，显存压力越大 —— 显存正成为芯片主要成本 36:02 华为超节点功耗高，但中国电费成本相对小，以总量换性能 38:11 华为的多卡互联来自什么积累 —— 华为在成为 Nvidia 之前已是一个 Mellanox 42:57 NV Switch 为何难？去年 AMD 49 亿美元收购 ZT 补能力 - 超节点趋势，对英伟达和 AI 算力市场的影响 45:43 华为超节点，短期不冲击英伟达，压力给到其它 AI 国产芯片商 47:51 英伟达 H20 已计提 55 亿美元损失，但可能通过技术手段提升部分性能 51:19 华为在阿里 Qwen3 发布当天宣布支持 55:12 英伟达上游有全球供应链支持，下游有客户生态，危险之一是客户集中 01:00:44 为什么 Google TPU 没有动摇英伟达的地位？ 01:04:23 可能是 Nvidia 的 “防守措施”：已成立 “半定制” 部门 01:06:17 为什么离开英伟达，十年前的老黄是什么样？ 01:12:01 2024 年选择创业：看到芯片周边集群优化能做出差异化，也是长坡厚雪 01:18:44 新硬件架构的苗头？—— 存算一体、类脑计算（脉冲神经网络）相关链接一文洞悉超节点：解密 AI 时代的算力基 (https://mp.weixin.qq.com/s/QOd3KG8E8pehnrIoYkD7aQ) Pangu Ultra MoE: How to Train Your Big MoE on Ascend NPUs（盘古超级混合专家模型：如何在昇腾 NPU 上训练超大规模混合模型 (https://arxiv.org/abs/2505.04519) 晚点聊 103：用 Attention 串起大模型优化史，详解 DeepSeek、Kimi 最新注意力机制改进 (https://www.xiaoyuzhoufm.com/episode/67bf356952a6af799c558399?s = eyJ1IjoiNjBkODRlZTVlMGY1ZTcyM2JiNzdiOGYwIn0%3D) 晚点聊 49：3nm 是谎言？光刻工厂真能造芯片？与汪波聊芯片行业那些流传的误解 (https://www.xiaoyuzhoufm.com/episode/6539a26bf22dab1924a45eb1) 晚点聊 32：最怕客户来参观的行业：和谈三圈仔细谈谈芯片 (https://www.xiaoyuzhoufm.com/episode/6413a0a3a988be4df94059ab) 附录： GPU、GPGPU、ASIC、NPU：都是可以做 AI 模型训练和推理的 AI 芯片。GPU 是图形处理器，GPGPU 是针对通用计算（而非图形任务）优化的 GPU，AISC 是专用集成电路，它的性价比理论上比 GPU 更好，但不如 GPU 通用；NPU（Neural Processing Unit）也是一种 ASIC。 DPU（Data Processing Unit）：：数据处理单元，用于优化网络通信、安全和存储操作，减轻 CPU 和 GPU 的负担，提升 AI 算力中心整体性能。 GPU 的精度：如节目中提到的 FP8（（8 位浮点数）、INT8（（8 位浮点数）都是 GPU 精度的一种，是不同的数据格式标准。DeepSeek-V3 和 R1 就是在预训练阶段使用了以 FP8 为主的混合低精度训练方法。总线（Bus）：计算机内部用于传输数据、地址和控制信号的通信系统，连接 CPU、内存和外设等组件，确保信息在各部分之间高效传递。高速互联协议：用于在计算系统内部或系统之间实现高速、低延迟的数据通信的协议，如英伟达的 NVLink、InfiniBand（由 IBTA 协会开发）和 PCIe （由 Intel、Dell、HP、IBM 等公司成立的联盟 PCI - SIG 开发），支持大规模并行计算和数据中心的高效运行。 Mellanox：一家提供高性能互联解决方案的以色列公司，英伟达在 2019 年以 69 亿美元收购了 Mellanox。 ZT Systems：2024 年，AMD 则以 49 亿美元收购了 ZT Systems，为云计算厂商设计、制造和部署复杂的计算、存储和加速器解决方案。 NVSwitch：英伟达推出的高带宽交换芯片，支持多 GPU 间的全互联通信，可提升系统整体性能和可扩展性。 NVLink：英伟达开发的高速互联技术，提供高带宽、低延迟的 GPU 与 GPU、GPU 与 CPU 之间的通信，支持大规模并行计算和深度学习任务。 Dynamo：英伟达推出的开源推理软件平台，支持多种 AI 框架和硬件架构。在谈到英伟达收购 Lepton.ai 的背景时提及。英伟达的费米（Fermi）架构：英伟达 2010 前后开发、推出的 GPU 架构，开发过程很不顺利，经历两次流片失败。神经脉冲（Neuromorphic Computing）：模拟人脑神经网络结构和功能的计算方法，用脉冲神经网络处理信息，特点是高效能、低功耗。（人脑的功耗就比较低，只有 20 W 左右）存算一体（Compute-in-Memory）：将计算功能集成到存储器中的计算架构，减少数据在存储器和处理器之间的传输，提高计算效率和能效，适用于大规模数据处理和人工智能应用。剪辑制作：甜食、Nick 本期主播：小红书 @曼祺_火柴 Q (https://www.xiaohongshu.com/user/profile/5dfa9e92000000000100626f?xsec_token = YBSKzbnOGWpnyJ5fxw_yafTdnAUIDw - EfCtqmFTkCIM2o=&xsec_source = app_share & xhsshare = CopyLink & appuid = 5dfa9e92000000000100626f & apptime = 1736682459 & share_id = 331aecb9ca7941f498d81fb9c32ea810)，即刻 @曼祺_火柴 Q (https://okjk.co/FBoH1Q) https://cdn.z.wiki/autoupload/20250129/p96l/1428X298/% E6%92% AD% E5% AE% A2-% E7% BB%93% E5% B0% BE% E4% BD%9C% E8%80%85% E7% AD% BE% E5%90%8D.png ☆《晚点聊 LateTalk》建立「播客听友群」啦！☆ 欢迎关注科技、商业大公司动态和创业创新的小伙伴进群交流，第一时间收听新节目。这里有更多互动，更多话题讨论。欢迎贡献选题 & 推荐嘉宾。请先添加「晚点」小助手的微信号，备注：“晚点聊”，我们邀请您入群。 https://tc.z.wiki/autoupload/f/vF9vElnh05iCqwr0xfm9iL4wP3sHaC7Y1psXYbgMe5eyl5f0KlZfm6UsKj-HyTuv/20250730/YNjr/907X339/WechatIMG1646.jpg 关注公众号《晚点 LatePost》和《晚点对话》，阅读更多商业、科技文章： https://hv.z.wiki/autoupload/20250129/DqTi/1452X514/% E6%92% AD% E5% AE% A2% E7% BB%93% E5% B0% BE% E6%88% AA% E5%9B% BE.png

Highlights

本期播客围绕华为 CloudMatrix 384 超节点 AI 集群的发布展开讨论，深入分析了其与英伟达 NVL72 集群方案的异同，并探讨了超节点技术对 AI 算力市场的影响。嘉宾徐凌杰结合自身丰富的行业经验，从芯片设计、互联技术到系统优化等多个角度解析了当前 AI 算力市场的趋势与挑战。