115: 华为发布超节点,如何搅动 AI 算力市场?与魔形智能徐凌杰聊芯片层新变化
晚点聊 LateTalk
2025/05/11
115: 华为发布超节点,如何搅动 AI 算力市场?与魔形智能徐凌杰聊芯片层新变化
115: 华为发布超节点,如何搅动 AI 算力市场?与魔形智能徐凌杰聊芯片层新变化

晚点聊 LateTalk
2025/05/11
本期播客围绕华为 CloudMatrix 384 超节点 AI 集群的发布展开讨论,深入分析了其与英伟达 NVL72 集群方案的异同,并探讨了超节点技术对 AI 算力市场的影响。嘉宾徐凌杰结合自身丰富的行业经验,从芯片设计、互联技术到系统优化等多个角度解析了当前 AI 算力市场的趋势与挑战。
华为 CloudMatrix 384 超节点 AI 集群的发布标志着 AI 算力市场的新变化,其总算力达到 300P,相较于英伟达 NVL72 有显著提升。超节点技术更偏向横向扩展(scale out),而 NVL72 则为纵向扩展(scale up)。AI 算力不仅依赖于 GPU,还需关注交换互联和散热问题。英伟达通过 NVLink 和 NVSwitch 技术提升了 GPU 间的通信效率,但国内厂商在高速接口 IP 设计上仍面临挑战。超节点性能评估涉及显存带宽、数据格式精度等指标,训练阶段追求稳定性和规模,推理阶段关注成本效益。随着模型参数增大,显存需求显著提升,芯片成本结构逐渐向显存倾斜。华为 CloudMatrix 384 功耗较高,但在中国电费成本相对较低的情况下,以总量换性能成为可行策略。尽管华为超节点短期内对英伟达影响有限,但对其他国产芯片厂商构成较大压力。英伟达凭借全球最优供应链和 CUDA 生态保持领先地位,但也面临客户集中化的威胁。未来,新硬件架构如存算一体和类脑计算可能成为改变算力格局的变量。
01:18
01:18
华为 CloudMatrix 384 超节点开始出货,盘古大模型团队发表论文
04:20
04:20
华为 CloudMatrix 384 超节点 AI 集群总算力较 NVL72 提升 67%
09:44
09:44
英伟达 NVLink 和 NVSwitch 技术对 AI 算力的重要性
18:21
18:21
初创公司眼光比很多投资机构还好
18:29
18:29
广义 AI Infra 更值得重视,涵盖芯片到应用的中间环节
22:49
22:49
公版设计在某些情况下被认为更可行
26:12
26:12
DeepSeek 满血版在 H20 机器上优化效果显著实现 API 业务盈利
30:20
30:20
训练常用 H800,推理 H800 性价比高于 H20
34:35
34:35
新一代芯片中显存成本占比达五成到六成
36:02
36:02
华为集群算力约为英伟达 NVL72 的两倍,但功耗可能高四倍
42:06
42:06
华为在过去十几年中在 NPU 领域有深厚的技术和人才积累
43:56
43:56
中国多数公司结合计算芯片与交换芯片有难度
46:57
46:57
长期来看,结合系统能力与优化进行扩展是保持算力产业竞争力的关键
49:05
49:05
H20 算力约为 H200 的六分之一,部分计算单元被刻意屏蔽以符合出货管制限制
52:34
52:34
模型推理的核心在于保证每秒 token 数前提下的系统并发与吞吐
56:16
56:16
美国禁令可能推动中国芯片产业崛起
1:01:43
1:01:43
北美和中国互联网大厂曾是英伟达最大采购方,自研芯片可降低成本并保障供应链安全
1:04:31
1:04:31
AMD 早有针对大体量客户的半定制业务,或许能绑定公司生态
1:10:49
1:10:49
费米架构产品芯片三次流片才成功,但团队仍愿追随
1:16:02
1:16:02
光电共封装产品将提高互联要求,推动芯片连接技术发展
1:23:45
1:23:45
技术发展有时是量变到质变,有时是突变,如 DeepSeek。