scripod.com

115: 华为发布超节点,如何搅动 AI 算力市场?与魔形智能徐凌杰聊芯片层新变化

晚点聊 LateTalk
本期播客围绕华为 CloudMatrix 384 超节点 AI 集群的发布展开讨论,深入分析了其与英伟达 NVL72 集群方案的异同,并探讨了超节点技术对 AI 算力市场的影响。嘉宾徐凌杰结合自身丰富的行业经验,从芯片设计、互联技术到系统优化等多个角度解析了当前 AI 算力市场的趋势与挑战。
华为 CloudMatrix 384 超节点 AI 集群的发布标志着 AI 算力市场的新变化,其总算力达到 300P,相较于英伟达 NVL72 有显著提升。超节点技术更偏向横向扩展(scale out),而 NVL72 则为纵向扩展(scale up)。AI 算力不仅依赖于 GPU,还需关注交换互联和散热问题。英伟达通过 NVLink 和 NVSwitch 技术提升了 GPU 间的通信效率,但国内厂商在高速接口 IP 设计上仍面临挑战。超节点性能评估涉及显存带宽、数据格式精度等指标,训练阶段追求稳定性和规模,推理阶段关注成本效益。随着模型参数增大,显存需求显著提升,芯片成本结构逐渐向显存倾斜。华为 CloudMatrix 384 功耗较高,但在中国电费成本相对较低的情况下,以总量换性能成为可行策略。尽管华为超节点短期内对英伟达影响有限,但对其他国产芯片厂商构成较大压力。英伟达凭借全球最优供应链和 CUDA 生态保持领先地位,但也面临客户集中化的威胁。未来,新硬件架构如存算一体和类脑计算可能成为改变算力格局的变量。
01:18
01:18
华为 CloudMatrix 384 超节点开始出货,盘古大模型团队发表论文
04:20
04:20
华为 CloudMatrix 384 超节点 AI 集群总算力较 NVL72 提升 67%
09:44
09:44
英伟达 NVLink 和 NVSwitch 技术对 AI 算力的重要性
18:21
18:21
初创公司眼光比很多投资机构还好
18:29
18:29
广义 AI Infra 更值得重视,涵盖芯片到应用的中间环节
22:49
22:49
公版设计在某些情况下被认为更可行
26:12
26:12
DeepSeek 满血版在 H20 机器上优化效果显著实现 API 业务盈利
30:20
30:20
训练常用 H800,推理 H800 性价比高于 H20
34:35
34:35
新一代芯片中显存成本占比达五成到六成
36:02
36:02
华为集群算力约为英伟达 NVL72 的两倍,但功耗可能高四倍
42:06
42:06
华为在过去十几年中在 NPU 领域有深厚的技术和人才积累
43:56
43:56
中国多数公司结合计算芯片与交换芯片有难度
46:57
46:57
长期来看,结合系统能力与优化进行扩展是保持算力产业竞争力的关键
49:05
49:05
H20 算力约为 H200 的六分之一,部分计算单元被刻意屏蔽以符合出货管制限制
52:34
52:34
模型推理的核心在于保证每秒 token 数前提下的系统并发与吞吐
56:16
56:16
美国禁令可能推动中国芯片产业崛起
1:01:43
1:01:43
北美和中国互联网大厂曾是英伟达最大采购方,自研芯片可降低成本并保障供应链安全
1:04:31
1:04:31
AMD 早有针对大体量客户的半定制业务,或许能绑定公司生态
1:10:49
1:10:49
费米架构产品芯片三次流片才成功,但团队仍愿追随
1:16:02
1:16:02
光电共封装产品将提高互联要求,推动芯片连接技术发展
1:23:45
1:23:45
技术发展有时是量变到质变,有时是突变,如 DeepSeek。