VR NVL72 每机架 SOCAMM DRAM 容量减半

英伟达计划将 VR NVL72 中单颗 Vera 处理器配套的 SOCAMM DRAM 容量,由原先 1536GB 缩减至 768GB。该型号初始出货标配 55296GB 采用 SOCAMM 封装形态的 LPDDR5X 内存:单个 SOCAMM 模组容量 192GB,单颗 Vera CPU 搭载 8 块模组,单机架共计 36 颗 Vera 处理器,整机架内存合计约 55TB。改版后的 VR NVL72,单颗 Vera CPU 更换为 8 块 96GB 规格模组,整机架 DRAM 总容量降至 27648GB。具体来看,我们判断仅 Rubin 项目初期量产批次沿用 192GB 规格 SOCAMM,Rubin 产品生命周期的绝大部分时段,都会切换为 96GB SOCAMM。

本次内存缩水后,我们测算的单机架服务器成本由 760 万美元下调至 680 万美元;单逻辑 GPU 全包资本开支从 129034 美元降至 118858 美元(单 GPU 功耗 TDP 按 1800W 测算),单位瓦资本成本由 43.7 美元 / W 降至 40.2 美元 / W;单 GPU 小时全生命周期使用成本由 4.16 美元 / 小时降至 3.90 美元 / 小时。此前已按原价下单、后续收货为减配 DRAM 机架的客户,对应采购报价将会同步下调。

推理性能表现会受并发访问规模影响:在 DRAM 容量削减后,CPU KV 缓存会在更小批处理量(并发在线用户更少)的场景下触达容量上限,进而拖累整套推理系统的 Token 总吞吐。高交互业务批处理量偏低,本次降配基本不受影响;低交互业务可依靠更高处理速度承载海量用户,能够同时启用 DRAM 卸载与 NVMe 闪存卸载方案。因此 Rubin 机型启用 NVMe 闪存扩容卸载的门槛进一步降低,但 NVMe 介质本身读写速率远低于内存。

我们认为 Vera Rubin 机型 SOCAMM 内存砍配,核心原因是全球三大存储原厂的 DRAM 供货紧张;另一项驱动因素是 Rubin Ultra 配套 HBM 显存规格降级,从原计划 16 层高 HBM4E 改为 12 层高 HBM4E。我方内存测算团队正在基于本次规格变动更新 SOCAMM 成本预估,后续将发布新版测算报告。

作者 AI财经

AI财经提供的财经数据以及其他资料均来自互联网其他第三方,仅作为用户获取信息之目的,并不构成投资建议。
AI财经以及其他第三方不为本页面提供信息的错误、残缺、延迟或因依靠此信息所采取的任何行动负责。市场有风险,投资需谨慎。