【个股观点】智谱推出新一代推理网络架构ZCube,从模型算法到网络工程化落地的重要突破,持续看好公司工程化能力提升后的商业落地加速
事件:智谱近日联合驭驯网络与清华大学提出并在生产环境落地ZCube组网架构。ZCube的核心意义在于,大模型推理基础设施正在从单点GPU优化走向系统级协同优化,网络不再只是算力集群的底层连接设施,而是直接影响推理吞吐、首Token时延和MaaS成本结构的关键环节。
[礼物]随着长上下文、PD分离和KV Cache跨节点传输逐渐成为大模型推理主流,推理网络流量呈现出明显的源端、目的端和规模动态变化特征。传统Clos/Fat-Tree或ROFT架构虽然适合通用集群扩展,但在推理场景下容易出现”总带宽充足、局部链路拥塞”的结构性问题,进而触发PFC反压,放大尾延迟,影响TTFT(首token延迟)与整体吞吐。网络带宽和拓扑设计,正在成为大模型线上推理服务能否高效扩展的重要瓶颈。
[庆祝]ZCube的核心创新在于取消传统Spine层交换机,将Leaf交换机划分为两组,并在两组之间构建完全二部图互联,同时让GPU网卡双端口分别以单轨和多轨方式接入不同交换机组。该架构使任意GPU之间仅需经过两台交换机即可互达,网络直径降至2,并通过拓扑结构本身实现更好的流量负载均衡,从源头降低KV Cache传输在少数链路和端口上的碰撞概率。
☀️已在GLM-5.1中落地应用:ZCube在GLM-5.1 coding推理服务中已经实现验证。在GPU、软件栈和应用保持不变的情况下,相比原ROFT架构,ZCube使GPU平均推理吞吐提升15%以上,TTFT P99下降40.6%。这说明网络架构创新不仅可以降低AI集群硬件成本,更能够释放被结构性拥塞浪费掉的有效算力。
[烟花]我们认为,ZCube代表了AI网络架构的重要演进方向。未来大模型基础设施将越来越围绕真实模型流量进行设计,长上下文、PD分离、MoE、通信库、调度策略和网络拓扑将深度耦合。AI网络的价值也将从”堆带宽”,升级为”围绕模型流量做架构创新和系统协同”。在推理业务持续增长、算力资源持续紧张的背景下,谁能更高效地组织GPU,谁就能在单位算力成本、推理吞吐和服务时延上获得更强优势。
🌹总结:我们持续看好智谱在模型算法方面的强大壁垒,随着网络工程化能力的提升,公司的商业化有望进一步加速。同时我们持续看好算力产业链,尤其是光模块、交换机、光纤光缆、光通信配套设备及测试仪器等核心环节。
欢迎联系 中信建投通信与人工智能团队
