📋 全文总结 本文为弘则研究关于国内算力租赁市场的深度调研纪要。核心结论是:国内算力市场正经历供不应求的紧张局面,自2026年春节后至今,算力租赁价格整体上涨约30%,且高端卡(H100、H200、B300等)现货市场一卡难求。需求端受益于C端应用(如龙芯、豆包等智能体)的爆火,推理算力需求快速增长,已
全文总结
本文为弘则研究关于国内算力租赁市场的深度调研纪要。核心结论是:国内算力市场正经历供不应求的紧张局面,自2026年春节后至今,算力租赁价格整体上涨约30%,且高端卡(H100、H200、B300等)现货市场一卡难求。需求端受益于C端应用(如龙芯、豆包等智能体)的爆火,推理算力需求快速增长,已从去年的训练需求1.5-2倍扩大至今年的3-4倍。供给端受限于英伟达高端卡禁运及内存、硬盘等硬件成本上涨,即使H200放开的传闻落地(约75万片,对应约10万台服务器,占存量约30%),短期内价格也难以大幅回落。国产卡(昇腾、寒武等)在商业应用场景中由于性价比、生态和算力产出远不及英伟达,使用率极低,差距仍在扩大。算力租赁业务毛利率已从过去的10%-20%提升至约30%,行业仍处于蓝海阶段,长期看价格仍有上涨动力。
会议实录:
你好,可以听到。可以听到。
我是弘则研究的冯冠儒,之前我同事帮我约了跟您聊一下。
哦哦,明白,您说。
主要想关心一下现在整个国内算力建设的情况,特别是算力租赁这个事儿。最近一段时间一直在涨价,最近价格好像有点稳住了,想看一下后面的情况。您同事给我列了个提纲,先按照您说的来吧。
现在国内的算力,前一阵因为龙芯和智能体应用爆火,打通了C端算力的稳定收入市场。原来都是做B端,面对大模型客户、互联网厂商和政府,但一直不温不火。有些大模型公司做了训练之后没钱了,资金流断了,项目就断了。虽然受制于英伟达高端显卡的制裁,整个算力还是缺的,但龙芯爆火之后,从今年过完年到现在,整个算力市场的高端卡和低端推理卡,整体价格大概涨了30%左右。
现在高端卡越来越缺。以超威B300举例,两T的价格是640万到660万,三T是680万左右,四T已经到了700万。整个算力租赁的高端市场,包括中低端市场(如5090、A800、A1100、A1200),现在都是一卡难求。国内租赁市场非常火热——没有卡。你想租一年的三十二台H100、H200甚至A800,都找不到。
您刚刚说年后涨了30%,指的是算力服务器的采购价格还是租赁价格?
租赁价格,是跟着采购价格抬起来的。举个例子,年前H100服务器大概月租5万到5.5万,现在基本上是6.7万到6.8万,还找不着货。H200从6万出头涨到8万块钱,也没有货。采购价格方面,H200去年9月内存涨价前大概是220到230万,不同品牌甚至跌到210万,现在已经涨到350万。服务器溢价从期货到现货,B300的溢价大概在30%到40%。去年11月B300刚出来时,满配四T期货价格大概450万到460万,现在期货涨到520万,现货市场已经到了680万,里边有200万的利润。
我再跟您确认一下,H100现在的租赁价格是6.7到6.8万?
6.7到6.8万,不是钱的问题。H200已经8万往上了。H800也有,价格差不多6.3万到6.4万。
H20价格低一点,大概4万左右。
这个价格是周度变化还是月度变化?
这个不存在周租。我说的是八卡整机,高端机型。最低租一年,一年的合约价格稍高,比如6.7万,三年能便宜到6.4万到6.5万,五年闭口的话6万多一点。
我上周签一年和这周签一年,会有比较大的价格波动吗?
不会有特别大的波动,但水涨船高。现在处于资源紧缺的通道,整机价格还在上升通道。你晚一个月或一周来定,资源越来越少,大家抢资源做算力应用、卖Token,都是以抢到卡为目标,下手越晚溢价肯定越高。
往后看,H100现在是6.7到6.8万,您觉得还能往上涨吗?
我觉得会涨。我自己也做租赁,后来转做英伟达服务器的贸易。现在租赁市场越来越缺。我手头十几个用户找H100和H200,单子压了两三个月都找不到128或64集群。市场上只有零散的十台八台小集群,是用户训练或推理完倒下来的。现在市场上可以说是一机难求。
您觉得会涨到什么状态?客户能接受的价格上限是多少?
要看H200是否放开。特朗普来了之后说H200要放开,全国十家头部企业(联想、浪潮、字节、京东、阿里等)都获得了资格,但现在并没有开始。国家表面开会时同意了,实际上没有放开,很多东西还在交换。如果真能放开,至少要三四个月传导过来。如果能放开,整个服务器租赁价格会降10%到15%左右,回到一个稳定值。但如果H200不放,整个大盘会越来越紧。
如果放开,价格会往下走?
会往下走,短期内持平然后往下走。现在这个价格确实没办法,没有卡进来就被炒作了。全放开后会降10%到15%,也会很稳定,大家互相之间不会砸盘。
假设H200放开70万片,十家每家7.5万片,对国内算力总盘子是多大的影响?
75万片除8,大概是10万台不到的H200服务器。占国内存量的百分之二三十,大概30%到40%。会有冲击,但改变不了原来的局面。因为内存、硬盘这些价格都涨上来了,原来内存占整机成本10%左右,现在要到30%到40%。虽然数量进来了,但成本上去了,价格不会下来太多。去年七八月份H200一台也就240到250万,现在成本已经冲到270到280万了。
我们算供应会多30%,如果需求翻一倍,其实紧缺会更严重?
对的,您说得非常对。C端市场打开之后,龙芯、豆包这些应用越来越成熟,很多人养成习惯之后,C端市场会越来越大。B端的市场也非常大。每天调用智能体和Token的量,不管专业人员还是日常生活,都会越来越大。
短期之内会,但长期肯定还是涨。现在最厉害的是,全世界的程序员和初创企业都在用中国的算力。因为中国电价便宜,运维成本低,大模型如Kimi和MiniMax的价格是欧美ChatGPT的五分之一到十分之一。全世界除了高端大厂和科研机构用GPT,大部分初创企业和独立开发者都在用中国的算力和大模型。整个市场越来越大,根本不愁。
之前也有人讲Token出海逻辑,但国内模型厂在海外也有云供应,美国用户没必要把需求传回国内计算再传回去。
很多编程或高端应用要求输出准确性和专业性,还是用美国的大模型。但大多数初创企业和独立开发者不需要最专业的,他们确实在用中国的Token,包括东南亚的量也在用。中国的大模型在国内运行,涉及数据安全和数据出海是另一个维度。但现在实际情况就是中国的Token正在被全世界的开发者使用——怎么便宜怎么来。除了亚马逊、Meta等大厂自用和高端大模型训练用美国的,中低端和大多数东西都用中国的模型,基本都能解决。
从在手客户的角度,需求端能看到很明显的变化吗?
最明显的变化就是,我现在想做算力、卖Token,但一卡难求,找不到成规模的H100或H200集群。
穿透到最终端场景,哪些场景消耗比较多、体量比较大?
有几个场景。第一是短视频的生成,抖音上很多短视频生成、龙芯的C端应用,几十块钱到几千块钱,大量使用。第二是医疗、工业和金融,这些行业都在大量使用智能体来改变原来的服务模式。第三是互联网大厂,阿里、百度、腾讯、字节等做公有云的,通过自持或租赁方式把大模型和云服务能力加上去,供应给全国各行业。
国内这几大公有云(华为云、腾讯云、字节火山、阿里),大概占用国内高端显卡使用率的65%。他们是最大的消耗方,可以说是一个聚合分发平台。其次是国内的智慧城市、政府和银行项目,对价格不太敏感,大概占20%。
去年算力消耗大头可能在训练场景,今年推理起来之后比例大概什么样?
去年推理和训练的比例大概是1:1.5到1:2,推理已经高于训练。今年推理的算力规模是训练的三到四倍。随着大模型训练完,在垂直领域的推理应用越来越成熟,大家用得越来越多。推理需要的算力越来越多。
您说的互联网大厂占60%,是算力规模的占比吗?
是卡的占比,可以认为是整机。国内60%的高端算力在大厂手里,政府、银行和军方拥有20%,华为做信创项目也买英伟达的模组。
从真正算力消耗的角度,主要场景(短视频生成、龙芯、行业应用、互联网自身)各占多少?
互联网大厂消耗占60%,初创企业用小规模数据中心大概占15%,地方政府和金融机构的信创项目大概占20%到30%。
现在算力使用率在中国基本上在90%到95%之间,没有空余算力。英伟达卡的使用率至少90%到95%。国产算力使用率非常低,因为价格高(同样算力是英伟达的1.5到2倍),还要半年时间做系统适配。信创项目很多设备买了之后根本不跑。
推理的主要场景中,哪些最快、占比最多?
龙芯是最快的,像以前的微信和抖音一样,从不用到越用越多。豆包、通义千问等智能体也越来越快。推理的需求是指数性增长,从不成熟到成熟,用量越来越多。
您刚才提到推理算力规模今年是训练的三到四倍,扩大了一倍。这里边哪些细分方向最快?
还是龙芯最快。龙芯执行任务时也在编程,但穿透到最后其实还是编程的需求。豆包等智能体也越来越多。
您把服务器卖给他们之后,运营和运维你们负责吗?
当然做。我们从英伟达代工厂下单,订服务器、运回国内、压测、上架、交付实施,包括后续运营运维都可以做。但后台的具体数据我们看不到,那是违规的。
所以只能定性说需求不错,但具体多快很难给个数?
对,这个东西需要专门调查。我现在单独给你一个准确数是不负责任的。
听您的状态对这个事儿挺兴奋的?
对,我现在全国各地跑,下个月要常住深圳了,要在那里成立贸易公司或Token分发的公司。这个业务太火了,我们要做一个小的Token分发。
推理对芯片要求没那么高,5090、A800都可以用。对国产卡(昇腾、寒武)怎么看?
希望国产卡能起来,但实际非常差。我知道的几家做算力聚合分发的平台(如并行科技、无问芯穹),80%到90%还是用英伟达卡。国产卡一是价格高,二是生态不行,三是实际算力产出连英伟达H100的60%都达不到。掉卡率高,产出效率不行,软件适配也不行,程序员改编程要半年。综合成本太高。只有军队、金融等信创项目不在乎钱才会用,商业应用完全不行。
动态地看,差距是在变小还是变大?
差距越来越大。英伟达从B200到B300半年就迭代了,中国在光刻机这个硬条件上就是短板。美国已经是0.3纳米,马上到0.2纳米,我们还没到0.5。落后一代半,以后还会越来越多。混合专家大模型可以省成本,但硬条件还早。
算力租赁涨价是成本传导吗?因为内存涨了,采购变贵导致折旧多所以要涨价。这种情况下自己能多挣钱吗?
现在旧设备有很大溢价,用了三四年的旧设备还能卖高价。新入场的话,要承担禁运带来的硬件成本溢价。回本周期大概三到五年。现在比以前多挣钱了,因为买不到卡,利润非常高。原来利润率大概10%到20%,现在基本上是30%。五年期的B300原来能卖12万,现在16万到19万都不卖。租赁涨的价格能覆盖采购溢价。
以H100为例,现在6.7到6.8万,掉到多少打平?
掉到4万会打平。H100已经出了三年,当时的进货价是210万,现在旧机器还能卖210万,基本白租了三年,没有折旧。A100、A800这些整机现在都买不着了。整个中国的算力租赁市场从开始到现在也就两年多不到三年,还是刚开始。训练带动推理,推理对训练提出更高要求,会需要新一波训练。整个市场方兴未艾,绝对是蓝海。
您跟身边人聊这个事儿,大家态度都差不多吗?
都觉得挺火热的。原来不感兴趣的现在都当成热点。想做贸易、租赁分发、AI创业的人很多。对Token生意特别感兴趣,在国内做聚合分发平台非常有前景。
行,今天主要就这些问题。感觉需求上没问题,供给还在持续短缺,价格扛得住。
还会涨。要看H20到底是不是真的放,中国表面答应但还有很多条件交换。即使答应,库里也没那么多现货,还要生产。估计还要两三个月的过渡期。
明白,定期再跟您聊。谢谢您的时间。
好好好,谢谢。再见。
