📋 全文总结 本次电话会议围绕“Token启示录”系列报告展开,核心观点是: Agentic AI正在驱动Token消耗量出现爆发式增长,而Token的经济模型正在验证AI产业链的商业化闭环正在形成。 一、Token消耗量:Agent驱动百倍级增长 从Chatbot到Agent的演进,带来了Token消


全文总结

本次电话会议围绕“Token启示录”系列报告展开,核心观点是:Agentic AI正在驱动Token消耗量出现爆发式增长,而Token的经济模型正在验证AI产业链的商业化闭环正在形成。

一、Token消耗量:Agent驱动百倍级增长

从Chatbot到Agent的演进,带来了Token消耗量的结构性跃升。2024年全国日均Token消耗量约为千亿级,而2026年3月已突破140万亿。豆包日均调用量达120万亿,验证了这一趋势。Agent对Token的消耗远高于Chatbot,核心原因包括:系统提示词大幅增加(从千级到万级)、上下文累积形成滚雪球效应、工具调用复杂度提升(简单查询50-500 Token,爬虫调用可达5万Token)、多Agent协作呈树状爆炸增长。测算显示,轻度场景下人均Token消耗为Chatbot时期的2倍,重度场景可达50-100倍。这意味着,Agent渗透率仅需达到Chatbot日活渗透率的1%-2%,即可实现与Chatbot同等的Token消耗量。

二、企业级部署:更大的增长潜力

个人用户以低频、轻量、试探性交互为主,而企业端一旦完成工作流嵌入,将触发高频自动化模式。OpenAI报告显示,企业端API推理消耗量同比增长320倍。典型企业Agent单次任务消耗量可达个人对话的百倍以上。头部模型厂商(OpenAI、Anthropic)正通过成立合资公司、组建FD团队等方式加速企业级部署,Token消耗量的天花板将被大幅打开。

三、Token经济模型:成本、价格与利润分配

成本端:自建算力每百万Token成本约2美元(基于NVLink 72机柜、GB200、万亿参数模型),算力租赁成本约2.6-4美元。最敏感的变量是推理速度——优化不佳时每秒60-70 Token,优化理想可达1500-2000 Token,差距可达10倍以上,这是模型公司利润的核心来源。

价格端:海外模型输入约2-3美元/百万Token,输出15-25美元;国内约为海外的1/3至1/10。同等智力水平下Token价格持续下降,但模型能力持续提升,顶级模型价格有望上行。海外呈现分层定价趋势,国内因竞争激烈(约10家模型厂商),提价空间存在但动作谨慎。

利润分配:当前算力环节占据价值链约40%的利润,且仍在挤压上下游。模型公司毛利率普遍偏低(智谱约20%),净利润仍为亏损。但随着推理优化水平提升、议价权增强、算力价格趋于稳定,模型公司的利润杠杆将逐步显现。预计模型公司商业化5-6年后可实现盈亏平衡,之后利润将快速释放。

四、产业链投资机会

推荐关注大模型厂商(智谱等)、算力基础设施(万国数据、世纪互联等)、算力租赁及云基建等环节。硬件端短期贡献巨额利润,模型端展现远期闭环希望,整个AI产业链正加速迈向商业化成熟阶段。

会议实录

我们最近继AI人工智能系列之后,又新开启了一个新的系列,叫Token启示录。今天在线分享Token启示录的之一和之二。第一篇介绍Agentic AI之后,Token到底要用多少?增长倍数是多少?第二篇讲Token的经济学,测算单机柜能产生多少Token、对应多少成本,全球顶尖模型推理的成本和售价是多少,以及Token价值链中模型厂商、算力厂商、算力租赁厂商和潜在应用厂商的价值分配。

算力的暴涨和AI的快速发展对每个投资者来说都是不争的事实,股票反应也很强烈。但我们也注意到,市场上大家更多是一种模糊的正确,了解大方向,但具体账怎么算、经济利益怎么分配,还没有特别好的测算。希望能用这两个报告补足空白。我们内部还储存了不少报告,整个Token启示录会快速出很多篇,请大家继续关注中金计算机团队。

首先请车书院分享Token启示录第一篇。

好的,谢谢海哥。各位投资人晚上好,我是舒运。现在跟大家分享Token经济学系列的第一篇——Agentic AI驱动AI大幅增长,我们对这一事情进行了定量测算,这是报告的重点。

在讲之前,先梳理一下今年发生的事。2025年下半年以来,AI渗透率快速提升。全球领先的大模型团队从2023年起就已拉开AI赛道代际演进的序幕。随着模型能力大幅提升,大模型厂商推出自身的Agent框架——从Claude Code的推出,到2026年年初OpenAI的爆火,再到近期Hermes的兴起,无论是模型能力提升还是更便捷的AI框架,都使得Agent的用量和渗透率大幅提升,也带来了全球Token消耗量的大幅提升。

2024年全国日均Token消耗量大概是千亿级别。到2026年3月,最新的全国日均Token消耗量已突破140万亿。有一个交叉验证的数据:豆包在2026年3月公布的日均Token调用量也达到了120万亿。我们认为,Token增长模型正在成为衡量AI产业价值的核心指标。随着Token用量大幅增长,国内外大模型厂商的ARR都呈现迅速提升的状态。Anthropic最新的ARR已达到440亿美元,增长斜率不断变得陡峭。

从Chatbot到Agent,AI发生的主要变化来自以下几个方面:

第一,Agent对上下文内容的需求大幅提升。每一步行动不仅包含庞大的系统指令和工具描述,还需要将之前所有环节产生的中间过程、执行日志以及多轮反思数据作为上下文喂给模型。

第二,用户交给Agent的任务变得更加复杂、更高价值,催生出长程任务和跨Agent合作。更长的任务链条和更长的工作时间,带来了数倍Token消耗量的提升。

第三,Agent基于交错思维链以及工具调用,核心在于将复杂任务拆解成推理、规划、编写、调用工具、环境反馈等循环过程,进一步提升了Token需求。

下面是我们对影响因素的详细测算。核心影响因素有几点:

第一,系统提示词。相比Chatbot时期,Agent时期系统提示词会大量提升,涉及角色定义、数据说明、约束规则等。简单的系统提示词可能是千个Token,复杂的可能上万。

第二,上下文累积机制。每一轮推理产生的输出,会按一定保留比例进入下一轮推理的输入,使Token增长不是线性叠加,而是滚雪球式的。推理轮次乘以系统提示词加单轮输出是线性增长,但上下文累积是推理轮次乘以上下文比例,再乘以轮次乘以轮次减1除以2的机制。系统提示词加上累计的上下文层次,就是上下文累积的简单算量。

第三,工具调用。去年开始,领先模型厂商除了提升推理能力,还在做更复杂、更长程的工作和工具调用。简单的查询返回50-500个Token,但一次爬虫调用可能返回5万个Token。随着Agent越来越多应用于实际场景,工具调用越来越复杂,返回体积增加,叠加上下文累积,使上下文呈现爆炸状态。

第四,自主循环。引入评定机制、循环机制,让模型自己评估反思,再把工作重做一遍,也会使Token用量继续提升。

这还是基于单Agent形态。智能发展水平从L1到L5:L1是Chatbot,L3是Agent工具形式,L4是替代部分人工作的数字人/数字同事,L5是多Agent协作。多Agent协作不是线性增长——引入3个Agent或更多时,会呈现树状爆炸。

以上因素更多是Token用量的大幅提升。但模型厂商也会通过算法调优、缓存命中等方式降低实际成本负荷。缓存命中的计费比例通常按原价的10%计算,能降低部分实际Token消耗量。

总结影响因素:系统提示词、上下文累积、工具调用、多Agent协作。其中每一步都可能存在低估因素——工具调用变得更复杂,Token返回均值呈上涨趋势;上下文积累中,工具调用也会进入上下文;多Agent不仅是简单系数,而是树状形态。这些都使Token用量大幅增长。

我们测算了三种情景:轻度、中度和重度。轻度情景下,人均Token消耗量是Chatbot时期的2倍;重度情景对应50-100倍的用量提升。这意味着,Agent使用在重度场景下,只需达到Chatbot日活渗透率的1%-2%,就能达到与Chatbot同等的Token消耗量,对AI产业链的需求将大幅上涨。

各平台统计显示,单用户Token消耗量和模型调用Token消耗量都有较大上涨趋势。基于此,我们预测到今年年底,日均Token消耗量在轻度到重度预测下,可能是200万亿到1000万亿不等。目前3月消耗量是140万亿,以当前发展趋势,很可能往500万亿到1000万亿方向发展。

最后提一下,目前Agent消耗更多还是个人部署形式,后续企业级部署将带来更大增长潜力。各家大模型厂商也开始从个人部署向企业部署方向推进。根据OpenAI 2025年12月企业AI报告,API推理消耗量在企业端同比增长320倍。个人用户以低频轻量和试探性交互为主,企业端一旦完成工作流嵌入,会触发高频自动化模式。以编程场景为例,Claude系列凭借长上下文和卓越推理能力,在开发者群体占据领先份额。典型企业Agent处理复杂任务时,单次任务涉及多轮自我修正和上下文调用,消耗量可达个人对话的百倍以上。

付费结构上,企业端具备更强的向上拓展能力。个人用户普遍选择订阅套餐,Token消耗量受平台上限设置制约。企业端SaaS估值和营收预期持续攀升,B端API收入已成为主力方向。今年以来,OpenAI和Anthropic都成立了合资公司——OpenAI将FD团队与咨询公司顾问匹配,共同在客户内部部署AI Agent;5月Anthropic推出Claude Manage Agent平台,与黑石、高盛等组建15亿美元企业服务合资公司。从平台建设到FD落地,头部大模型厂商正在加速将AI能力嵌入企业核心工作流。

前面的测算更多基于用户角度,从Chatbot到Agent带来的Token消耗量提升。但考虑到企业级部署,Token整体用量天花板将大幅打开。产业链上,我们主要推荐关注智谱等大模型厂商,以及万国数据、世纪互联等产业链相关公司。第一部分先介绍到这里,后续关于具体推荐标的会再详细讲解。下面有请王志浩进行Token系列第二篇的讲解。

好的,大家好,我是中金公司王志浩。

刚刚舒运讲的是第一部分——量的问题。大家对量这件事已经没有怀疑,无非是100倍、200倍还是更多。但对于能不能赚钱、Token链条上谁赚了钱、谁赚了更多、未来利润怎么分配、利润结构会发生什么变化,这些还是值得讨论的。第二篇报告主要围绕单位经济模型进行讨论。

首先看成本。做大模型推理无非两种方式:一种是租卡,走算力租赁;另一种是自建,自己买卡或运营数据中心。理论上自建成本更低。我们的假设基于当前最好的卡推最好的模型——NVLink 72机柜,里面都是GB200,推万亿参数模型。优化方式假设行业中已相对理想。最后算出来,自建角度每百万Token成本约2美元。

计算过程:一台机柜硬件价格约600-700万美元,按不同折旧年限假设,每年折旧约100万美元,加上约10万美元电费、四五十万美元维护费用(含人员),再除以一台机柜一年能产生的Token数,得出均价。上面这些部分目前比较固定,虽然存储、CPU在涨价,但最敏感的变量在于一张卡每秒钟能输出多少Token。优化不好可能一秒钟只有六七十个,优化好可能到几百个,理想情况下甚至上千。最近美国那边有公司号称优化效率可达每秒1500-2000个Token。这是目前模型公司能做比较的重要事项。同样的卡,同样时间能产出1倍、2倍还是3倍的Token,差距非常大,这也是未来模型公司利润的来源。

租赁角度,成本会更贵,因为要给租赁公司一些利润。按目前定价和七五折折扣,每百万Token成本约2.6美元。但最近很缺卡,折扣肯定没有75%,租金还在往上走,目前可能已到3-4美元成本。这也解释了为什么规模更大的公司慢慢转向自己管理——如果去租,对单卡速度的优化很难自己把控,只有把底层、模型层、应用层结合在一起,才能发挥理论优化的上限。

决定成本最核心的是推理速度,即单位时间内用同样算力能输出多少高质量Token。不能只快但笨,还要满足客户满意度、保证留存。

接下来讨论价格。目前大模型定价比较公开。海外输入端约2-3美元/百万Token,输出端15-25美元。国内价格普遍是海外模型的1/3、1/5甚至1/10。平均单价不仅由刊例价格决定,还受输入输出比例、缓存命中率等因素影响。

从Chatbot时代到Agent时代,这些比例会变化。Chatbot时代,输入输出比约1:1或2:1,缓存命中率不高。Agent时代,输入Token变得非常大——每个Agent循环都有很长的思维链、循环、反思,还有查资料、写代码等,这些都算输入。而且Agent任务相对聚焦,缓存命中率会显著高于Chatbot。所以Agent时代Token消耗量可能是Chatbot时代的百倍千倍,但平均Token价格可能会往下掉一点。比如Token消耗量翻100倍,成本可能只涨70倍。但这不影响模型公司毛利,因为输入端成本本来就低。

Token价格是升还是降? 两点比较确定:第一,同等智力水平一定越来越便宜——卡越来越好,计算和推理优化越来越完善。但同等智力没人用,大家都用更好的模型。第二,模型能力每年在提升,参数量从千亿到万亿再到十万亿,最好的大模型价格会往上走。海外已明确分层——同等智力变廉价,但模型设计水平越来越高,完成更有价值量的任务就应该更贵。海外平均价格可能企稳或往下走,但每隔一段时间都会有很贵的模型出来。

国内因素比较复杂。目前国内模型定价与海外差距很大,虽然成本也低很多(参数量小、推理优化好),但毛利显著低于海外模型。国产模型有较大提价空间——模型智力水平在提升,如智谱今年随模型能力提升尝试提价。但国内竞争环境更复杂,大厂(阿里、腾讯、小米等)和创业公司(六小龙中还有四家)加起来约10家模型厂商,提价空间存在但动作会比较纠结,要考虑友商和舆论等因素。

落实到经济模型分析。如果自建算力成本2美元,售价平均5-6美元,模型公司理论OP Margin可达60%。但目前全球没有人做到60%,大部分公司毛利率没到这个水平。目前模型公司利润被挤压——价格没到理想状态,下游硬件涨价传导到租赁、云一层层往上,模型利润空间并不可观。模型公司现在最赖以生存的是收入增长,大部分人不那么关注利润。但随着OpenAI真正上市,大家会开始拆报表看利润。以我们推算,模型公司几年内收入可翻50倍甚至几百倍,通过收入迅速增长拉动毛利、摊薄推理成本。

以上讨论都只在推理端。训练成本现在也很大——即使今年推理放量,训练成本还能占算力的一半。Pre-training往十万亿参数走,Post-training向更大对齐和RL方向走,训练成本每年至少40%增长。以模型公司规模商业化推算,可能到第五、第六年才能打正——毛利慢慢覆盖推理和训练成本。但未来比较乐观:一旦打正,如果收入还能保持较好增长,利润杠杆就能释放,一年挣的钱可能超过过去5-15年的资本开支。这也是大家对AI闭环有信心的原因。2023-2024年每年投千亿美金资本开支,但Chatbot市场满打满算几百亿美金,算不过来账。现在资本开支往万亿美金走,但至少看到了AI Coding和Agent有潜力达到万亿美金的锤炼市场,距离闭环越来越近。

价值分配链条:目前约40%利润被算力环节赚走,且还在挤压上下游。云和租赁层更多是传导,可赚一些溢价。模型公司目前肯定没有40%,如已上市的智谱毛利率约20%,净利润亏损。但随着优化水平提升、议价权增强、算力价格稳定收敛,利润杠杆就能体现,整个闭环就能形成。我们距离AI产业链商业化闭环越来越近,这也是今年上半年全球市场如此有信心的原因——硬件贡献短期巨额利润,模型层又让大家看到远期闭环希望。

今年上半年模型层面没有特别大的能力进步,更多是Agent框架闭环拉动ARR上升。下半年可能看到模型进步。我们对整个市场、整个行业非常乐观。今天下午港股大模型公司重新收获非常大涨幅。无论是算力、云基建、中间层租赁还是模型,都会处于向上趋势阶段。

以上是我主要汇报的内容。按照惯例,等一下在线问题,欢迎大家举手提问。

问答环节

问:Token per GPU这个数怎么得出的?

答:这个数很有弹性,可以是100,也可以是1000。我假设的1000是在充分优化情况下,再乘以30%-40%的优化率或有效Token数。最理想情况下可能到1000,目前可能是300-400。最后调节的是这个百分比。

问:Input和Output Token的比例?

答:Input会更多。现在都是PD分离,Prefilling更吃计算,Decoding更多是存储方面的排队。大家策略可能是Prefilling和Decoding用不同的卡。从Agent需求结构看,Prefilling占比会越来越大,Decoding占比小但要求更高。

问:智谱的算力供应商供应情况?

答:第一,还是很紧张,供不应求。公司在采取多种方式解决,市面上有各种传闻,但具体落地进度存在不确定性。国内整个卡供给比较缺,很多不是现货而是期货,可能只是框架协议。公司会尽最大努力扩容满足需求。目前买什么都要排队,供不应求的状态没有明显缓解。

问:降低推理成本的途径?

答:最直接是用更好的卡。同等卡的话有很多方法:打包做更稀疏、每次激活参数变小、PD分离做得更好、基础设施层面做工程化工作。硬件和模型算法层面都可以做很多。例如缓存命中方面,DS最新论文已把成本压到1/10甚至更低——通过压KV Cache、做分组、截断来降低成本。模型公司是有利润空间的,在保证不降质的情况下优化,还是挺有利润空间的。

今天的分享很精彩,最后几个问题都挺难的。如果大家没有进一步问题,欢迎通过销售渠道联系我们做进一步交流。本次电话会议到此结束,请大家继续关注中金计算机团队的后续报告,谢谢。

作者 AI财经

AI财经提供的财经数据以及其他资料均来自互联网其他第三方,仅作为用户获取信息之目的,并不构成投资建议。
AI财经以及其他第三方不为本页面提供信息的错误、残缺、延迟或因依靠此信息所采取的任何行动负责。市场有风险,投资需谨慎。