Token启示录系列：Agentic AI驱动放量，单位经济模型验证商业化20260513

📋 全文总结本次电话会议围绕“Token启示录”系列报告展开，核心观点是： Agentic AI正在驱动Token消耗量出现爆发式增长，而Token的经济模型正在验证AI产业链的商业化闭环正在形成。一、Token消耗量：Agent驱动百倍级增长从Chatbot到Agent的演进，带来了Token消

全文总结

本次电话会议围绕“Token启示录”系列报告展开，核心观点是：Agentic AI正在驱动Token消耗量出现爆发式增长，而Token的经济模型正在验证AI产业链的商业化闭环正在形成。

一、Token消耗量：Agent驱动百倍级增长

从Chatbot到Agent的演进，带来了Token消耗量的结构性跃升。2024年全国日均Token消耗量约为千亿级，而2026年3月已突破140万亿。豆包日均调用量达120万亿，验证了这一趋势。Agent对Token的消耗远高于Chatbot，核心原因包括：系统提示词大幅增加（从千级到万级）、上下文累积形成滚雪球效应、工具调用复杂度提升（简单查询50-500 Token，爬虫调用可达5万Token）、多Agent协作呈树状爆炸增长。测算显示，轻度场景下人均Token消耗为Chatbot时期的2倍，重度场景可达50-100倍。这意味着，Agent渗透率仅需达到Chatbot日活渗透率的1%-2%，即可实现与Chatbot同等的Token消耗量。

二、企业级部署：更大的增长潜力

个人用户以低频、轻量、试探性交互为主，而企业端一旦完成工作流嵌入，将触发高频自动化模式。OpenAI报告显示，企业端API推理消耗量同比增长320倍。典型企业Agent单次任务消耗量可达个人对话的百倍以上。头部模型厂商（OpenAI、Anthropic）正通过成立合资公司、组建FD团队等方式加速企业级部署，Token消耗量的天花板将被大幅打开。

三、Token经济模型：成本、价格与利润分配

成本端：自建算力每百万Token成本约2美元（基于NVLink 72机柜、GB200、万亿参数模型），算力租赁成本约2.6-4美元。最敏感的变量是推理速度——优化不佳时每秒60-70 Token，优化理想可达1500-2000 Token，差距可达10倍以上，这是模型公司利润的核心来源。

价格端：海外模型输入约2-3美元/百万Token，输出15-25美元；国内约为海外的1/3至1/10。同等智力水平下Token价格持续下降，但模型能力持续提升，顶级模型价格有望上行。海外呈现分层定价趋势，国内因竞争激烈（约10家模型厂商），提价空间存在但动作谨慎。

利润分配：当前算力环节占据价值链约40%的利润，且仍在挤压上下游。模型公司毛利率普遍偏低（智谱约20%），净利润仍为亏损。但随着推理优化水平提升、议价权增强、算力价格趋于稳定，模型公司的利润杠杆将逐步显现。预计模型公司商业化5-6年后可实现盈亏平衡，之后利润将快速释放。

四、产业链投资机会

推荐关注大模型厂商（智谱等）、算力基础设施（万国数据、世纪互联等）、算力租赁及云基建等环节。硬件端短期贡献巨额利润，模型端展现远期闭环希望，整个AI产业链正加速迈向商业化成熟阶段。

会议实录

我们最近继AI人工智能系列之后，又新开启了一个新的系列，叫Token启示录。今天在线分享Token启示录的之一和之二。第一篇介绍Agentic AI之后，Token到底要用多少？增长倍数是多少？第二篇讲Token的经济学，测算单机柜能产生多少Token、对应多少成本，全球顶尖模型推理的成本和售价是多少，以及Token价值链中模型厂商、算力厂商、算力租赁厂商和潜在应用厂商的价值分配。

算力的暴涨和AI的快速发展对每个投资者来说都是不争的事实，股票反应也很强烈。但我们也注意到，市场上大家更多是一种模糊的正确，了解大方向，但具体账怎么算、经济利益怎么分配，还没有特别好的测算。希望能用这两个报告补足空白。我们内部还储存了不少报告，整个Token启示录会快速出很多篇，请大家继续关注中金计算机团队。

首先请车书院分享Token启示录第一篇。

好的，谢谢海哥。各位投资人晚上好，我是舒运。现在跟大家分享Token经济学系列的第一篇——Agentic AI驱动AI大幅增长，我们对这一事情进行了定量测算，这是报告的重点。

在讲之前，先梳理一下今年发生的事。2025年下半年以来，AI渗透率快速提升。全球领先的大模型团队从2023年起就已拉开AI赛道代际演进的序幕。随着模型能力大幅提升，大模型厂商推出自身的Agent框架——从Claude Code的推出，到2026年年初OpenAI的爆火，再到近期Hermes的兴起，无论是模型能力提升还是更便捷的AI框架，都使得Agent的用量和渗透率大幅提升，也带来了全球Token消耗量的大幅提升。

2024年全国日均Token消耗量大概是千亿级别。到2026年3月，最新的全国日均Token消耗量已突破140万亿。有一个交叉验证的数据：豆包在2026年3月公布的日均Token调用量也达到了120万亿。我们认为，Token增长模型正在成为衡量AI产业价值的核心指标。随着Token用量大幅增长，国内外大模型厂商的ARR都呈现迅速提升的状态。Anthropic最新的ARR已达到440亿美元，增长斜率不断变得陡峭。

从Chatbot到Agent，AI发生的主要变化来自以下几个方面：

第一，Agent对上下文内容的需求大幅提升。每一步行动不仅包含庞大的系统指令和工具描述，还需要将之前所有环节产生的中间过程、执行日志以及多轮反思数据作为上下文喂给模型。

第二，用户交给Agent的任务变得更加复杂、更高价值，催生出长程任务和跨Agent合作。更长的任务链条和更长的工作时间，带来了数倍Token消耗量的提升。

第三，Agent基于交错思维链以及工具调用，核心在于将复杂任务拆解成推理、规划、编写、调用工具、环境反馈等循环过程，进一步提升了Token需求。

下面是我们对影响因素的详细测算。核心影响因素有几点：

第一，系统提示词。相比Chatbot时期，Agent时期系统提示词会大量提升，涉及角色定义、数据说明、约束规则等。简单的系统提示词可能是千个Token，复杂的可能上万。

第二，上下文累积机制。每一轮推理产生的输出，会按一定保留比例进入下一轮推理的输入，使Token增长不是线性叠加，而是滚雪球式的。推理轮次乘以系统提示词加单轮输出是线性增长，但上下文累积是推理轮次乘以上下文比例，再乘以轮次乘以轮次减1除以2的机制。系统提示词加上累计的上下文层次，就是上下文累积的简单算量。

第三，工具调用。去年开始，领先模型厂商除了提升推理能力，还在做更复杂、更长程的工作和工具调用。简单的查询返回50-500个Token，但一次爬虫调用可能返回5万个Token。随着Agent越来越多应用于实际场景，工具调用越来越复杂，返回体积增加，叠加上下文累积，使上下文呈现爆炸状态。

第四，自主循环。引入评定机制、循环机制，让模型自己评估反思，再把工作重做一遍，也会使Token用量继续提升。

这还是基于单Agent形态。智能发展水平从L1到L5：L1是Chatbot，L3是Agent工具形式，L4是替代部分人工作的数字人/数字同事，L5是多Agent协作。多Agent协作不是线性增长——引入3个Agent或更多时，会呈现树状爆炸。

以上因素更多是Token用量的大幅提升。但模型厂商也会通过算法调优、缓存命中等方式降低实际成本负荷。缓存命中的计费比例通常按原价的10%计算，能降低部分实际Token消耗量。

总结影响因素：系统提示词、上下文累积、工具调用、多Agent协作。其中每一步都可能存在低估因素——工具调用变得更复杂，Token返回均值呈上涨趋势；上下文积累中，工具调用也会进入上下文；多Agent不仅是简单系数，而是树状形态。这些都使Token用量大幅增长。

我们测算了三种情景：轻度、中度和重度。轻度情景下，人均Token消耗量是Chatbot时期的2倍；重度情景对应50-100倍的用量提升。这意味着，Agent使用在重度场景下，只需达到Chatbot日活渗透率的1%-2%，就能达到与Chatbot同等的Token消耗量，对AI产业链的需求将大幅上涨。

各平台统计显示，单用户Token消耗量和模型调用Token消耗量都有较大上涨趋势。基于此，我们预测到今年年底，日均Token消耗量在轻度到重度预测下，可能是200万亿到1000万亿不等。目前3月消耗量是140万亿，以当前发展趋势，很可能往500万亿到1000万亿方向发展。

最后提一下，目前Agent消耗更多还是个人部署形式，后续企业级部署将带来更大增长潜力。各家大模型厂商也开始从个人部署向企业部署方向推进。根据OpenAI 2025年12月企业AI报告，API推理消耗量在企业端同比增长320倍。个人用户以低频轻量和试探性交互为主，企业端一旦完成工作流嵌入，会触发高频自动化模式。以编程场景为例，Claude系列凭借长上下文和卓越推理能力，在开发者群体占据领先份额。典型企业Agent处理复杂任务时，单次任务涉及多轮自我修正和上下文调用，消耗量可达个人对话的百倍以上。

付费结构上，企业端具备更强的向上拓展能力。个人用户普遍选择订阅套餐，Token消耗量受平台上限设置制约。企业端SaaS估值和营收预期持续攀升，B端API收入已成为主力方向。今年以来，OpenAI和Anthropic都成立了合资公司——OpenAI将FD团队与咨询公司顾问匹配，共同在客户内部部署AI Agent；5月Anthropic推出Claude Manage Agent平台，与黑石、高盛等组建15亿美元企业服务合资公司。从平台建设到FD落地，头部大模型厂商正在加速将AI能力嵌入企业核心工作流。

前面的测算更多基于用户角度，从Chatbot到Agent带来的Token消耗量提升。但考虑到企业级部署，Token整体用量天花板将大幅打开。产业链上，我们主要推荐关注智谱等大模型厂商，以及万国数据、世纪互联等产业链相关公司。第一部分先介绍到这里，后续关于具体推荐标的会再详细讲解。下面有请王志浩进行Token系列第二篇的讲解。

好的，大家好，我是中金公司王志浩。

刚刚舒运讲的是第一部分——量的问题。大家对量这件事已经没有怀疑，无非是100倍、200倍还是更多。但对于能不能赚钱、Token链条上谁赚了钱、谁赚了更多、未来利润怎么分配、利润结构会发生什么变化，这些还是值得讨论的。第二篇报告主要围绕单位经济模型进行讨论。

首先看成本。做大模型推理无非两种方式：一种是租卡，走算力租赁；另一种是自建，自己买卡或运营数据中心。理论上自建成本更低。我们的假设基于当前最好的卡推最好的模型——NVLink 72机柜，里面都是GB200，推万亿参数模型。优化方式假设行业中已相对理想。最后算出来，自建角度每百万Token成本约2美元。

计算过程：一台机柜硬件价格约600-700万美元，按不同折旧年限假设，每年折旧约100万美元，加上约10万美元电费、四五十万美元维护费用（含人员），再除以一台机柜一年能产生的Token数，得出均价。上面这些部分目前比较固定，虽然存储、CPU在涨价，但最敏感的变量在于一张卡每秒钟能输出多少Token。优化不好可能一秒钟只有六七十个，优化好可能到几百个，理想情况下甚至上千。最近美国那边有公司号称优化效率可达每秒1500-2000个Token。这是目前模型公司能做比较的重要事项。同样的卡，同样时间能产出1倍、2倍还是3倍的Token，差距非常大，这也是未来模型公司利润的来源。

租赁角度，成本会更贵，因为要给租赁公司一些利润。按目前定价和七五折折扣，每百万Token成本约2.6美元。但最近很缺卡，折扣肯定没有75%，租金还在往上走，目前可能已到3-4美元成本。这也解释了为什么规模更大的公司慢慢转向自己管理——如果去租，对单卡速度的优化很难自己把控，只有把底层、模型层、应用层结合在一起，才能发挥理论优化的上限。

决定成本最核心的是推理速度，即单位时间内用同样算力能输出多少高质量Token。不能只快但笨，还要满足客户满意度、保证留存。

接下来讨论价格。目前大模型定价比较公开。海外输入端约2-3美元/百万Token，输出端15-25美元。国内价格普遍是海外模型的1/3、1/5甚至1/10。平均单价不仅由刊例价格决定，还受输入输出比例、缓存命中率等因素影响。

从Chatbot时代到Agent时代，这些比例会变化。Chatbot时代，输入输出比约1:1或2:1，缓存命中率不高。Agent时代，输入Token变得非常大——每个Agent循环都有很长的思维链、循环、反思，还有查资料、写代码等，这些都算输入。而且Agent任务相对聚焦，缓存命中率会显著高于Chatbot。所以Agent时代Token消耗量可能是Chatbot时代的百倍千倍，但平均Token价格可能会往下掉一点。比如Token消耗量翻100倍，成本可能只涨70倍。但这不影响模型公司毛利，因为输入端成本本来就低。

Token价格是升还是降？两点比较确定：第一，同等智力水平一定越来越便宜——卡越来越好，计算和推理优化越来越完善。但同等智力没人用，大家都用更好的模型。第二，模型能力每年在提升，参数量从千亿到万亿再到十万亿，最好的大模型价格会往上走。海外已明确分层——同等智力变廉价，但模型设计水平越来越高，完成更有价值量的任务就应该更贵。海外平均价格可能企稳或往下走，但每隔一段时间都会有很贵的模型出来。

国内因素比较复杂。目前国内模型定价与海外差距很大，虽然成本也低很多（参数量小、推理优化好），但毛利显著低于海外模型。国产模型有较大提价空间——模型智力水平在提升，如智谱今年随模型能力提升尝试提价。但国内竞争环境更复杂，大厂（阿里、腾讯、小米等）和创业公司（六小龙中还有四家）加起来约10家模型厂商，提价空间存在但动作会比较纠结，要考虑友商和舆论等因素。

落实到经济模型分析。如果自建算力成本2美元，售价平均5-6美元，模型公司理论OP Margin可达60%。但目前全球没有人做到60%，大部分公司毛利率没到这个水平。目前模型公司利润被挤压——价格没到理想状态，下游硬件涨价传导到租赁、云一层层往上，模型利润空间并不可观。模型公司现在最赖以生存的是收入增长，大部分人不那么关注利润。但随着OpenAI真正上市，大家会开始拆报表看利润。以我们推算，模型公司几年内收入可翻50倍甚至几百倍，通过收入迅速增长拉动毛利、摊薄推理成本。

以上讨论都只在推理端。训练成本现在也很大——即使今年推理放量，训练成本还能占算力的一半。Pre-training往十万亿参数走，Post-training向更大对齐和RL方向走，训练成本每年至少40%增长。以模型公司规模商业化推算，可能到第五、第六年才能打正——毛利慢慢覆盖推理和训练成本。但未来比较乐观：一旦打正，如果收入还能保持较好增长，利润杠杆就能释放，一年挣的钱可能超过过去5-15年的资本开支。这也是大家对AI闭环有信心的原因。2023-2024年每年投千亿美金资本开支，但Chatbot市场满打满算几百亿美金，算不过来账。现在资本开支往万亿美金走，但至少看到了AI Coding和Agent有潜力达到万亿美金的锤炼市场，距离闭环越来越近。

价值分配链条：目前约40%利润被算力环节赚走，且还在挤压上下游。云和租赁层更多是传导，可赚一些溢价。模型公司目前肯定没有40%，如已上市的智谱毛利率约20%，净利润亏损。但随着优化水平提升、议价权增强、算力价格稳定收敛，利润杠杆就能体现，整个闭环就能形成。我们距离AI产业链商业化闭环越来越近，这也是今年上半年全球市场如此有信心的原因——硬件贡献短期巨额利润，模型层又让大家看到远期闭环希望。

今年上半年模型层面没有特别大的能力进步，更多是Agent框架闭环拉动ARR上升。下半年可能看到模型进步。我们对整个市场、整个行业非常乐观。今天下午港股大模型公司重新收获非常大涨幅。无论是算力、云基建、中间层租赁还是模型，都会处于向上趋势阶段。

以上是我主要汇报的内容。按照惯例，等一下在线问题，欢迎大家举手提问。

问答环节

问：Token per GPU这个数怎么得出的？

答：这个数很有弹性，可以是100，也可以是1000。我假设的1000是在充分优化情况下，再乘以30%-40%的优化率或有效Token数。最理想情况下可能到1000，目前可能是300-400。最后调节的是这个百分比。

问：Input和Output Token的比例？

答：Input会更多。现在都是PD分离，Prefilling更吃计算，Decoding更多是存储方面的排队。大家策略可能是Prefilling和Decoding用不同的卡。从Agent需求结构看，Prefilling占比会越来越大，Decoding占比小但要求更高。

问：智谱的算力供应商供应情况？

答：第一，还是很紧张，供不应求。公司在采取多种方式解决，市面上有各种传闻，但具体落地进度存在不确定性。国内整个卡供给比较缺，很多不是现货而是期货，可能只是框架协议。公司会尽最大努力扩容满足需求。目前买什么都要排队，供不应求的状态没有明显缓解。

问：降低推理成本的途径？

答：最直接是用更好的卡。同等卡的话有很多方法：打包做更稀疏、每次激活参数变小、PD分离做得更好、基础设施层面做工程化工作。硬件和模型算法层面都可以做很多。例如缓存命中方面，DS最新论文已把成本压到1/10甚至更低——通过压KV Cache、做分组、截断来降低成本。模型公司是有利润空间的，在保证不降质的情况下优化，还是挺有利润空间的。

今天的分享很精彩，最后几个问题都挺难的。如果大家没有进一步问题，欢迎通过销售渠道联系我们做进一步交流。本次电话会议到此结束，请大家继续关注中金计算机团队的后续报告，谢谢。

Token启示录系列：Agentic AI驱动放量，单位经济模型验证商业化20260513

作者AI财经

作者 AI财经