边缘推理20260528

📋 全文总结本文为关于边缘推理（Edge Inference）技术趋势与商业模式的专家访谈纪要。核心观点是： AI推理正从中心化部署加速向边缘化演进，边缘推理将成为AI基础设施的核心组成部分。以Anthropic与Akamai签署18亿美元、为期7年的边缘推理合同为标志性事件，行业趋势已非常明确—

全文总结

本文为关于边缘推理（Edge Inference）技术趋势与商业模式的专家访谈纪要。核心观点是：AI推理正从中心化部署加速向边缘化演进，边缘推理将成为AI基础设施的核心组成部分。以Anthropic与Akamai签署18亿美元、为期7年的边缘推理合同为标志性事件，行业趋势已非常明确——AI推理需求爆发式增长，中心化算力在成本、延迟、带宽、安全性等方面存在瓶颈，边缘部署成为必然选择。

边缘推理的核心优势： ①降低带宽消耗和网络延迟；②提高GPU利用率和调度灵活性；③利用更便宜的电力和网络资源；④支持数据本地化与合规要求。专家强调，训练必须在中心侧完成，但推理更适合边缘侧，未来将形成“端-边-云”一体化的三层架构。

技术路径方面：专家提出了“极端PD分离”方案——预填充（Prefill）阶段在边缘侧的中心节点完成，解码（Decode）阶段则分布到更靠近用户的廉价节点，仅需缓存（Cache）数据，大幅降低推理成本。MoE稀疏注意力机制、KV Cache优化等技术使得大模型在边缘部署变得可行，模型大小不再是瓶颈。

商业模式方面：边缘推理的计费模式将从传统的裸金属租赁转向按Token产出、TPS/TPM指标定价的“Token工厂”模式，类似CDN的内容分发演变为算力分发。边缘云在总体持有成本上优于中心云，利润空间更高。

竞争格局：全球看，Akamai、Cloudflare等CDN厂商凭借网络节点、安全能力和跨域运营经验占据先机；国内传统CDN厂商、云游戏平台等具备资源调度能力的玩家也有较大机会。运营商正转型为Token工厂，按产出和流量综合定价。

关键判断： ①推理已占AI总算力消耗的70%，且比例持续提升；②大模型公司不会再依赖单一云厂商，多云+边缘是必然选择；③边缘推理不是小模型的专属，大模型通过MoE和PD分离同样可以在边缘高效运行；④Agent、机器人、自动驾驶等低延迟场景将进一步推动边缘需求。

会议实录

主持人：这个云计算的合同，它并不是一个普通的CDN生意。目前我们看到，从原先大家以训练为中心，逐步转向以推理应用服务向诸多用户提供服务的推理云方案，已经得到了市场上的认可。这也是因为Anthropic的ARR（年化收入）增长非常惊人——从几千万美金到几亿美金，甚至到现在超过几十亿美金的规模。对大家来说，这确实是一个非常疯狂的算力需求。

Anthropic希望能够借助Akamai——它现在已经有比较多的靠近用户侧的、原先做CDN分发的机房，同时又有一套比较好的用户安全鉴别和安全网关技术（之前做云游戏或云应用共享时用于防拒绝攻击、防黑客的），他们认为把Akamai改造成一个做AI推理的基础设施供应商是可行的，大家也认为这件事很有价值。

原因很简单：做推理就跟原来大家看网络视频、或国内互联网分发短剧、广告等形态一样，需要更低的延迟，要更靠近用户。中心机房扛高并发是肯定扛不住的，必须走CDN分发的方式，做海量的分布式节点，才能实现推理节点的部署。原先Akamai做的就是专门做流媒体或视频分发的边缘网络，现在可以负责做类似Cloudflare的Token分发，这成为了一个行业逻辑上比较明确的迁移。

而且，背后也证明了Anthropic现在的整个需求增长速度远超原有的集中式算力中心的承载能力。Anthropic年化收入已接近300亿美元（30 billion），处于暴增状态，对API使用接口的需求也非常旺盛。大量企业正旺盛地需求它的整体代码结果，它也出了一系列搜索引擎和其他产品。

主持人：之前它用AWS，最近又把SpaceX的集群也拿下了，自己也买了很多服务器，需要超算形态的集群，还有CoreWeave的集群，也跟Google Cloud合作。这么多云，按传统行业来说应该绰绰有余，为什么还不够？显然它背后的算力需求是疯狂增长的。它需要考虑安全边际——既然已经有了这么好的商业模式生态，大家都在用，那么谁能更稳定地获得算力、电力、网络到用户侧的交付互联稳定性，再加上数据的安全性，谁就能获得更好的市场领先身位。模型本身大家都差不多，现在主要就是看用户体验，还有存储——大量用户侧的缓存数据，包括用户的使用习惯、之前问题的中间结果都得存下来。如果全都用传统的中心化存储，挑战和代价很大。用得多的地方存得多，用得少的地方存得少，用边缘分发的方式来做更有价值。

之前大家都认为可能只选一家云合作就够了，但现在可以看到，Anthropic选择的是多云策略——包括了Google、AWS、SpaceX、CoreWeave，还有最近的Akamai。可以认为，未来国际国内所有的基模公司，肯定不会只依赖单一云厂商。因为没有任何一家云厂商能拿到足够多的卡，没有一家云能单独满足需求。而且推理更讲究成本——到底要烧多少电、多少网。模型固化了，用户的中间结果存要花多少钱、离用户近不近、响应快不快、机器够不够便宜、网络互联带宽够不够高、延迟够不够低，成了最大的价值标杆。如果OpenAI深度绑定微软Azure，Anthropic绑定AWS，最终谁做分发就没有了。如果只有一家数据中心，模型全在那儿，就没法赚取更多超额利润。

相应地，Akamai成为了一家新的边缘计算云玩家，成为了很自然的AI推理节点。因为它有很多的接入点（PoP），更靠近用户，又有很强的网络互联能力，跨域能力也很好——比如Cloudflare在美国用得很好，到了欧洲、亚洲怎么让用户用得更快更好。而且除了标准的代码助手以外，大家也在做搜索引擎、视频类的AI生成内容，未来肯定需要更好的网络流量，在靠近用户侧生成再传输更方便。如果豆包推广告、短视频，没有CDN，全从中心机房整部整部地往外推，视频流量就爆炸了。大家都有很明确的方向——做复合型的AI Agent加AIGC。看视频卡个2到5秒，用户可能就关了。如果在欧洲用美洲的数据中心做推理，卡顿感和流量使用量也很有挑战。所以推理必须做边缘化，Akamai天然适合。再加上它原先做CDN，本身就有网、有存、有算的基础能力，完全适合把边缘AI直接往上部署。

而且大部分做CDN分发的厂商也都有安全网关，要防黑客攻击，正好适合现在做的Token路由。Token的聚合和资源调度——中心机房是一种做法，把很多机器放一起做集群；更多的是做资源调度，把东北、西南更靠近用户侧的机房调度起来，做Token的路由和聚合，给用户提供更快、更好、更低成本的响应。边缘基础设施对推理的价值在于：第一，降低Token吞吐中间消耗的带宽流量；第二，大幅优化推理调度的延迟；第三，可以更靠近用户侧的GPU，利用率效率也会有上升；第四，各地电价有差异，可以用更便宜地方的电做调度，用网络延迟可接受的地方做传递。这会影响到国外一些做边缘侧的厂商，比如Akamai、Cloudflare、Fastly等，它们可能会有价值重估。

主持人：接下来回到Anthropic这个订单。关于它算力部署的方式——在多长时间内、对多少个节点完成多少算力的部署，投资多少，多久现金流回本等商业模式，您是否了解？

专家：我们知道它总共签了一个7年的约定。具体交易细节目前是保密的，我没有好的途径直接获取，但能看到的确定信息是：这个订单应该在非常短的时间内至少要完成50%以上的部署。原因是Anthropic的ARR增长速度太匪夷所思了——它现在是有多少要多少。后续大概在一年半左右50%部署完毕，后面3到4年全部部署完，7年的长约，肯定是希望有一个稳定的供应。

主持人：大家很关心，Anthropic在5月初ARR可能已达440亿美金，还在不断外购算力——SpaceX、CoreWeave、Akamai。它跟Akamai签约，到底仅仅是算力不够，还是真正意义上因为边缘推理的优势（比如带宽、延迟）让它认为更省钱？未来是否只有增速快、算力紧缺的厂商需要，还是其他大模型厂商也会更看重边缘推理算力资源更丰富的厂商？

专家：云和边应该是共存的。训练肯定要在云上，需要极致的带宽和性能。但推理是让用户来用，最终需要用户买单，所以在运维、支持、调度等各方面肯定希望精细化管理，有更节省成本的表现。这是Akamai的强项，因为它原来做CDN，用更便宜的电和网、有质量保障、更安全的交互方式给大家提供视频分发，现在做Token分发。Anthropic除了用Nvidia的GPU，还外购了Cerebras、TPU等，就是为了减少整体投资成本，最终要向资本市场交一份盈利显著的答卷。我们认为边缘侧相比中心侧，在这个方向上有一定优势。

主持人：从推理的运营效率来讲，边缘侧比中心分发更具效率，成本也更容易降低。从需求端来看，低时延、高并发的场景（比如游戏、自动驾驶）有没有起来？

专家：分两块来看。先说中心化和边缘化部署的差异。中心化就是OpenAI绑微软Azure、谷歌用自己TPU、AWS有自己的超大规模集群。问题有两个：第一，显卡全是电老虎，网络得用超节点方式连，主要拿来做训练。到了推理，大家都希望一个卡拆成多个，用户用的时候才用，不用时恨不得电都关掉——电费太贵了。中心化部署最大好处是资源集聚速度快、调度管理有巨头帮忙；劣势是贵、运维成本高。

边缘侧就像Akamai这类做CDN的，有很多小机房，靠用户近，有足够的电和网，有安全的存储和网关，能提供更靠近用户侧的服务。还有一些AI PC、苹果设备等组成的网络，给别人提供Token输出业务。这种边缘节点规模比较小、不集中，但灵活，可以做高端、中端、便宜的，选择性更高。

中心侧做超大的集群合适，训练时1万张卡一起跑没问题。但推理时不可能用边缘的一堆显卡去干训练的活——网络断了训练就断了，完全不可能。训练一定是中心的，有了更好的模型才能让用户买单。但推理的好处是离用户近。如果在日本用美国的数据中心做推理，一个提问回答，光裸光纤的延迟可能就超过200毫秒。做语音类、智慧助手类的，你手机上问句话，过两秒才回答，那就不是智能助手，变成“智障”了。所以AI推理的Token流很重要，一定是需要网络的，边缘侧最大的优势就是网络条件和网络成本。

另外，推理业务是时时刻刻在世界各地发生的。数据中心最怕的是SLA运维故障——比如光缆被挖断，导致大面积服务中断。而且大模型有区域性热点，某个地方发生事情，所有人都往一个地方问问题。如果只在一个地方建集群，会有很大的带宽浪费，有时差就会有浪费。所以边缘侧和中心侧应该是共存共生的：中心干训练，边缘干更对用户友好的推理。前提是边缘网络足够安全，像Akamai这样有完整的安全网关保证。

未来是Multi-Agent时代，可能今天连A家的模型，明天连B家的模型，同一时间好几个Agent陪你一起干活，边缘侧更有效率，因为它可以连接更多各家的模型。如果所有用户都得从微软的云去调用模型，就丧失议价权了。当然边缘侧也有坏处：第一，按需灵活调用，GPU不能选最顶端的二三十千瓦的超算服务器，要选推理更好的“甜点卡”，比如最近比较火的LPU、TPU等；第二，新进厂商如果没有做过边缘，跨域节点要适合各地法律法规、不同ISP的条款和服务条件，挑战很大，很难在现有边缘网络上新增能力。所以边缘有边缘云、中心有中心云，各有特长。

大模型目前还是比较大——DeepSeek V4版本超过1000GB。模型更新如果每天发版会有很大挑战，因为分发占流量。但模型不会每天都更新，未来大模型的分发可能就跟视频分发一样，要谈打包价格，网络占得多的厂商更占便宜。边缘厂商不可能去布B200、B300这类特别贵的服务器，万一有超大型模型要做推理，边缘侧会很有压力。但这利好另一类芯片——LPU、GPU，又省电又能跑大模型，价格又没有那么高。未来边缘和云不可能是完全独立的，肯定是既有云又有边，还有手机、电脑等各种AI随身设备，跟现在的网络结构一样，叫端边云一体化。

长期趋势来看，推理已经占到70%的市场份额，明年将近80%。未来除了头部几个巨头做基模升级，其他各家基本都来引流了。除了聊天、编程，未来还有机器人、具身智能、世界模型，边缘侧的机会更大，因为要求更低的延迟、更快的响应。家里的机器人不可能带一个几千瓦的显卡，它会借助网络，通过边缘侧的推理算力提供更好的反馈执行能力，类似现在的车联网和自动驾驶。车上已有很好的智能，但跑L4与周边环境做协同还比较挑战。如果有边缘云的方式，超低延迟、算力比车强、网络价格足够便宜，肯定比在车上装超级电脑更有性价比。

之前大家都只拼算力（Flops），现在讲的是调度。国内有好几家将上市的算力调度公司，本质上是解决资源不均衡的问题。化整为零、由网络拓扑加分发加缓存加安全管理来决定，这也是更靠近电厂的算力中心更被用户青睐的原因——直接更便宜、损耗更小。边缘云未来在这块有很好的生态表现，但不能替代中心。

主持人：未来边缘推理这个赛道，CDN厂商有优势，其他家（传统云大厂、国内运营商）也有很多基站分布的优势。从竞争格局角度，您觉得市场会怎样？有优势的玩家有哪些？

专家：边缘侧的AI，卖的核心已经不是显卡算力，而是离用户更近、反应更快、成本更低、更稳定，实时体验更好。就跟原来卖视频一样——大家看视频希望点开就能看，所以CDN分发才有市场。未来Token就跟现在看视频一样，会成为必需品。对于用户来说，看谁的网络节点更有价格优势和稳定性优势。

国内运营商现在开始做“Token工厂”了，不再按裸金属方式把机器销售或租赁给用户，而是按能产出的Token数以及出口的综合流量来计费，有些地方甚至推出了TPS+TPM的指标。因为国内像豆包，日活可能是57万亿，希望有更多节点来对用户提供响应模式。我们认为AI CDN这种边缘侧的AI云，价值链更高。用户的用户遍及各地，对监管条例、地方法规、当地运维情况，大部分中心云厂商很难具备能力——它们基本都是做一个大的数据中心，全自持，对外分发。商业模式上能支持按Token存储、按缓存命中率来计费。大家都知道未来要存用户的中间结果，Anthropic也说了，靠这个才能把成本省到原来的1/20。谁能有更好的SLA表现、更快更便宜的缓存命中率、更稳健的每个节点的Token存储，谁就有价值。

边缘侧业务会有很大的价值表现。这里更强调数据本地化，所以存储一直在暴涨，不管是KV缓存的增长还是推理时多Agent的缓存聚合命中，都需要机房里有大量空间把用户数据存下来。如果全放中心机房，DSS中心化存储成本非常昂贵、涨价也很厉害。未来AI要进入家家户户，手机是AI、机器人是AI，所以边缘侧机会非常大。

关于玩家：Akamai、Cloudflare肯定算，国外这些是主要玩家。国内的话，传统的CDN厂商以及之前运维云游戏的厂商，我们认为有很大机会——因为云游戏本身要借助显卡实现，它们有很好的资源调度均衡和响应能力，从云游戏切入到边缘云的AI应该有很好的切入能力。

主持人：像Anthropic这种做推理的，开始做边缘推理，未来下一步会是端侧AI吗？

专家： Anthropic做不了端侧AI——它的模型单个规模超过1400GB，不可能做端侧。但它在推搜索助手，希望在手机侧有自己的流量节点，它会做。目前阶段没有看到它做端侧AI的趋势，它应该还会关注目前比较赚钱的业务板块。它会拓展搜索助手这类聚合能力，也会推Agent方案，但现阶段直接进入端侧市场做小规模模型，我们没有看到。

主持人：模型在边缘计算里是如何部署的？比如上海有10个边缘节点，每个节点都放完整的大模型吗？比如DeepSeek V4那种1.6T的模型？

专家：模型分两种——集中式的高密度大模型。但DeepSeek V4虽然1.6T，每轮调用的专家数只有1/32（256个专家里挑8个），而且分了多层，对存储的需求并没有那么高，但需要有地方放得下。模型更新有问题，但不会每天都更新，所以模型本身的载体不是问题。

边缘推理不一定是小模型。MoE稀疏注意力机制最近有论文表现，能把中间缓存省到原来的1/7甚至1/10。延迟变低后，很多人愿意多问，就像豆包一样天天提问。部署不是问题。不要只看GPU，要看新的推理形态——LPU（比如被英伟达200亿美金收购的Groq）、TPU，以及正在做存算一体方案的，功耗更低、延迟更低，专门做大模型推理加速，不干训练，整体持有成本和部署灵活度更高。市场明确有需求，现在根本不够，家家户户的卡都被买断了。未来推理会有专用的硬件形态来满足需求。边缘侧服务器里装什么不关键，关键是网络和分发能力，这会有更大的价值。

主持人：模型的权重整体还是放在边缘侧的吧？

专家：有两种做法。模型有微调（LoRA），就是在原大模型上挂外挂。一个认知是：中心有个模型，边缘侧有个小模型外挂，只要网络稳定性足够高，后面所有推理在本地就可以用稀疏专家进行。未来可能变成：预填充（Prefill）阶段看全科，由中心或边缘侧的高端节点处理；而解码（Decode）阶段和Prefill-Decode衔接阶段，全放在更便宜的边缘侧机房，拆开后再挂上不同形态的微调节点，这样模型质量和成本就有更好的均衡。PD分离就是未来大模型分离方案泛化的路径。

专家：不一定非要边缘侧放那么大的模型，很可能是端侧和云侧结合。因为MoE Sparse Attention很流行，只要记忆体专家在本地，大模型第一轮看全科的专家在中心，然后把中间词典（模型Tokenizer的分词表）拆分放到更靠近用户侧，再用安全加密方式保证不会被用户拿去蒸馏，这完全做得到。国内蒸馏国外模型的情况很多，这个形态肯定会持续存在。

主持人：边缘推理的商业模式，是头部大厂像Anthropic和Akamai这种签约式为主，还是按Token流量分成为主？

专家：取决于基模厂商的判断。如果它希望有人一起建、不用自己全投基础建造成本，分成的方案会更可行。如果非要做成垂直的、像谷歌的做法，按Token的方式可能更有可能——就像实际产出一样。另一种是一次性买断：机器的TPM/TPS有多少，按这个价格，一年在保证SLA的情况下一次性付清。

主持人：亚马逊通过Token分成模式在最新季度取得了很高利润率，领先于谷歌和微软云。未来是否大家都会想做Token工厂模式？供应方一卷，Token价格可能下降。边缘端Token价格和中心端推理有什么差异？

专家：边缘云未来还是有很大价值。第一，在总体持有成本上，边缘肯定比中心更便宜、更有效。第二，Akamai不在中国，中国肯定也会有别的厂商来承接这种业务形态。端边云一体化已经是比较明确的趋势。国外有些做全屋光伏储能的厂商，现在在做新的商业模式——给用户铺全屋光伏后，在用户家墙上挂一个白盒子，里面是自己自持的计算设备，如果有人用了这个机器上的算力，还会返钱给用户。这个模式在国外能走通，在国内只要合规，应该也有很大的价值和机会。网络的便利性很重要，从内容分发变成算力分发，这个价格从利润上来说，肯定比中心侧更高。中心侧还有存量的成本——之前昂贵的训练卡的维持和电力成本比较高。边缘侧整体上有一定优势，但也不绝对，取决于和国内ISP的协同。

主持人（问答环节）：看到Anthropic投Akamai的订单，体量跟它自有的数据中心比并不大，还分7年。是不是因为短期主流To B业务是编程，编程对流量带宽的稀缺性不高？这会不会只是它算力规划版图中小小的一块布局？

专家：首先，它跟Akamai签了18亿美金的合同，7年交付，一年半内要完成将近50%的交付，后面3年左右全部做完，再运维3年。需求是比较明确的。Akamai是全球运营的，主要做安全加CDN。安全很重要，因为做边缘AI，核心就是网络延迟、用户体验和安全性。如果所有数据存回中心做业务，挑战很高。Akamai下个月将终止中国服务，会有人接它的服务。我们认为边缘侧是看好的。要说对现在营收有没有决定性作用，肯定没有——它已经卖那么多了。它的布局是为了未来考虑。

编程业务大家以为只是出代码，但未来的编程不只是出代码。除了Canvas，还有大量的程序包需要直接生成、直接部署、直接应用，它要做Agent。未来是Multi-Agent的协同规划、连续持续化编程。流量还真不小，相当可观。

主持人：如果边缘侧更多是存一些Markdown类似的文件，记忆用户需求，加上Cache（解码部分的Cache全部放在边缘侧，中心做Prefill），就是极端的PD分离了。但会有传输问题吗？中心做输入、终端做输出，中间不是还有大量数据传输吗？

专家：边缘云可以有自己更靠近用户侧的中心，里面部署了B200、B300这样的服务器。第一轮Prefill时，生成后面若干层需要的Cache，直接持久化到边缘云侧的Cache区，放在边缘的小算力节点。后面的Decode阶段，每一次的Cache增长全都在Decode机器里，不需要到Prefill侧，根本不需要。PD分离已经是标准范式，只是现在更极端地推广到更靠近用户的地方。 Prefill在边缘侧的一个节点（不是骨干网中心），Decode全都在更廉价、网络条件更好、存储更便宜、电费更便宜、更靠近用户的节点——只要存Cache就够了。这时最大的挑战是安全问题——如果没有安全技术，会有大规模用户数据泄露和非隔离的风险。但做边缘云的人最好的能力恰恰在安全，因为边缘云的网络条件、用户身份、互联情况都不稳定，他们之前做了大量这方面工作，比中心的人做得更扎实。中心万一被攻破就全完蛋，边缘侧天天被攻击但攻不破，质量更有保障。

主持人：现在输出价格比输入价格贵的根本原因是Decode不能并行，不像Prefill那样用户并行。如果按这种模式，未来输出和输入价格能否拉平？

专家：目前不做评判。但可以看Groq V4的KV Cache节省，它也是PD分离的方案，后面需要的算力资源可以作为参考。另外，V4有一个记忆体专家叫Ingram，没有在公告中发布。这个专家相当于在训练阶段就把“小抄”做在里面，可以直接分发给所有推理节点，存在那儿，每5层调一次。在编程任务上能涨点将近13个点，准确性幻觉度上都有很好的提升。论文里已经写了。

主持人：总结来看，我们坚定看好未来边缘推理。从需求上和运营效率上，它相对于中心化部署有优势。同样看好拥有全球化资源禀赋和网络安全能力较强的厂商，比如CDN厂商，它们未来有机会充分受益。以上就是今晚的专家会内容，感谢专家和各位领导的聆听。

边缘推理20260528

作者AI财经

作者 AI财经