📋 全文总结 本文为关于边缘推理(Edge Inference)技术趋势与商业模式的专家访谈纪要。核心观点是: AI推理正从中心化部署加速向边缘化演进,边缘推理将成为AI基础设施的核心组成部分。 以Anthropic与Akamai签署18亿美元、为期7年的边缘推理合同为标志性事件,行业趋势已非常明确—
全文总结
本文为关于边缘推理(Edge Inference)技术趋势与商业模式的专家访谈纪要。核心观点是:AI推理正从中心化部署加速向边缘化演进,边缘推理将成为AI基础设施的核心组成部分。 以Anthropic与Akamai签署18亿美元、为期7年的边缘推理合同为标志性事件,行业趋势已非常明确——AI推理需求爆发式增长,中心化算力在成本、延迟、带宽、安全性等方面存在瓶颈,边缘部署成为必然选择。
边缘推理的核心优势: ①降低带宽消耗和网络延迟;②提高GPU利用率和调度灵活性;③利用更便宜的电力和网络资源;④支持数据本地化与合规要求。专家强调,训练必须在中心侧完成,但推理更适合边缘侧,未来将形成“端-边-云”一体化的三层架构。
技术路径方面: 专家提出了“极端PD分离”方案——预填充(Prefill)阶段在边缘侧的中心节点完成,解码(Decode)阶段则分布到更靠近用户的廉价节点,仅需缓存(Cache)数据,大幅降低推理成本。MoE稀疏注意力机制、KV Cache优化等技术使得大模型在边缘部署变得可行,模型大小不再是瓶颈。
商业模式方面: 边缘推理的计费模式将从传统的裸金属租赁转向按Token产出、TPS/TPM指标定价的“Token工厂”模式,类似CDN的内容分发演变为算力分发。边缘云在总体持有成本上优于中心云,利润空间更高。
竞争格局: 全球看,Akamai、Cloudflare等CDN厂商凭借网络节点、安全能力和跨域运营经验占据先机;国内传统CDN厂商、云游戏平台等具备资源调度能力的玩家也有较大机会。运营商正转型为Token工厂,按产出和流量综合定价。
关键判断: ①推理已占AI总算力消耗的70%,且比例持续提升;②大模型公司不会再依赖单一云厂商,多云+边缘是必然选择;③边缘推理不是小模型的专属,大模型通过MoE和PD分离同样可以在边缘高效运行;④Agent、机器人、自动驾驶等低延迟场景将进一步推动边缘需求。
会议实录
主持人: 这个云计算的合同,它并不是一个普通的CDN生意。目前我们看到,从原先大家以训练为中心,逐步转向以推理应用服务向诸多用户提供服务的推理云方案,已经得到了市场上的认可。这也是因为Anthropic的ARR(年化收入)增长非常惊人——从几千万美金到几亿美金,甚至到现在超过几十亿美金的规模。对大家来说,这确实是一个非常疯狂的算力需求。
Anthropic希望能够借助Akamai——它现在已经有比较多的靠近用户侧的、原先做CDN分发的机房,同时又有一套比较好的用户安全鉴别和安全网关技术(之前做云游戏或云应用共享时用于防拒绝攻击、防黑客的),他们认为把Akamai改造成一个做AI推理的基础设施供应商是可行的,大家也认为这件事很有价值。
原因很简单:做推理就跟原来大家看网络视频、或国内互联网分发短剧、广告等形态一样,需要更低的延迟,要更靠近用户。中心机房扛高并发是肯定扛不住的,必须走CDN分发的方式,做海量的分布式节点,才能实现推理节点的部署。原先Akamai做的就是专门做流媒体或视频分发的边缘网络,现在可以负责做类似Cloudflare的Token分发,这成为了一个行业逻辑上比较明确的迁移。
而且,背后也证明了Anthropic现在的整个需求增长速度远超原有的集中式算力中心的承载能力。Anthropic年化收入已接近300亿美元(30 billion),处于暴增状态,对API使用接口的需求也非常旺盛。大量企业正旺盛地需求它的整体代码结果,它也出了一系列搜索引擎和其他产品。
主持人: 之前它用AWS,最近又把SpaceX的集群也拿下了,自己也买了很多服务器,需要超算形态的集群,还有CoreWeave的集群,也跟Google Cloud合作。这么多云,按传统行业来说应该绰绰有余,为什么还不够?显然它背后的算力需求是疯狂增长的。它需要考虑安全边际——既然已经有了这么好的商业模式生态,大家都在用,那么谁能更稳定地获得算力、电力、网络到用户侧的交付互联稳定性,再加上数据的安全性,谁就能获得更好的市场领先身位。模型本身大家都差不多,现在主要就是看用户体验,还有存储——大量用户侧的缓存数据,包括用户的使用习惯、之前问题的中间结果都得存下来。如果全都用传统的中心化存储,挑战和代价很大。用得多的地方存得多,用得少的地方存得少,用边缘分发的方式来做更有价值。
之前大家都认为可能只选一家云合作就够了,但现在可以看到,Anthropic选择的是多云策略——包括了Google、AWS、SpaceX、CoreWeave,还有最近的Akamai。可以认为,未来国际国内所有的基模公司,肯定不会只依赖单一云厂商。因为没有任何一家云厂商能拿到足够多的卡,没有一家云能单独满足需求。而且推理更讲究成本——到底要烧多少电、多少网。模型固化了,用户的中间结果存要花多少钱、离用户近不近、响应快不快、机器够不够便宜、网络互联带宽够不够高、延迟够不够低,成了最大的价值标杆。如果OpenAI深度绑定微软Azure,Anthropic绑定AWS,最终谁做分发就没有了。如果只有一家数据中心,模型全在那儿,就没法赚取更多超额利润。
相应地,Akamai成为了一家新的边缘计算云玩家,成为了很自然的AI推理节点。因为它有很多的接入点(PoP),更靠近用户,又有很强的网络互联能力,跨域能力也很好——比如Cloudflare在美国用得很好,到了欧洲、亚洲怎么让用户用得更快更好。而且除了标准的代码助手以外,大家也在做搜索引擎、视频类的AI生成内容,未来肯定需要更好的网络流量,在靠近用户侧生成再传输更方便。如果豆包推广告、短视频,没有CDN,全从中心机房整部整部地往外推,视频流量就爆炸了。大家都有很明确的方向——做复合型的AI Agent加AIGC。看视频卡个2到5秒,用户可能就关了。如果在欧洲用美洲的数据中心做推理,卡顿感和流量使用量也很有挑战。所以推理必须做边缘化,Akamai天然适合。再加上它原先做CDN,本身就有网、有存、有算的基础能力,完全适合把边缘AI直接往上部署。
而且大部分做CDN分发的厂商也都有安全网关,要防黑客攻击,正好适合现在做的Token路由。Token的聚合和资源调度——中心机房是一种做法,把很多机器放一起做集群;更多的是做资源调度,把东北、西南更靠近用户侧的机房调度起来,做Token的路由和聚合,给用户提供更快、更好、更低成本的响应。边缘基础设施对推理的价值在于:第一,降低Token吞吐中间消耗的带宽流量;第二,大幅优化推理调度的延迟;第三,可以更靠近用户侧的GPU,利用率效率也会有上升;第四,各地电价有差异,可以用更便宜地方的电做调度,用网络延迟可接受的地方做传递。这会影响到国外一些做边缘侧的厂商,比如Akamai、Cloudflare、Fastly等,它们可能会有价值重估。
主持人: 接下来回到Anthropic这个订单。关于它算力部署的方式——在多长时间内、对多少个节点完成多少算力的部署,投资多少,多久现金流回本等商业模式,您是否了解?
专家: 我们知道它总共签了一个7年的约定。具体交易细节目前是保密的,我没有好的途径直接获取,但能看到的确定信息是:这个订单应该在非常短的时间内至少要完成50%以上的部署。 原因是Anthropic的ARR增长速度太匪夷所思了——它现在是有多少要多少。后续大概在一年半左右50%部署完毕,后面3到4年全部部署完,7年的长约,肯定是希望有一个稳定的供应。
主持人: 大家很关心,Anthropic在5月初ARR可能已达440亿美金,还在不断外购算力——SpaceX、CoreWeave、Akamai。它跟Akamai签约,到底仅仅是算力不够,还是真正意义上因为边缘推理的优势(比如带宽、延迟)让它认为更省钱?未来是否只有增速快、算力紧缺的厂商需要,还是其他大模型厂商也会更看重边缘推理算力资源更丰富的厂商?
专家: 云和边应该是共存的。训练肯定要在云上,需要极致的带宽和性能。但推理是让用户来用,最终需要用户买单,所以在运维、支持、调度等各方面肯定希望精细化管理,有更节省成本的表现。这是Akamai的强项,因为它原来做CDN,用更便宜的电和网、有质量保障、更安全的交互方式给大家提供视频分发,现在做Token分发。Anthropic除了用Nvidia的GPU,还外购了Cerebras、TPU等,就是为了减少整体投资成本,最终要向资本市场交一份盈利显著的答卷。我们认为边缘侧相比中心侧,在这个方向上有一定优势。
主持人: 从推理的运营效率来讲,边缘侧比中心分发更具效率,成本也更容易降低。从需求端来看,低时延、高并发的场景(比如游戏、自动驾驶)有没有起来?
专家: 分两块来看。先说中心化和边缘化部署的差异。中心化就是OpenAI绑微软Azure、谷歌用自己TPU、AWS有自己的超大规模集群。问题有两个:第一,显卡全是电老虎,网络得用超节点方式连,主要拿来做训练。到了推理,大家都希望一个卡拆成多个,用户用的时候才用,不用时恨不得电都关掉——电费太贵了。中心化部署最大好处是资源集聚速度快、调度管理有巨头帮忙;劣势是贵、运维成本高。
边缘侧就像Akamai这类做CDN的,有很多小机房,靠用户近,有足够的电和网,有安全的存储和网关,能提供更靠近用户侧的服务。还有一些AI PC、苹果设备等组成的网络,给别人提供Token输出业务。这种边缘节点规模比较小、不集中,但灵活,可以做高端、中端、便宜的,选择性更高。
中心侧做超大的集群合适,训练时1万张卡一起跑没问题。但推理时不可能用边缘的一堆显卡去干训练的活——网络断了训练就断了,完全不可能。训练一定是中心的,有了更好的模型才能让用户买单。但推理的好处是离用户近。如果在日本用美国的数据中心做推理,一个提问回答,光裸光纤的延迟可能就超过200毫秒。做语音类、智慧助手类的,你手机上问句话,过两秒才回答,那就不是智能助手,变成“智障”了。所以AI推理的Token流很重要,一定是需要网络的,边缘侧最大的优势就是网络条件和网络成本。
另外,推理业务是时时刻刻在世界各地发生的。数据中心最怕的是SLA运维故障——比如光缆被挖断,导致大面积服务中断。而且大模型有区域性热点,某个地方发生事情,所有人都往一个地方问问题。如果只在一个地方建集群,会有很大的带宽浪费,有时差就会有浪费。所以边缘侧和中心侧应该是共存共生的:中心干训练,边缘干更对用户友好的推理。前提是边缘网络足够安全,像Akamai这样有完整的安全网关保证。
未来是Multi-Agent时代,可能今天连A家的模型,明天连B家的模型,同一时间好几个Agent陪你一起干活,边缘侧更有效率,因为它可以连接更多各家的模型。如果所有用户都得从微软的云去调用模型,就丧失议价权了。当然边缘侧也有坏处:第一,按需灵活调用,GPU不能选最顶端的二三十千瓦的超算服务器,要选推理更好的“甜点卡”,比如最近比较火的LPU、TPU等;第二,新进厂商如果没有做过边缘,跨域节点要适合各地法律法规、不同ISP的条款和服务条件,挑战很大,很难在现有边缘网络上新增能力。所以边缘有边缘云、中心有中心云,各有特长。
大模型目前还是比较大——DeepSeek V4版本超过1000GB。模型更新如果每天发版会有很大挑战,因为分发占流量。但模型不会每天都更新,未来大模型的分发可能就跟视频分发一样,要谈打包价格,网络占得多的厂商更占便宜。边缘厂商不可能去布B200、B300这类特别贵的服务器,万一有超大型模型要做推理,边缘侧会很有压力。但这利好另一类芯片——LPU、GPU,又省电又能跑大模型,价格又没有那么高。未来边缘和云不可能是完全独立的,肯定是既有云又有边,还有手机、电脑等各种AI随身设备,跟现在的网络结构一样,叫端边云一体化。
长期趋势来看,推理已经占到70%的市场份额,明年将近80%。未来除了头部几个巨头做基模升级,其他各家基本都来引流了。除了聊天、编程,未来还有机器人、具身智能、世界模型,边缘侧的机会更大,因为要求更低的延迟、更快的响应。家里的机器人不可能带一个几千瓦的显卡,它会借助网络,通过边缘侧的推理算力提供更好的反馈执行能力,类似现在的车联网和自动驾驶。车上已有很好的智能,但跑L4与周边环境做协同还比较挑战。如果有边缘云的方式,超低延迟、算力比车强、网络价格足够便宜,肯定比在车上装超级电脑更有性价比。
之前大家都只拼算力(Flops),现在讲的是调度。国内有好几家将上市的算力调度公司,本质上是解决资源不均衡的问题。化整为零、由网络拓扑加分发加缓存加安全管理来决定,这也是更靠近电厂的算力中心更被用户青睐的原因——直接更便宜、损耗更小。边缘云未来在这块有很好的生态表现,但不能替代中心。
主持人: 未来边缘推理这个赛道,CDN厂商有优势,其他家(传统云大厂、国内运营商)也有很多基站分布的优势。从竞争格局角度,您觉得市场会怎样?有优势的玩家有哪些?
专家: 边缘侧的AI,卖的核心已经不是显卡算力,而是离用户更近、反应更快、成本更低、更稳定,实时体验更好。就跟原来卖视频一样——大家看视频希望点开就能看,所以CDN分发才有市场。未来Token就跟现在看视频一样,会成为必需品。对于用户来说,看谁的网络节点更有价格优势和稳定性优势。
国内运营商现在开始做“Token工厂”了,不再按裸金属方式把机器销售或租赁给用户,而是按能产出的Token数以及出口的综合流量来计费,有些地方甚至推出了TPS+TPM的指标。因为国内像豆包,日活可能是57万亿,希望有更多节点来对用户提供响应模式。我们认为AI CDN这种边缘侧的AI云,价值链更高。用户的用户遍及各地,对监管条例、地方法规、当地运维情况,大部分中心云厂商很难具备能力——它们基本都是做一个大的数据中心,全自持,对外分发。商业模式上能支持按Token存储、按缓存命中率来计费。大家都知道未来要存用户的中间结果,Anthropic也说了,靠这个才能把成本省到原来的1/20。谁能有更好的SLA表现、更快更便宜的缓存命中率、更稳健的每个节点的Token存储,谁就有价值。
边缘侧业务会有很大的价值表现。这里更强调数据本地化,所以存储一直在暴涨,不管是KV缓存的增长还是推理时多Agent的缓存聚合命中,都需要机房里有大量空间把用户数据存下来。如果全放中心机房,DSS中心化存储成本非常昂贵、涨价也很厉害。未来AI要进入家家户户,手机是AI、机器人是AI,所以边缘侧机会非常大。
关于玩家:Akamai、Cloudflare肯定算,国外这些是主要玩家。国内的话,传统的CDN厂商以及之前运维云游戏的厂商,我们认为有很大机会——因为云游戏本身要借助显卡实现,它们有很好的资源调度均衡和响应能力,从云游戏切入到边缘云的AI应该有很好的切入能力。
主持人: 像Anthropic这种做推理的,开始做边缘推理,未来下一步会是端侧AI吗?
专家: Anthropic做不了端侧AI——它的模型单个规模超过1400GB,不可能做端侧。但它在推搜索助手,希望在手机侧有自己的流量节点,它会做。目前阶段没有看到它做端侧AI的趋势,它应该还会关注目前比较赚钱的业务板块。它会拓展搜索助手这类聚合能力,也会推Agent方案,但现阶段直接进入端侧市场做小规模模型,我们没有看到。
主持人: 模型在边缘计算里是如何部署的?比如上海有10个边缘节点,每个节点都放完整的大模型吗?比如DeepSeek V4那种1.6T的模型?
专家: 模型分两种——集中式的高密度大模型。但DeepSeek V4虽然1.6T,每轮调用的专家数只有1/32(256个专家里挑8个),而且分了多层,对存储的需求并没有那么高,但需要有地方放得下。模型更新有问题,但不会每天都更新,所以模型本身的载体不是问题。
边缘推理不一定是小模型。MoE稀疏注意力机制最近有论文表现,能把中间缓存省到原来的1/7甚至1/10。延迟变低后,很多人愿意多问,就像豆包一样天天提问。部署不是问题。不要只看GPU,要看新的推理形态——LPU(比如被英伟达200亿美金收购的Groq)、TPU,以及正在做存算一体方案的,功耗更低、延迟更低,专门做大模型推理加速,不干训练,整体持有成本和部署灵活度更高。市场明确有需求,现在根本不够,家家户户的卡都被买断了。未来推理会有专用的硬件形态来满足需求。边缘侧服务器里装什么不关键,关键是网络和分发能力,这会有更大的价值。
主持人: 模型的权重整体还是放在边缘侧的吧?
专家: 有两种做法。模型有微调(LoRA),就是在原大模型上挂外挂。一个认知是:中心有个模型,边缘侧有个小模型外挂,只要网络稳定性足够高,后面所有推理在本地就可以用稀疏专家进行。未来可能变成:预填充(Prefill)阶段看全科,由中心或边缘侧的高端节点处理;而解码(Decode)阶段和Prefill-Decode衔接阶段,全放在更便宜的边缘侧机房,拆开后再挂上不同形态的微调节点,这样模型质量和成本就有更好的均衡。PD分离就是未来大模型分离方案泛化的路径。
专家: 不一定非要边缘侧放那么大的模型,很可能是端侧和云侧结合。因为MoE Sparse Attention很流行,只要记忆体专家在本地,大模型第一轮看全科的专家在中心,然后把中间词典(模型Tokenizer的分词表)拆分放到更靠近用户侧,再用安全加密方式保证不会被用户拿去蒸馏,这完全做得到。国内蒸馏国外模型的情况很多,这个形态肯定会持续存在。
主持人: 边缘推理的商业模式,是头部大厂像Anthropic和Akamai这种签约式为主,还是按Token流量分成为主?
专家: 取决于基模厂商的判断。如果它希望有人一起建、不用自己全投基础建造成本,分成的方案会更可行。如果非要做成垂直的、像谷歌的做法,按Token的方式可能更有可能——就像实际产出一样。另一种是一次性买断:机器的TPM/TPS有多少,按这个价格,一年在保证SLA的情况下一次性付清。
主持人: 亚马逊通过Token分成模式在最新季度取得了很高利润率,领先于谷歌和微软云。未来是否大家都会想做Token工厂模式?供应方一卷,Token价格可能下降。边缘端Token价格和中心端推理有什么差异?
专家: 边缘云未来还是有很大价值。第一,在总体持有成本上,边缘肯定比中心更便宜、更有效。第二,Akamai不在中国,中国肯定也会有别的厂商来承接这种业务形态。端边云一体化已经是比较明确的趋势。国外有些做全屋光伏储能的厂商,现在在做新的商业模式——给用户铺全屋光伏后,在用户家墙上挂一个白盒子,里面是自己自持的计算设备,如果有人用了这个机器上的算力,还会返钱给用户。这个模式在国外能走通,在国内只要合规,应该也有很大的价值和机会。网络的便利性很重要,从内容分发变成算力分发,这个价格从利润上来说,肯定比中心侧更高。 中心侧还有存量的成本——之前昂贵的训练卡的维持和电力成本比较高。边缘侧整体上有一定优势,但也不绝对,取决于和国内ISP的协同。
主持人(问答环节): 看到Anthropic投Akamai的订单,体量跟它自有的数据中心比并不大,还分7年。是不是因为短期主流To B业务是编程,编程对流量带宽的稀缺性不高?这会不会只是它算力规划版图中小小的一块布局?
专家: 首先,它跟Akamai签了18亿美金的合同,7年交付,一年半内要完成将近50%的交付,后面3年左右全部做完,再运维3年。需求是比较明确的。Akamai是全球运营的,主要做安全加CDN。安全很重要,因为做边缘AI,核心就是网络延迟、用户体验和安全性。如果所有数据存回中心做业务,挑战很高。Akamai下个月将终止中国服务,会有人接它的服务。我们认为边缘侧是看好的。要说对现在营收有没有决定性作用,肯定没有——它已经卖那么多了。它的布局是为了未来考虑。
编程业务大家以为只是出代码,但未来的编程不只是出代码。除了Canvas,还有大量的程序包需要直接生成、直接部署、直接应用,它要做Agent。未来是Multi-Agent的协同规划、连续持续化编程。流量还真不小,相当可观。
主持人: 如果边缘侧更多是存一些Markdown类似的文件,记忆用户需求,加上Cache(解码部分的Cache全部放在边缘侧,中心做Prefill),就是极端的PD分离了。但会有传输问题吗?中心做输入、终端做输出,中间不是还有大量数据传输吗?
专家: 边缘云可以有自己更靠近用户侧的中心,里面部署了B200、B300这样的服务器。第一轮Prefill时,生成后面若干层需要的Cache,直接持久化到边缘云侧的Cache区,放在边缘的小算力节点。后面的Decode阶段,每一次的Cache增长全都在Decode机器里,不需要到Prefill侧,根本不需要。PD分离已经是标准范式,只是现在更极端地推广到更靠近用户的地方。 Prefill在边缘侧的一个节点(不是骨干网中心),Decode全都在更廉价、网络条件更好、存储更便宜、电费更便宜、更靠近用户的节点——只要存Cache就够了。这时最大的挑战是安全问题——如果没有安全技术,会有大规模用户数据泄露和非隔离的风险。但做边缘云的人最好的能力恰恰在安全,因为边缘云的网络条件、用户身份、互联情况都不稳定,他们之前做了大量这方面工作,比中心的人做得更扎实。中心万一被攻破就全完蛋,边缘侧天天被攻击但攻不破,质量更有保障。
主持人: 现在输出价格比输入价格贵的根本原因是Decode不能并行,不像Prefill那样用户并行。如果按这种模式,未来输出和输入价格能否拉平?
专家: 目前不做评判。但可以看Groq V4的KV Cache节省,它也是PD分离的方案,后面需要的算力资源可以作为参考。另外,V4有一个记忆体专家叫Ingram,没有在公告中发布。这个专家相当于在训练阶段就把“小抄”做在里面,可以直接分发给所有推理节点,存在那儿,每5层调一次。在编程任务上能涨点将近13个点,准确性幻觉度上都有很好的提升。论文里已经写了。
主持人: 总结来看,我们坚定看好未来边缘推理。从需求上和运营效率上,它相对于中心化部署有优势。同样看好拥有全球化资源禀赋和网络安全能力较强的厂商,比如CDN厂商,它们未来有机会充分受益。以上就是今晚的专家会内容,感谢专家和各位领导的聆听。
