📋 招商商社互联网团队:丁浙川/李秀敏/潘威全/李星馨/胡馨媛 覆盖范围:互联网电商、本地生活、免税酒店、餐饮旅游、商贸零售、黄金珠宝等 1、刘伟光 阿里云智能集团资深副总裁、公共云事业部总裁 今天我演讲的主题叫 Transform to Agentic 。今年我们看到,从中国到全球, token 流


招商商社互联网团队:丁浙川/李秀敏/潘威全/李星馨/胡馨媛

覆盖范围:互联网电商、本地生活、免税酒店、餐饮旅游、商贸零售、黄金珠宝等

1、刘伟光 阿里云智能集团资深副总裁、公共云事业部总裁

今天我演讲的主题叫Transform to Agentic。今年我们看到,从中国到全球,token流量迎来了爆发式的增长。在这背后,我们看到的是AI一次又一次的重要跃迁。相比于2023年、2024年、2025年,我们看到今天的智能体跟2025年已经发生了巨大的定义上的变化。智能体已经能够独立完成很多人类今天不能够独立完成的任务。同时,企业也愿意为智能体、为智能、为解决实际问题的能力所付费。我们也真正正式迈入了Agentic时代。

当大家听这个词觉得很酷炫,那么我们一步步打开这个词,首先来了解一下,在Agentic时代,什么是真正的要素。我觉得有五个方面是非常非常重要的区别。第一,在Agent时代,自主规划能力,也就是说Agent能够把模糊的大目标分解成可执行的子任务序列。第二个重要要素就是Agent能够主动进行外部工具的调用,比如搜索引擎、浏览器、代码执行、数据库访问等等。第三,在记忆和上下文管理上迎来了新的突破,包括短期、长期记忆,和上下文的组装和压缩。那么在Agent时代,有一个最大的区别跟过去,就是Agent的反思与自我修正和自我迭代,尤其是Agent的自我评估结果、自我校正、自我迭代。最后一个也非常重要,今天我们也迎来了从单智能体到多智能体协作的一个新的AI native团队的旅程。

下面我们就一步一步打开它。我们看到什么是我们所处的Agentic时代?首先让我们回顾一下历史,历史其实非常有意思,也不过只有三年多时间。就在三年多时间,我们看到AI从一个短短的、小小的chatbot,已经进化到了一个Agentic的新时代。2022年,预训练和大模型结合微调、对齐之后,让模型具有对话能力,我们人可以在模型上完成各种各样的对话、问答、总结、分析。2024年,思维链技术横空出世,强化学习等技术让模型学习了思考。2025年,真正的飞跃来了,AI Coding能力横空出世,AI Coding能力与Hardness工程,让模型真正从学会了对话、思考,到帮我们做事。

大家看这张图右边的三个大的方框,在Agentic时代,有三个最重要的关键特征。第一个就是模型能力跨越式提升,能够自主完成复杂的长链路任务,在生产场景中能够自主地工作。第二方面,Agent可以自我反思、迭代、自我进化,今天AI本身就成为了能力增长的引擎。第三点,我们看到过去衡量AI看重的是流程的执行,现在看重的是业务结果的完成,不管过程多复杂,不管跨越多少个主体、多少个流程节点,更重要的是Agent能够实现人类过去难以执行的场景。

我们大家回忆一下,在2023、2024年,我们在手机屏幕上、在APP端实现简单的问答、智能总结、创作之后,其实人也可以做,我们花更多时间也可以实现。但是今天,人工智能做的很多事情是人类在过去无法实现的,比如说海量信息的分析处理、跨语种的沟通,以及在极端条件下的工作,带来了原本人类无法实现的业务结果产出。

我们经常谈一个词,最近很火,叫AI native的组织。今天我们发现这是一个人机协作组织,并非是一个简单的人机交互组织。过去是我们给AI发指令,AI帮我们完成任务。今天我们发现并不是简单的我们发指令、机器执行这种单向关系,而是人与Agent组成团队共同协作,一个人可以指挥一群Agent的工作,一群人可以指挥更多Agent的工作,甚至未来是反过来,一群Agent指挥一个人工作,一群Agent指挥一群人工作。实际上我们看到人类员工与Agent已经形成了混合工作网络,Agent嵌入业务流程,甚至创造了新的流程。

我经常问自己,在未来我自己能不能接受一个Agent做我的Manager,给我发号施令?我觉得这今天看来是一个科幻片,但可能在不久的将来,这就是正在发生的AI native组织的新范式。这三个特征加在一起,意味着AI的角色已经发生了根本的转变,从我们使用的工具变成了工作当中的主体。全新的Agent劳动者和人类劳动者有两个重大区别:第一,规模上是N个数量级的差距,从几十人可以到几万人的生产力跃升;第二,24×7小时不断地工作,规模巨大的Agent可以全天候在线,很多长尾需求可以得到满足。我们今天最大的想象力在于,通过Agent和我们的共同协作,我们可以完成过去小公司甚至大公司几千人、几万人都不能跨越的边界,这就是Agent带给我们的未来。

那么在真正跨越到从推理、思考、办事、主动执行的过程中,今天我们看到什么是支撑我们走到Agentic时代的重要技术基石。我们总结下来,发现它需要一套完整的基础设施和支撑体系,才能够高效运转。Agentic时代的基石在以下四个方面尤为重要。

第一个,就是支撑Agent长链路任务的模型能力,不仅要模型聪明,还要稳定,具备足够强的扣定能力、一致性、可靠性。

第二点,我们来自阿里云,今天我发现云在AI时代、Agentic时代扮演的作用尤为重要。支撑Agent运行负载的,我们把它叫做Agentic Cloud。Agent的负载不同于传统在线业务,任务完成即销毁,负载无规律突发,需要任务级安全,依赖动态编排,这就要求云计算要从资源调度转向任务调度。当海量的Agent同时在线、同时并发,我们不仅要考虑性能,还要保证极致的安全隔离。这些特性都对云基础设施提出了全新的要求。在过去的三年当中,阿里云对迎接AI的推理、训练,直到AGI时代,实现了全方位的全面能力升级。

第三方面,Agent跟过去的Chatbot有一个巨大的区别,就是它主动调用外部工具的能力。今天Agent调用外部工具和服务的方式,跟人使用的方式有着很大的不同,它需要的是可编程、高频自动化接口。因此,我们需要为Agent打造一套全新的工具体系,包括大家熟悉的Skills、MCP、命令行CLI,这是今天为Agent配套的工具基础设施。

最后一个非常重要的组成部分,也是过去时代不存在的、为AI而生的新部分,那就是支撑推理需求井喷式增长的性能和供应能力。当成千上万、数以亿计个Agent在线工作的时候,要求推理服务高吞吐、低延迟、高稳定性,海量推理必须具有充足的算力储备,这非常依赖于高性能芯片的支撑。在此基础上,推理平台必须具备全面的智能调度和弹性伸缩能力。今天在阿里云,我们必须充分释放AI推理服务器每一台、甚至每一卡的能力,为客户提供极致性价比的推理服务。

讲了这么多铺垫,终于到这张图——为智能时代,阿里云全栈就绪。在这个图的背后,AI时代本质上是一场计算范式的革命。今天的AI特别像新型制造业,要获得AI收入,我们必须同时建造两个工厂:AI训练工厂和AI推理工厂。阿里云今天是中国唯一的从底层芯片,到Agentic Cloud,到全模态模型矩阵,再到模型服务平台和Agentic应用,完整打通五层全栈的云厂商和AI厂商,我们正在建设的就是中国的AI工厂。

最上面是Agentic应用层,我们首先改变我们自己,重点覆盖三个方向。面向Agent的服务,我们把阿里巴巴全域的服务都做到了MCP化和Skill化封装,让Agent可以直接调用,覆盖购物、出行、支付等场景。Coding是我们最重要的方向,我们推出的Coder工具,辅助开发者高效编程,同时推出了个人助手、创作助手、办公客服等应用化产品。

模型服务层,在高性能推理方面,我们通过上下文缓存消除重复计算,引入吞吐弹性调度应对负载波动。在效果优化方面,引入了调优和强化学习,驱动模型持续迭代。安全治理方面,确保自主运行的Agent不越界。模型方面我就不多讲了,我只需要说一个字——千问。我们会深耕Coding和Agent能力。

Agent Cloud方面,在2023、2024年,当我们支撑自己和合作伙伴一起完成大语言模型、基础模型的训练和推理的时候,那个时代我们叫AI native cloud,专注在模型的训练、推理,提供弹性、高效的算力调度,支撑大模型的生产迭代。在Agentic Cloud时代,我们面向的方向有非常大的区别,我们面向智能体的运行时,提供沙箱、AI网关、记忆管理、安全防护、编排和治理等关键能力,为Agent的稳定运行保驾护航。大家有没有想过,当我们今天用Coding每一天生产出高质量的AI Agent、高质量的AI native应用的时候,它运行在哪里呢?它就应该自然地运行在云端。今天的云计算和AI是一个非常典型的相辅相成、相互支撑、云智共生的新形态。

芯片层是非常重要的基石。几年前我们就致力于AI芯片的自主研发,覆盖了AI芯片、服务器芯片、存储控制器芯片、Switch互联芯片和智能网卡,构建起了高效的AI算力底座。目前这套芯片体系已经在中国市场实现了规模化交付。

在这张图背后,我最后想说,阿里巴巴的AI全栈,以技术为根、以技术为本,让AI能力真正为各行各业带来生产级的价值回报,创造社会生产力。

我们刚刚一起展示了阿里巴巴为Agentic时代做出的所有技术储备,下面我给大家带来在全栈图当中一个最核心组件的进展,接下来是一个重磅发布:阿里巴巴平头哥自研的训推一体AI芯片真武M890,以及配套的ICN Switch互联芯片。这两款芯片目前已经在阿里云磐久AL128超节点服务器上搭载,面向客户全面开放。磐久AL128是阿里云自主设计研发的新一代超大规模AI集群服务器架构,能够将芯片高效互联,形成统一的算力资源池,高效承载超大规模的训练和超高并发的AI推理业务。从芯片到服务器的全栈整合能力,使我们为Agentic时代做好了强有力的算力底座支撑。

2

、李飞飞 阿里云智能集团首席技术官

我们站在了一个非常重要的历史节点——我们第一次从规模化地管理和运营算力,进入到了规模化地管理和运营智力。怎样将智力转化为可见的结果,像伟光刚才提到的,付诸于行动、拿到结果,这是我们下一代云的基础设施面临的巨大变革机会。今天我也会跟大家分享,我们阿里云为Agentic Cloud创造token、成就Agent做了哪些核心工作和准备。

在我们阿里云整体布局中,包括新成立的ATH事业部以及平头哥、模型几个团队,已经形成了非常良好的生态。云在其中起到的关键作用,总结下来有两个:第一是AI native cloud,第二是Agent native cloud。

我们看一下今天AI的工作负载,可以把它分成这么几个阶段。

第一是预训练阶段,这个阶段对云基础设施的要求是高并发、高吞吐、大算力、大规模算力、单租集群。预训练之后,我们进入了后训练阶段。业界主流的后训练工作负载越来越向Reinforcement Learning with Verifiable Reward这个方向演进,也就是说用强化学习结合反馈,包括用Agentic的方式来构建整个后训练阶段。这是我们在后训练阶段看到的方向,不仅我们自己,包括业界很多模型公司和客户做模型都在向这个方向收敛。

总结下来,在预训练和后训练阶段,AI native cloud需要解决的关键问题包括:多样化的微调策略、大规模预训练的高吞吐高并发、支持RLVR训练框架、适配多种多样的芯片为客户提供更多选择,以及高速网络。在整个过程中,因为需要做Agent的RLVR,还需要对推理网络和Agent工作负载进行优化。AI native cloud本质上就是支持模型训练和token的高效生产。

下面进入应用阶段,这也是我们认为云在接下来两到三年内巨大爆发式增长的机会,也就是承载海量Agent的编排、运行和使用。我们已经快速看到,无论是传统企业还是新型AI原生组织,都在快速地从以人为中心的工作流、以人编写的软件的SaaS化工作流,向以Agent为中心的、为Agent提供支持的工作流演进,也就是从human centric到agent centric。这对Agent native cloud提出了非常高的要求,比如:人以及过去各种企业工作流沉淀的经验如何Skills化?Agent怎么更好地访问多元丰富的企业级数据?我们怎么支持好Agent的长短记忆和知识库?怎么做编排、运维、沙箱隔离?这些都成了Agent native cloud关键的挑战和机会。

把上一页总结成一页:右边是训练,左边是推理。我们认为今天在云基础设施里面,要做好对pretraining、posttraining,以及对inference model serving各种各样的支持。

训练阶段——预训练: 我们的灵骏集群可以支持单集群10万卡的规模,万卡线性扩展效率可以达到96%以上。高性能网络已从HPN演进到HPN 8.0,可以支持10万卡规模,支持800Gbps网络带宽。基于PAD平台,Qwen 3.5 MoE模型训练加速比相比之前提升了3倍。我们支持了Trankflow在Microtron预训练框架里面,端到端的训练性能提升了4到5倍,并且具备非常好的HA能力和checkpoint HA能力。

训练阶段——后训练: 主要支持fine tuning和Agentic RLVR。核心是在这个阶段进一步提升模型能力,支持主流微调模式,以及支持Agentic Reinforcement Learning框架,快速提升模型能力,支持单任务达到万级沙箱规模,大规模快速提升模型能力。

推理阶段: 从网络到KV cache,到算力支持,再到调度,我们做了一系列工作,让推理平台能够高效生产token。比如在KV cache场景下,我们可以让KV cache的命中率达到90%甚至更高。这样在attention阶段,memory利用率非常高,推理的memory bound工作负载可以得到极大优化。

有了对训练的支持,有了对推理的支持,百炼的同事后续会进一步基于阿里云AI native cloud的核心竞争力,展开讲在百炼平台上的高性价比推理服务。那么,有了高性价比的推理服务和训练支撑,我们能够产生有竞争力的模型、高效产生token。怎样把这些token变成真正生产应用中的智能,并变成可执行的action,这就是Agent Cloud要解决的核心问题。

Agent Cloud我们认为有两个关键方向:一个是Agent infrastructure,为Agent工作负载提供关键支撑;第二个是Agentic products,面向Agent去使用的产品。也就是说,第一个是构建、编排、支持Agent的开发和应用,第二个是让Agent能够像人一样,或者像人写的程序一样,去使用丰富的云产品。这是我们的两个核心方向。

当Agent成为主体负载以后,我们看了一下现在企业级的Agent应用,无论是传统企业拥抱Agent向Agent演进,还是从Day One就开始用Agent方式管理和运营整个公司的AI原生组织,我们总结下来有六个核心挑战:

1.        短生命周期

2.        多模态的数据与复杂的存储需求

3.        无规律的突发负载

4.        动态的环境依赖

5.        任务级的安全管控

6.        大规模的动态编排

这是阿里云结合阿里巴巴集团自身丰富的业务场景,以及我们服务的千行百业客户——从传统企业到AI原生企业,再从以人为中心的组织方式演进到以Agent为中心的组织方式——总结出来的六个核心挑战。

拿无规律的突发负载来看,在OpenClaw、Hermes Agent这种生态快速流行起来以后,我们发现Agent运行的工作负载具有非常bursty的特点,这对云基础设施如何支撑提出了非常大的要求。

针对这六个挑战,我们从治理、安全、编排、数据平面、运行时,再到记忆,总结出我们做的一些关键工作。

治理方向: 解决Agent identity,就像我们为人设计的云有RAM和鉴权一样,Agent native account首先要解决的是Agent的身份认证问题、权限管理问题、审计问题。

编排方向: 支持Agent网关、Agent调度。

数据平面: 支持多维度丰富的数据管理,以及长短记忆与知识库的结合。

运行时: 沙箱如何做到秒级弹性伸缩,Scale out到数千甚至数万个沙箱,然后Scale back to zero。

记忆方向: 包含后续展开讲的各项能力。

基于这六个核心挑战和六个关键方向,我们做了一些前期工作,下面以产品的形式呈现出来。在Agent治理方向,我们推出了Agent identity服务,以及面向Agent整个生命周期的Agent Loop产品和服务,不光能对身份进行鉴权认证,还能对整个生命周期进行归一化、平台化的管理。

我们升级了已经非常成熟丰富的云监控体系Cloud Monitor Service。就像管理人执行工作时眼观六路、耳听八方一样,如果我们希望Agent或Multiple Agents完成复杂任务,它一定要能感知细粒度、全链路的各种多维度数据、各种metric和dimension,Cloud Monitor Service升级支持Agent运行因此变得非常重要。

在安全维度,我们推出了Agent安全中心、面向Agent运行的AI安全护栏,以及面向Agent运行的Agent防火墙。在编排层面,我们推出了AI网关、面向Agent workflow升级的Event Bridge、面向Agent工作负载升级的消息队列RocketMQ。

在数据平面,我们的大数据产品、数据库产品、存储产品,加速拥抱多模态数据处理,以及长短记忆结合和知识库构建。在运行时,我们的容器服务ACS推出了面向Agent的沙箱,Function Compute推出了支持Agent进行Serverless无函数计算的能力,在VPC网关上面向Agent这种弹性突发的工作负载升级了ENI。在记忆方向,我们结合Mem0等开源生态以及自研能力,推出了从Ontology到RAG、再到向量库、再到多模数据引擎、再到Mem0的一整套解决方案,包括KV Cache和面向推理工作负载的KV Store,让Agent运行面向六大挑战能够以标准的产品化方式落地和开发。

(一)运行时

运行时最核心的能力是沙箱的隔离和弹性高效。Agent运行时有三个关键挑战:

第一,高隔离的执行沙箱。 Agent和Agent的任务之间需要非常强的安全隔离能力,尤其在企业级业务任务落地过程中,多租户并行执行,软隔离可能都不够,需要在硬件级别、MicroVM级别将一台物理机进行硬件级别的隔离。在硬件级别隔离之上再叠加软隔离,能够进一步确保Agent运行过程中的绝对安全。

第二,毫秒级的弹性伸缩。 我们发现,无论是OpenClaw还是后来非常火的Hermes Agent,Agent的任务虽然有一些long running Agent,但大量Agent任务是短生命周期、高并发的。这对毫秒级弹性伸缩要求非常高。而且在执行过程中,Agent需要和推理服务交互,需要和企业的数据库、知识库交互。因为大量企业数据并没有被模型的预训练或后训练总结和压缩,所以在运行时还需要访问这些数据源获取context。在这个过程中,Agent实际上需要不断地休眠、被唤起,甚至是长时间休眠,长短休眠要结合起来。

第三,便捷的工具调用。 Skills、CLI这样的工具可以让Agent执行更复杂的任务。

基于以上,我们把Agent runtime的典型执行流程也放在这里:从环境创建、工具调用、代码执行、浏览器操作,再到搜索参数,我们甚至认为将来可能需要给每个Agent分配一个虚拟的云电脑,让Agent能像人一样操作浏览器、访问文件并执行复杂任务。

对应的产品升级方面:我们的ACS升级了Agent沙箱,支持百毫秒级冷启动,支持高性价比高效率的唤起休眠,能够支持一分钟开启1万到2万多个沙箱。我们的Function Compute也支持Serverless的百万级沙箱并发,支持浅休眠和深度休眠,让Agent执行任务可以更加弹性地使用资源。

在隔离层面,我们升级了MicroVM,利用MicroVM的硬件隔离提供高安全、高性价比的Agent任务间隔离,并提供对应的SDK。我们的云盘面向Agent工作负载进行了升级——Agent在执行任务过程中需要将一些状态持久化存储到存储层,需要挂载云盘,我们针对创建和挂载耗时做了针对性优化,效率提升达90%以上,挂载密度也大幅提升。在VPC、ENI网络层面,面向Agent的运行和交互,升级了弹性网关能力。最后,我们的龙蜥操作系统面向Agent在kernel级别构建了Agentic OS能力,从支持人和人写的软件使用OS,向支持Agent运行的OS能力演进,让Agent能更好地跑在云基础设施上。

(二)编排

编排方面,我们总结出三个关键挑战:

第一,复杂任务的智能规划和分发。

第二,长链路执行的可靠性和一致性。 就像伟光分享中提到的AI爆发的三个关键节点,reasoning阶段最关键的挑战之一就是长链路reasoning的支持。在Agent过程中同样存在这样的挑战——在多Agent串行、并行执行过程中,怎样让指令不丢失、状态不错乱。

第三,多Agent的协议互通与攻击发现。

针对这些挑战,我们布局的产品关键能力和升级包括:推出了Agent Teams统一管理平台和界面;消息队列面向Agent工作负载进行了升级,支持百万级Light Topic,针对Agent通讯优化消息队列的管理和执行方式;AI网关让Agent可以进行鉴权、限流、路由;以及ASM Event Bridge、网络ALB负载均衡面向Agent这种超高弹性、隔离的工作负载做了一系列升级和优化。

(三)治理

治理方面,最关键的是:全链路的可观测和问题追溯、Agent生命周期的持续治理、成本的精细化管控和SLA保障。这涉及到开发、部署、运行、评估和进化。

首当其冲的是Agent identity。我们认为要让Agent真正进入企业级应用并大规模落地,首先要解决的就是Agent的身份认证问题,这样才能让企业放心地鉴权和使用Agent执行复杂任务。

我们推出了Token Bot,面向Agent做身份鉴权认证;推出了Agentloop,面向Agent整个生命周期做追踪和评估,对Agent整个运行周期进行监控。我们的Ingress Proxy Gateway以及面向Agent的具备Agent驱动的运维能力也进行了提升,我们推出了Starops这样的产品,各条云产品线也都推出了面向自己产品线的Agent驱动智能运维方式。实际上在我们的工单体系里面已经看到了显著效果——L1、L2的工单响应时间,也就是能够初步判断出root cause的首响时间,从传统的人工驱动需要15到20分钟,已经收缩到1到2分钟,接近10倍的效率提升。

(四)安全

大家在OpenClaw火爆以后,第一个问题就是:把这些任务都交给Agent了以后,安全怎么保障?Agent如果误操作、误删除数据,或者误访问了一些敏感数据发生泄露怎么办?这里面涉及到确保资产与供应链的安全、打通最小权限和数据安全、行为不透明和运行时的威胁防御。针对这些问题,涉及到资产可视化、访问控制、行为与运行时保护,覆盖Agent运行时方方面面的安全认证和隐私问题。

针对这些,我们推出了Agent安全中心、Agent IDGuard、AI安全防护栏,以及面向Agent运行的防火墙,全方位帮助企业级开发者在落地过程中构建以Agent为中心的企业级安全防护能力。以Agent安全中心为例,我们能够让Agent的开发和部署的trace和linear graph得到细粒度管控,这样即使in the worst case有异常发生,也能够追本溯源,搞清楚到底发生了什么问题,实现Agent全链路安全保护。

(五)记忆

记忆非常关键。就像人执行复杂任务时要承上启下,有长短记忆的能力,Agent也一样。这里面涉及分层记忆架构的统一协同管理、短期和长期语义记忆的存储、跨任务的精准召回和记忆的持续沉淀、多Agent的记忆共享和权限管理。一个Agent能看到的context,就像我们今天做分享,能进主会厅的和没拿到门票在外面看的,看到的数据内容、记忆内容都不一样,要做好权限管理。

我们把记忆分为三层:短期记忆、长期记忆和知识记忆。短期记忆有点像经典企业应用中数据库里面的session,是同一个session内保持context;长期记忆是cross session了,context也能保持住;知识记忆相当于一个外挂知识库,把企业多年沉淀下来的knowledge通过RAG化、向量库、多模态数据沉淀下来,可以做检索。

针对这些,我们推出了Tair的语义缓存、OSS的Vector Bucket、TableStore针对Memory的Storage,引入了业界主流开源向量数据库Milvus支持Agentic Memory,大数据产品Hologres、Elasticsearch集成支持Mem0开源生态来支持记忆管理。数据库产品从云原生的PolarDB到开源的RDS,都推出了Ontology,做长短记忆以及知识库结合的能力,提供Agent所需要的记忆分层存储和按需唤醒。

(六)数据平面

针对Agentic Cloud,Agent在执行复杂任务时最关键的需求之一就是处理多模态数据。我们发现越来越多的场景下,从传统的结构化数据在快速演进到半结构化甚至非结构化数据。结合我们的模型能力,比如Qwen VL的模型能力,我们能够让Agent感知和处理复杂数据,能够把图片、视频、文本、日志、音频快速通过embedding的方式进入到数据库、大数据和存储系统里去,让Agent像人一样眼观六路耳听八方处理复杂数据。

这里面有data for model,涉及数据清洗、标注等挑战;还有data for agent,涉及多元检索、语义融合、上下文组装以及记忆持久化。有语义和处理的挑战,也有数据持久化的挑战。

针对这些需求,我们推出了一系列新的产品能力。在Dataworks数据管理平台上,推出了全链路linear graph以及context管理。DMS管理阿里云数据库上所有核心资产的元数据统一管理。DTS能够支持非结构化数据——传统的DTS是ETL,即结构化数据从数据库到数据仓库的数据同步,今天我们能够结合模型能力,将非结构化数据一键做AI native的ETL,导入到数据库和大数据系统。大数据系统从MaxCompute到流计算平台Flink,再到实时数仓Hologres,全面支持Agent的多模态数据处理能力。多模态数据库灵洞支持AI搜索和多模态数据处理与存储能力。最后在存储层,结合文件系统DLF和OSS冷存储,推出高性价比的多模态数据底座,支持AI全场景覆盖。

这里举个例子,我们结合面向六大挑战布局的新产品能力,助力了核心企业级用户MiniMax推出他们自己的Max Cloud。Max Cloud产品就是基于我们前面提到的关键能力,涉及Agent的运行、管理、编排、多模态数据处理,一直到安全防护。这张全链路架构图详细解释了我们如何利用面向Agent的产品能力的全面升级,支持Max Cloud快速上线,从安全隔离到云盘,到轻量化沙箱容器,再到统一控制面、持久存储、弹性调度,使其能够快速达到业务效果,为企业级用户提供高价值的Max Cloud Agent化服务。

除了Agentic产品之外,我们还有一个非常重要的改造,就是让所有云产品能够让Agent快速开发、调用和部署。从控制台面向人,到面向API、Infrastructure as Code,大多数企业开发可能在第二步,但我们认为未来一定会演进到第三步,就是面向Agent的Agentic interface。这里面关键总结三点:一是Skills化,二是MCP化,三是CLI化。我们所有的云产品在今年内都会完成控制面的改造,以Agent为优先用户,让企业的开发应用实现10倍提效。

说到Skills化,我也非常高兴借今天这个场合推出阿里云官方Skills网站,沉淀了阿里云100多个产品的核心精品Skills,涉及12个产品线、60多个产品,大家可以通过这个网站访问。这些Skills本质上是沉淀和总结了我们核心云产品的最佳应用实践,以及面向Agent开发提供的Template,可以一键式安全合规地享受到快速推出Agent native开发框架和落地部署的能力。

结合前面这些能力,我们已经让自己的云产品快速面向Agent升级,从存储到数据管理与分析,再到安全,再到运维。我们推出了OSS Agent,尧池数据库推出了做运维和数据分析的Agent,DataWorks Agent提供统一的面向智能体的数据Agent开发平台,安全和运维全面拥抱Agent native的使用和管理方式。让每个产品都有自己的Agent。

除了云产品面向Agent的能力升级、控制面改造、构建Agent native的infrastructure和产品之外,我认为对阿里云乃至任何一个企业来讲,还有一件事非常重要,就是要升级AI native的组织。

我们分了四类岗位——研发、运营、运维、产品,每个岗位都要定义三个关键核心指标,用AI native的方式和AI input的方式并行迭代,推动data driven、AI native的组织方式,实现组织可观测、效率可度量,通过数字孪生构建AI native的原生组织,最终实现10倍的生产效率提升。物种竞争最终比拼的是迭代的效率和进化的速度。当然,我认为任何一个组织要想做到这个能力,一定需要拥抱Agent native,而阿里云就是最佳的选择,助力所有企业快速演进到AI native的组织方式。

总结一下今天的分享:我认为阿里云就是最Agent化的一朵云,让我们的token能够产生智能,这些智能能够驱动Action,拿到结果。

3、周靖人 阿里巴巴集团通义大模型事业部负责人

今天非常高兴能够跟大家分享通义大模型面向Agent的一系列能力升级。大家都应该感觉到,在过去这几个月,整个大模型发展突飞猛进。我们从简单的一个chatbot,到今天大模型已经发展成为各行各业的生产力。从过去我们要跟模型聊得好,今天已经转变为让模型去干各行各业的实际任务,要让模型干得好。也就是说,从以前讲的人类价值对齐,今天更多的是要去任务对齐,让模型能够完成相关的任务。整个大模型的迭代速度仍然在加速。

大模型的三大趋势:

首先,今天模型已经开始打破虚实的边界,特别是模型可以调用各种各样的API去操控软件、控制云服务,甚至驱动我们的硬件。

其次,过去模型是单轮调用,今天已经变成了多轮,甚至模型会根据复杂问题的分析去动态规划、自主反思,能够形成自我纠错的自主智能体。

另外一个趋势是,今天模型已经从单一的服务对象,变成了多Agent协同机制。同时加入了很多Harness智能框架,能够帮助模型有效地完成复杂任务。

上个月我们推出了千问3.6模型,一经推出广受开发者和企业喜爱。特别是发布当天,在Openrouter上的调用量就达到了1.4T,强势登顶当日首榜,创了token消耗的记录。在发布首周,我们已经斩获了CodeRena全球第二,以及各种评测上国内模型第一的好成绩,大大提升了整个模型在代码和Agent方面的能力。也特别感谢在座各位开发者和企业对千问模型长期以来的支持。

重磅发布:千问3.7

这一次是一个重量级的发布,我们在很多前沿技术里面都实现了突破。首先,我们夯实了知识和逻辑等基础能力,能够确保复杂任务高可用、可靠地执行。同时,我们全面升级了原生的Agentic能力,包括工具调用、Coding、Long Horizon、Harness等等。今天我们把千问从自然语言模型全面升级为原生支持复杂任务的智能中枢。

这个模型目前非常火热,在全球权威榜单上也斩获了非常好的成绩。大家在接下来这几天会陆续看到很多榜单发榜,都会发现我们千问3.7 Max版本名列前茅,也领先中国所有模型。接下来我会详细讲解千问3.7 Max等一系列模型强在什么地方。

千问3.7的四大核心能力

(一)基础能力全面提升

特别是在语言的理解和生成、逻辑知识以及指令遵循方面。千问3.7 Max是非常智能的一个模型,它可以推理非常复杂的一系列问题,在很多指标上已经超过了行业基准。特别是在知识问答、逻辑推理等方面,也斩获了全球领先的成绩。

前两天Arena也发布了最新的Text Arena排名榜,千问3.7 Max排在中国模型第一,在全球模型机构排名上也是全球第六。这是今天模型的基础能力。

(二)工具调用能力

我们重点发展了模型工具调用的能力。真正从模型理解到调用各种各样的工具,让模型参与到现实生活中的复杂任务,实现从语义理解到真实业务行动的升级。这里面需要大量的工具调用,包括MCP服务协议的支持,高效对接各类服务,真实反馈调整,动态调整任务执行过程中的决策。特别是这个模型在多步规划、表格控制、工具调用等权威评测上,都遥遥领先全球。

(三)编程能力

今天模型已经从简单的Coding补全,变成了覆盖软件开发全生命周期的核心模型,具备了编程底座的重要支持。特别是在终端交互Terminal这样的交互方式、Web开发,以及复杂多语言环境下的软件开发工程里面,特别是我们讲到的SWE-bench开发,去模拟开发者日常在复杂软件环境里修复bug、开发feature,在这一系列benchmark上都取得了非常突出的成绩。今天模型能够像成熟的工程师一样,独立地解决代码中的缺陷问题,也可以帮助工程师开发复杂的feature,今天已经成为我们工程师的必备工具。

这里我们也有几个demo,展示了通过千问3.7 Max模型,可以实时动态实例渲染,很快开发出一个实时交互粒子的网页。同时也可以通过自然语言输出网页,并运行复杂的程序。

(四)Harness框架适配

我们支持主流的各种各样的Harness框架。在过去一段时间,有龙虾、OpenCloud、Hermes、千问扣qwenport、Claude Code等Harness陆续推出,能够帮助模型在很好的环境里完成复杂任务的规划和执行。今天千问3.7 Max有效适配了各种各样的Agent框架,不管大家日常喜爱什么样的Harness框架,都可以快速接入千问3.7 Max,帮助大家发挥Harness的所有潜在能力,同时完成复杂的任务。这样可以大大降低开发者迁移和重构的成本,让模型真正做到开箱即用。

这一次的发布我们重点关注大家的体验,我们也参与了各种Harness与模型之间协同的评测,成绩也非常突出,位居中国第一。

还有一个能力是,今天模型从简单的单任务执行,已经发展到Long Horizon的任务处理,实现了长周期任务处理的能力,打破了时间的局限,具备了主导复杂企业级任务的潜力。这背后实际上是利用了超长记忆、多步规划以及动态纠错机制的协同,能够稳健支持长周期任务的执行。

当然在执行这个长期状态的系统复杂测试过程中,我们也关注任务的吞吐率、资源的利用率这些核心指标,体现了模型在处理Long Horizon服务过程中的效率。

我们也把模型真实放在了一个实际场景里去测试。这一次我们结合平头哥最新的芯片,去开发一个全新的Kernel。大家知道今天Kernel的优化是非常复杂的,需要很多专业知识。这一次我们利用千问3.7 Max,让模型自主地在没有先验数据的情况下去优化全新的Kernel,能够进行30个小时无干预的自主运行。通过一系列的反思纠错以及深度迭代,不断提升Kernel的效率。通过这样一个实验,我们也验证了今天模型在长周期下一系列任务的表现。结果非常令人惊艳——这个模型能够长时间自主优化、自主迭代,最终在极限约束的情况下提供10倍的Speedup,也就是加速比,远超今天行业其他模型,也体现了今天模型底层芯片调优的能力。

视觉能力升级

前面讲到了Agent的方方面面。为了让模型完成各种各样的任务,我们也要在视觉能力方面完成升级。从过去的看懂世界,今天要转移到完成任务,特别是今天各种GUI的开发,能够用视觉Agent打通视觉理解,能够操纵操作系统的各种软件界面。特别是这次我们也完成了视觉编程,大家可以输入一个草图,就自动生成相关代码。

在一系列评测里面,特别是移动端操控——不管是各种手机端操控还是桌面操作系统操控、图标解析等等评测——也有很好的表现。特别是前两天Vision Arena榜也刚刚发榜,我们的模型名列前茅,位居中国第一,在全球机构排名里是名列第五。

Omni全模态模型

除了视觉能力,我们也坚定地认为今天多模态融合是一个重要趋势,我们需要把文本、语音、视觉的能力原生融合在一起,这就是我们的Omni模型。这个模型能够全方位地理解各种各样的模态,能够支持上百种语言,达到顶尖的音视频理解。

通过这个模型,可以对视频进行全方位的理解以及全方位的分割。

大家可以看到,今后的模型不单单可以通过敲字给它指令,其实可以通过语音给它指令,进行各种各样的编程,也真正完成了多模态的有机融合,提供了一个高可靠流式的交付能力。

实时ASR语音转文本模型

除了Omni模型,我们也认识到在实际业务中还有很多关于语音方面的支持需求。这次我们推出了Real Time的ASR模型,也就是语音转文本模型。在刚刚发布的Artificial Analysis榜单上,我们也是名列全球第一,特别是在多语言支持、多方言以及复杂噪音环境下,能够完成精准的语音转文本。

这个能力已经在我们的高德、钉钉产品里得到了验证,提供了极低延迟的优化以及非常流畅的实时语音交互。

语音合成TTS能力

我们也提供了语音合成能力,在准确度、自然度、指令遵循方面已经达到了很高的水平。我们可以通过优化推理链路,兼顾高生成质量以及低延迟的首包延迟,适配各种各样的交互体验,生成的语音也极具情绪表现力。

我们可以完成完美的语音复刻,能够转换成各种各样的方言,能够生成非常具有情绪表现力的语音。

AudioChat实时双工模型

同时,我们把ASR模型和TTS模型合成了一个实时双工的模型能力。大家知道,在实现语音对话的时候,往往会出现一个挑战,就是模型的能力在降质,模型可能不太会调用其他的工具。这次我们彻底解决了这方面的难题。通过AudioChat模型,不但能够提供实时交互,同时不对模型进行降质,能够让模型同时调用各种各样的工具,把Agent方方面面的能力充分发挥起来。

在权威榜单上,这次我们也名列全球第一。在整个语气、节奏、情感、表现力方方面面都能够提供一个端到端的解决方案。

开源社区建设

除了刚才讲的模型,我们也积极营造开源社区。上个月3.6也正式开源了两个模型,在短短几周以内,3.6开源模型的下载量已经突破了3000万次,衍生模型已经超过1200个,也登顶了Hugging Face的趋势榜,让顶尖的AI真正完成了普惠。

特别值得一提的是,我们27B的模型虽然小,但是它的能力不输于上一代的千亿参数模型,也可以适配各种各样的硬件,彻底打破了高额算力的门槛。另外我们还有一个35B A3的稀疏模型,这个模型只激活了3B的参数,但能力非常突出,彻底打破了今天高推理成本以及延迟的难题。

百炼平台集成

接下来所有这些模型,包括前面讲到的3.7系列模型、语音Omni模型等等,都会上架到我们的百炼,大家可以在百炼上集成自己的业务,完成整个业务模型的高效融合。百炼平台不单单能够高效提供这些模型的服务,也会为我们的企业打造一个专属的开发环境,能够提供一个高效高性价比的模型推理服务。待会我们的同事也会再讲解百炼平台的一系列进展。

今天大模型带来了百年一遇的范式重构,模型技术在快速发展,今天已经正式转化成千行百业的生产力。我们也期待与全球的开发者一起共建今天模型的生态,一起开启智能时代的繁荣序章。当然,模型的发展离不开芯片,接下来会请我们的高慧同事来跟大家讲一讲平头哥的一系列进展,为模型的发展提供坚实的基础。谢谢大家。

4、高慧 平头哥半导体副总裁

今天很高兴能够来到这里,和大家分享一下平头哥最近的进展。平头哥成立于2018年10月,今年是我们的第八个年头。通过八年的努力,我们打造了以AI芯片为核心的全套数据中心芯片解决方案。在通云哥一体的全栈体系下,平头哥作为算力底座,持续为AI规模应用贡献底层算力。随着AI能力的不断增强,我们也致力于为Agentic时代的工作负载持续升级优化。

真武AI芯片:Day 0提供千问模型服务

刚刚靖人老师为我们介绍了千问模型的最新进展,我们在这里正式宣布,真武AI芯片将在Day 0提供千问的模型服务。也就是说,我们不仅在Day 0完成了芯片适配,也实现了发布的Day 0可以在阿里云上面向广大开发者和用户提供现实可用的模型服务。这个结果正是通云哥在模型、云、芯片层面深度协同的一个体现。

实际上,这些深度协同自芯片规划时起就已经发生了。我们与云的团队、与模型的团队持续探讨技术演进的方向,规划最适合模型应用的芯片规格和芯片特性。在芯片上线验证阶段,也打破了常规的串行验证节奏,通过大量验证工作左移的方式加速了上线,为的是能够以最快的速度把硬件推上线,以最优的性价比服务客户。

大家看到的Day 0服务只是我们深度协同的一个体现。实际上通云哥的深度协同早已经走出了阿里内部,切实地服务了千行百业的客户。截止今年4月份,真武芯片已经出货56万片,服务了20多个行业、400多家客户。这一部署规模也充分体现了真武芯片的稳定性、易用性以及业务泛化扩展的能力。真武芯片可以说是当前国内应用最广泛、商业化程度最高的AI芯片,是AI芯片当中极具竞争力的产品。我们一直以来凭借着卓越的端到端性能,对主流大模型框架的良好兼容,成为了支撑大模型持续演进的关键基础硬件。我们依托阿里云强大的基础设施能力和全栈优化技术,真武芯片不仅实现了从训练到推理的全场景应用,也显著提升了整体系统的性价比。

行业落地案例

(一)智驾行业

智驾是AI推进非常快的一个行业。截止目前,真武芯片已经在智驾行业部署了超过13万卡,三十多家头部客户已经验证兼容了50多个模型,覆盖了感知、预测、规划决策、端到端、大模型等多种先进架构。实测下来,真武芯片有非常显著的性能优势,在同等精度的条件下,单机推理性能平均提升了50%以上,大幅降低了客户的算力成本和部署复杂度。

从应用场景看,我们也看到了客户从智能驾驶延伸到了智能座舱、具身智能、企业内部AI提效等多个方向。使用的深度包括了数据产线、模型训练、模型推理、仿真全流程,真正实现了一芯多用、全栈赋能,服务客户的AI全场景。在规模化落地方面,我们已经助力行业多个头部客户完成万卡级别以上的超大集群部署。我们非常激动地看到,这些项目从启动到万卡规模上线,客户的平均部署周期实际上小于3个月,这充分体现了真武芯片高度的成熟性、稳定能力以及极致的易用性,也同样反映在了客户在真实业务使用之后,对我们真武芯片技术路线的高度认可以及持续的复购。

(二)金融行业

除了智驾以外,我们在金融行业截止目前也已经使用了10万卡,服务了150多家客户,在金融行业的银行、证券、保险、支付等核心场景都有批量使用。从客户反馈来看,我们不仅快速兼容了已有的传统视觉类大模型的部署,支撑了人证对比、文档数字化这些传统业务流程,更进一步地,在大模型时代,我们也助力金融业务发挥了SOTA大模型的能力,在风控管理、客服应用这些领域也在不断提升业务表现。我们也是国内首家实现单机完成万亿参数EP并行的厂商。同时,真武开源开放的软件生态体系也十分契合对数据安全有极致关注的金融行业需求。我们定向开源了算子库、模型训练推理框架,这些非常好地支持了金融客户进行二次开发,可以助力客户在复用已有AI积累的同时,也保障了金融行业数据安全的底线。

(三)其他行业

真武芯片目前已经同时在互联网、能源、制造、运营商、物流、家电等行业大规模部署,覆盖了超过百家客户,真正实现了从技术领先到产业落地的闭环。今天,这些来自不同赛道的行业领军者选择了与阿里云、与平头哥并肩走在智能化的最前沿。在这些丰富场景背后,是真武芯片与行业场景的深度融合,是真武对各类模型和算法都提供了广泛而深入的支持,为企业客户提供了高性价比、高易用性且可以持续演进的AI算力。

真武芯片的核心竞争力

我们总结一下,平头哥的真武芯片到底具备了什么样的特点,让我们达成了如此快速的商业化落地?

第一,全端到端的全自研。 从芯片的架构到芯片的前端设计、后端设计,包括最核心的计算引擎、片间互联模块、专用数据移动单元以及内部的高速Fabric这些核心IP,我们完全完成了自研。同时,我们行业顶级的半导体平台团队,对于后端先进封装等能力也有着非常强的掌控力。正是这些强有力的自研能力,让真武芯片自推出起,一直定位为行业AI芯片高性能的标杆。因此我们在算力、显存带宽、显存容量、互联带宽上,始终保持在行业最前沿。

第二,极致的易用性。 在诸多行业客户的反馈当中,易用性是非常重要的一个特点。我们的软件也是全栈自研的,兼容了主流的AI生态,可以实现业务代码的零迁移,让客户以最快的速度、最低的迁移成本,将业务无缝迁移到我们的产品上。

THead SEAL软件栈

讲到这里,我要隆重介绍一下我们的软件栈。我们软件栈的名字叫THead SAIL,THead是平头哥的英文名,SAIL是我们软件栈的名字。SAIL是平头哥完全自主研发的软件平台,我们提供了一个统一的编程接口,SAIL具备完整的软件生态和工具链,向上可以支持开发者和业务快速展开,向下兼容底层硬件。SAIL可以实现对性能的极致优化,以及和我们自己硬件的高效协同。

SAIL目前全面兼容了当前主流的开发框架、算子和模型,在兼容性上表现非常出色。同时SAIL也保持了非常快的迭代频率,能够始终紧跟当前主流生态的迭代步伐,确保我们的技术始终跟得上时代的前沿。基于SAIL进行的应用开发和迁移非常简单,我们提供非常丰富的软件包,可以让客户开箱即用,用户在迁移后在真武平台上直接运行,就可以达到最佳的性能。更为重要的是,我们在大规模集群的应用实战当中,也看到了真武显示出了非常优秀的线性度和稳定性,这些都离不开我们的软件栈。

我们在这里正式宣布,THead SAIL的技术文档、驱动、SDK软件包以及制品库都将在6月于平头哥官网正式上线。相关的软件生态也会在GitHub上同步开源,我们期待广大用户、开发者和我们一起参与SAIL软件生态的共建。

互联能力:ICN协议与Switch芯片

聊完软件,我也想再聊一聊互联。在AI芯片当中,互联的能力愈发重要。随着当前SOTA的模型走向千亿、万亿参数,单芯片的显存、算力都远远不能满足模型发展的需求。为了适应AI应用的快速演进,尤其是大模型训练、长文本推理这些场景,整个系统采用了非常复杂的分布式策略,也因此凸显了互联能力的重要性。

平头哥提供了一整套互联总线协议和通讯库,可以快速构建大规模高速的片间互联网络,以及建设一个稳定的AI算力集群,这是我们的关键技术底座。其中ICN就是平头哥全自研的片间互联总线协议,我们可以通过真武芯片上的ICN端口,实现高性能AI芯片互联网络的构建,降低通讯开销,实现网络的灵活拓扑以及扩展。从软件上,平头哥实现了全自研的Pico通讯库PCCL,来完成模型训练和推理中对片间通信的需求。

伟光老师也已经发布了我们面向Agentic时代最新的并行计算芯片和互联芯片。实际上我们自真武第一代芯片开始就在做互联ICN总线协议,建设互联能力。当今天的应用促使整个基础设施走向更大的节点规模、需要更大的互联带宽,平头哥基于ICN协议去开发Switch芯片、构建超节点,一定是走向了必然。

磐久AL128超节点服务器:真武M890 + ICN Switch

刚刚伟光老师的磐久超节点服务器中,已经展示了我们单柜128卡的超高密度机柜。其中有两个核心芯片:

真武M890: 相对于上一代有3倍的性能提升,配备了144GB的显存以及800G的互联带宽。同时为了进一步提高算力的利用率,我们对FP8和FP4的低精度进行了支持。

ICN Switch: 是一个Scale Up域的交换机,通过这个Switch芯片,我们可以在节点内实现两张卡之间的无差异访问,构建一个64卡的全带宽互联网络。

这两个芯片组成了我们和磐久的服务器。磐久服务器打破了传统跨节点的高延迟瓶颈,P to P时延可以小于150纳秒。同时在单节点内打造了超过9.2TB的超级内存池,让超过万亿参数的大模型无需像传统服务器那样跨节点运行,现在可以在单节点内运行。另外,磐久服务器凭借超高的单机架算力密度和全面的液冷设计,大幅节省了数据中心的占地空间以及长期的用电成本。

真武芯片路标规划

介绍完我们最新一代产品,相信大家也非常期待我们未来的产品演进。在这里向大家正式报告未来真武芯片的路标规划。

未来真武芯片将提速到一年一代:继今年上市的M890之后,我们将在2027年Q3上市V900芯片,2028年Q3上市J900芯片。其中V900芯片的性能将继续有3倍的提升,同时配备216GB的显存以及1200GB带宽。同时ICN网络也会持续演进,我们将在后续实现更大规模的互联互通,塑造下一代更加高效广泛连接的网络架构,也请大家持续期待我们的新产品上市。

平头哥全产品线

以上针对我们的AI产品线——GPU芯片和Switch芯片做了一个介绍。下面是我们平头哥各个产品线的全家福。虽然AI芯片本身的快速演进加速了整体基础设施的迭代,但在Agentic时代,其他芯片的重要性也在被重新定义。平头哥以AI芯片为核心,构建了完整的数据中心解决方案,布局了真武的PPU芯片、倚天的服务器CPU芯片、ICN Switch芯片、盘迈智能网卡芯片以及震岳的存储控制器芯片。这些全系芯片为我们在整个基础设施层的创新提供了技术底座。

我们看到在Agent Infra基础设施当中,CPU的角色正在被重新定义,它不再是GPU的辅助处理器,而变成了一个任务的编排者,负责多工具并行、长上下文管理、工具调度等任务。平头哥自研的倚天CPU产品线也可以与我们的AI芯片与网卡形成高效的协同。

在网络产品线上,五一前我们刚刚在数字中国峰会上发布了我们的第一代盘迈920高性能网卡,一款专门为AI集群打造的400G智能网卡,可以用于跨节点Scale Out以太网络的构建。

存储层面,我们有震岳的存储控制器,是一个企业级SSD的主控芯片,在Agentic Infra当中,可以用于海量上下文数据与长期记忆的存储。正如飞飞老师提到的Agentic Infra当中的短期记忆、长期记忆、知识记忆,这些都离不开企业级存储的硬件。

总结一下,平头哥不仅在纵向上与云、模型在通云哥一体框架下持续做协同,实际上在横向上也在构建算力、存储、网络的能力。正是因为我们具备了这样的能力,我们在未来AI Infra持续演进当中,有了更强的底气去做能力的整合和架构的创新。

很高兴在这里和大家分享平头哥的进展,我们希望平头哥的产品能够做好阿里云通义大模型以及客户的算力底座。通云哥一体在Agentic时代,持续为千行百业的客户提供无处不在的普惠算力。

5、于文渊 阿里云百炼技术负责人

我来分享一下阿里云百炼,我们的目标是打造一个Agentic时代的推理服务。在我正式开始之前,我想给大家宣布一个好消息。我的同事高慧刚刚发布了平头哥的最新AI芯片,搭载这些芯片的超节点服务器,现在已经上线了百炼平台,给我们的推理服务提供了稳定的算力支持。

Agent时代企业落地大模型的根本变化

进入AGI时代以后,企业落地大模型的方式正在发生根本的变化。很多应用之前只是调用一次模型——一次提问,模型给一个回答。但Agent完全不一样了,Agent要理解目标、要拆解任务、要规划路径、要调用工具、要读取数据、还要执行,最后再根据结果得到反馈、继续推理。所以Agent不是一次调用,它变成了一个更长的决策链路,也不是平稳的流量,它会带来更多的并发峰值,也不是对大模型的简单消耗,它带来的token成本在指数级地变高。

对于企业来说,使用Agent的目标不是打造一些demo,而是希望把真实的企业数据引入到Agent当中,让Agent来服务真实的业务流程。所以面对这些比较难的问题,我们需要芯片、云基础设施、模型和平台能力的共同配合。百炼的定位就是在阿里云基础设施、平头哥等算力供给之上,通义等大模型供应商之上的Agent推理服务平台,把这些底层能力封装成企业可以直接使用的五个关键能力。

第一是高性能,Agent在高并发和高峰值的情况下能跑得更快、更稳。第二是高性价比,需要让Agent的消耗可控、可预测、可优化。第三是安全可靠,让企业的核心数据和业务可以放心地进入Agent流程。第四是效果更优,提供模型调优、评估、部署和Agent RL的能力,让模型更贴近企业的业务过程,达到更好的效果。最后是生态繁荣,因为Agent往往不可能只依赖一个模型、一个框架或者一个工具,需要连接丰富的模型,对接主流的Agent框架,再对接千行百业的企业应用,让开发者可以通过一套接口接入全平台和全模态模型的能力。

高性能:让Agent跑得快、扛得住

Agent规模化落地最重要的第一点就是高性能。这里的高性能不单单是单个模型可以跑得更快,而是面对长链路、高并发或者突发流量时,系统能够低延时、高吞吐、可弹性。

为了实现弹性,我们研发了Flash Boot,用来打通操作系统容器和推理引擎,优化权重的准备、加载和启动时间。对于刚刚发布的千问3.7 Max模型,我们的启动时间可以从1200秒降到90秒。我们也进一步优化调度开销,我们的Unischeduler面向大规模模型服务集群优化,可以让资源尽快做算力匹配,可以一分钟拉起1万个pods,集群调度的决策也从传统的20秒可以降低到0.4秒,缩容的响应时间可以降低81%。

为了让Agent能尽快得到结果,为单次推理更快,我们也在Mega Kernel稀疏注意力等技术上持续优化。在千问3.6 Plus的PTU场景下,TTFT可以下降38%,TPOT可以从25毫秒到10毫秒,达到每秒100个token以上的性能。为了峰值更稳,我们也做了很多多阶段的QOS和调度,让Agent在不同阶段,特别是定时或突发流量的情况下,都可以得到精细化的服务质量保障。最终峰值的异常频率可以降低98%,峰值请求的吞吐也可以提升两倍。

这些能力最终沉淀为百炼的产品能力。我们的模型已经普遍支持了百万级的上下文。也可以让用户用千万级默认的TPM来动态Burst地请求百炼。以及我们有更丰富的模型售卖形态,比如预置存储单元PTU和MU,可以让客户做确定性的容量和模型预留,为Agent时代的高性能,在峰值负载下依然跑得快、扛得住提供保障。

高性价比:让Token成本可控

高性能解决的是Agent跑得快,但真正进入生产以后,还有一个非常现实的问题——跑起来之后,token的成本能不能扛得住?Token的消耗非常容易被Agent放大,所以百炼做高性价比,核心不是简单地降价,而是需要让百炼的模型服务贴合Agent,做一些特殊的设计。

百炼把缓存能力针对Agent的场景做了比较细致的设计,从隐式缓存到显式缓存,以及使用阿里云自研的分布式全局KV缓存框架,把用户的上下文存储起来,选择合适的生命周期来保障用户服务的SLA。我们的产品中可以把prompt caching的价格降低90%以上,在Claude Code、OpenCloud Agent这个场景下,重复的上下文计算成本可以最高降低97%到98%,多轮对话的首包延时也可以降低85%。

为了降低峰谷流量带来的资源浪费,百炼的模型层也在做资源的池化和弹性调度的技术工作。百炼通过自动扩缩容和峰值流量的智能编排,实现了算力和请求的高效匹配。不同的业务可以选择不同成本结构的模型推理方式。比如在百炼上,实时任务可以走实时推理,对时延不太敏感的大规模任务,可以走基于文件的batch或者基于实时API的batch chat。batch chat值得一提,它可以和Agentic框架比较自然地融合,可以用默认的completion接口来接入,把批量任务、离线评测、批量内容生成、批量工具或者Agent场景,都可以自然接入,用更低的成本完成Agent能力的使用。

关于团队级,我也希望大家可以试一试百炼刚刚推出的TokenPlan,对于一个团队可以做token的统一支付、多应用和多坐席的管理,同时TokenPlan也会给模型调用的成本有一定的优惠。所以百炼的高性价比不仅仅是把单次的调用价格打下来,而是围绕Agent真实的调用方式,把上下文的复用、资源调度、批量推理、预留资源和订阅服务组合起来,让Agent从原始的token消耗逐步走向成本可控、容量确定、峰值可靠的模型推理。

安全可靠:生产级安全底座

今天一整天我们都在谈论Agent时代,所有人都在兴奋于Agent能自动执行、替公司替员工做非常多的事情。但很多企业真正担心的其实还有另外四个字——敢不敢用。企业是不是敢让Agent无人值守地操作企业数据?是不是愿意承担生产业务一旦中断带来的连锁风险?是不是担心调用云上共享服务会带来数据边界的焦虑?链路也会变得越来越长,工具越来越多,权限管理越来越复杂,这是每一个进入Agent时代的企业都会面临的难关。

百炼给出的答案是一套生产级安全可靠的底座。我们用多地域、多AZ的可靠性架构,结合自动巡检、自动恢复和峰值调用,承诺99.9%的生产级SLA。我们做请求、算力、网络和工作空间的四层多租户隔离。我们用TLS、KMS、Bring Your Own Key、CMK、API鉴权、操作审计,让关键链路100%加密、100%可审计。我们用内容审核、防护、低DDoS、WAF守住内容安全。我们用VPC专线打通企业内网。

然而这里面最重要的一项关键技术是C-MaaS,也就是ConfidentialMaaS的机密推理。这种技术可以让用户的数据真正做到可用,但对第三方不可见。

安全不是Agent的可选项,是百炼的出厂标配。作为百炼安全能力中硬核的一环,C-MaaS解决的是大模型时代最尖锐的一个问题——当我的数据进入到模型提供商、进入到百炼,我的数据还是不是我的?我们的回答是,你的模型推理是可用的,但对我们是不可见的,数据的主权归用户所有。

这背后是一套端到端的可信架构,环环相扣,有四个环节。

第一层,基础设施的可信。 我们的CPU、GPU芯片级的硬件安全里有独立的安全区域,机密的异构虚拟机使得代码和硬件与数据都不可篡改。

第二层,推理服务可信。 环境可以做加固,组件最小化,从BIOS到全应用的全链路是可度量的,代码可以定向开源,可以支持客户拿到从终端到百炼推理网关的端到端代码,或者交由第三方审计,保证可以自主验证。

第三层,传输链路的可信。 远程证明只有通过后才会开启对话,TEE硬件从根密钥的生成,客户端到推理端实现了端到端的加密。

第四层,审计的验证可信。 我们支持第三方的独立审计,也提供了透明的日志服务,可以让联盟链把我们所有的访问过程做存证,保证全流程的可追溯、不可抵赖。

所以通过代码的定向开源、通过远程证明、通过透明日志,这三件事同时成立,可信就不再是一句云厂商对客户的承诺,而是被写进了密码学、也被刻进了硬件,不可再更改,也会被记录到联盟链。数据主权归属客户就不再只是一句口号,而是一个可验证、可审计、可追溯的事实。这也是百炼为Agent时代的机密推理定义的一个新的基线。

效果更优:一站式模型调优

进入Agent时代,企业对大模型的要求不再只是能对话,而是真正融入业务,所以企业对模型针对性优化提出了很高的门槛。百炼的模型调优就是要解决这个问题。我们提供了一站式的调优能力,覆盖从数据的准备、训练、评估到部署的完整链路,可以大幅降低企业的门槛。百炼的模型精调功能,大家不需要去理解背后有多少GPU,一切都是平台化操作,用API调用。与此同时,百炼也构建了一个由开源和闭源模型、数据、训练框架组成的完整生态,让企业在模型调优上不再是一次性的工作,也可以做一个持续的闭环。像蚂蚁集团、金山WPS、影石、步步高等客户,已经在ToC应用、办公、教育这些场景中,基于百炼实现了新能力的落地。

也契合今天峰会的主题Agent——如何面向Agent,通过强化学习的方法来优化模型,使得模型能在企业场景中做得更好。传统的微调往往关注的是模型的回答是不是对的,Agent的场景往往关注的是能不能把某一个任务做好,所以需要比较深刻地理解要做的事情的目标,学会调用企业专属的工具,使用多步推理的方式,并根据反馈持续做优化。

Agent RL就是为了解决这个问题。通过强化学习,我们可以优化Agent的自主执行力、多步决策能力、工具调用能力,并构建面向真实业务的持续优化闭环。在平台侧,百炼首先支持快速的业务逻辑定义,可以让这些业务逻辑比较无缝地接入训练的工作流。企业可以把自己的环境、沙箱、奖励函数、任务目标接入平台,平台通过内置的GRPO、DAPO等主流强化学习算法,开箱即用。第二个是训练过程的白盒化,我们也提供了轨迹分析、奖励分析、工具调用分析等多维度面板,让团队看清模型在哪个环节表现好、哪个环节需要持续优化,不再是黑盒的训练。

最右侧展现了两个典型场景,一个是数学任务,一个是deep research任务。我发现通过在百炼上的精调,用小模型就可以在针对企业的特定场景下,做到类似大模型的效果提升。百炼API化、平台化的Agent RL,让模型不再只有语言能力,可以在企业内部的业务场景中,用更低的成本具有更好的行动力和进化能力。

生态繁荣:统一的连接层

在今天,千行百业都在用AI重构业务流程。在真正落地的时候,会遇到一个非常现实的问题,前端的行业场景非常分散,后端的模型生态又在百花齐放,每个行业都有自己的业务流程,每个模型也有不同的能力边界、调用方式和使用成本。模型越多,能力越丰富,开发者需要面临的复杂度反而越高。所以百炼的另一个目标就是在千行百业和百花齐放的模型生态之间,提供一个统一的连接层。

在应用侧,百炼支持主流的Agent框架,让开发者可以沿用熟悉的工作流。在接口侧,百炼提供一个统一的API,兼容主流的协议和调用方式。在模型侧,百炼也接入了各种模态的、来自阿里巴巴以及其他合作伙伴的生态模型。重要的是,开发者通过这套API接入的不仅仅是模型本身,也可以享受百炼背后的能力,也可以统一地做计量和计费。这样行业应用不用再反复针对每一个模型做适配,只要接入一个统一的API,就可以享受全模型、全模态和百炼的平台能力。

关于模型生态,我们还安排了一个特别的环节,接下来有请我的同事伟光回到台上,做我们的重大发布。

6、重磅发布——百炼开放模型湖库与千问云官网

我们先来一起回忆一下,在2023年9月份的云栖大会上,阿里巴巴董事会主席蔡崇信先生讲过一段话,原话是:在AI时代,阿里云致力于打造最开放的云。三年过去了,我们如何践行这段话?今天就是最好的答案。

作为技术提供者和生态构建者,阿里云百炼平台开放模型服务,不仅是开放提供阿里自己的模型,更是携手业界顶尖的模型伙伴,共建繁荣生态。我们最终的目的是希望我们的客户在阿里云百炼平台上,找到每个领域最好的SOTA模型,找到最好的模型组合,找到最具性价比的推理服务,致力于打造AI时代最开放的云。

下面我们邀请了6家中国顶尖的模型公司代表来到现场,共同见证阿里云百炼开放模型湖库,与顶尖模型共建繁荣生态。

还有一件重要事情跟大家宣布。首先开启一个问题,来启动一个重要的发布线索。在Agentic时代,当用云、使用云的对象从人逐渐切换成了人和Agent,甚至逐渐过渡到了Agent自由自如地使用云的时候,我想替Agent问一个问题——如何让成千上万、成亿的Agent能用好AI、用好模型、用好云?

答案就是今天发布的全新千问云官网,它是一个为Agent而生的全新服务方式。

首先,千问云的设计理念从一开始就是对Agent非常友好的,从模型的选型、调用、用量查询等核心能力都封装成了Skills,同时提供了命令行工具,让开发者和Agent都能够稳定、自动化地接入。同样对于人类开发者来讲,千问云更加直观,开发者可以在平台上同步对比多款模型的能力,完成模型的测评、体验和选型,模型生态全面开放,覆盖国内外主流模型。千问云上的用量管理也更加透明、更加智能,Agent自己可以实时获取用量数据、分析趋势、识别异常,帮助判断成本优化空间。

作为中国最大的云厂商和中国最大的AI全栈服务提供商,千问云官网的发布代表着我们面向未来的服务主张,为自主执行、自主决策的Agent提供服务。过去我们经常讲一句话叫未来已来,但在AI时代,未来每天都在到来,所以与其说,不如我们一起提前进入这个未来。在今天上午论坛的最后,我们通过一段视频,深入走进全新的千问云官网。也正是这个时代,阿里云,We are ready。

作者 AI财经

AI财经提供的财经数据以及其他资料均来自互联网其他第三方,仅作为用户获取信息之目的,并不构成投资建议。
AI财经以及其他第三方不为本页面提供信息的错误、残缺、延迟或因依靠此信息所采取的任何行动负责。市场有风险,投资需谨慎。