📋 中金互联网团队 Yang Bai Yang3.Bai@cicc.com.cn | (Wechat) mybaiyang Weijia Wu Weijia.Wu@cicc.com.cn | (Wechat) vicky_wuwj Qiuting Wang Qiuting.Wang@cicc.
- 2022年,预训练和大模型结合微调对齐之后,让模型学会了对话,我们人可以在模型上完成各种各样的对话、问答、总结、分析。
- 2024年,思维链技术横空出世,强化学习等技术让模型学习和思考。
- 2025年,真正的飞跃来了。AI Coding能力横空出世,能力跨越。AI Coding能力与硬件工程让模型真正从学会了对话、思考到帮我们做事。
- 第一,规模上是N个数量级的差距,从几十人可以到几万人的生产力跃升。
- 第二,7×24小时不间断的工作,规模巨大的Agent全天候在线,很多长尾需求可以得到满足。甚至说,今天我们看到One Person Company的崛起,很多大型公司的转型。我们今天最大的想象力在于,通过Agent和我们的共同协作,我们可以完成过去小公司甚至大公司几千人、几万人都不能跨越的边界,这就是Agent带给我们的未来。
- 在训练阶段,在预训练,我们的灵骏集群可以支持单集群10万卡的规模,然后我们万卡的线性扩展效率可以达到大于96%。我们的高性能网络从HPN已经演进到了HPN8.0,我们可以支持单集群10万卡的规模,然后支持800Gbps的网络带宽。基于我们的PaaS平台,我们的Qwen3.5的MoE模型的训练加速比相比之前提升了三倍。我们支持了像TensorFlow、Megatron这种训练框架里面,我们的端到端的训练性能提升了4.5倍。并且我们具备非常好的HA的能力,Checkpoint HA的能力。
- 在后训练阶段,我们主要是支持SFT和Agent RLVR,这个刚才我们已经提到了。那核心就是说在这个阶段进一步地提升模型的能力,支持主流的这种微调的模式,以及支持这种强化学习的框架,能够快速地提升模型的能力。支持单任务可以达到万沙箱的规模,大规模地快速提升模型的能力。
- 在推理阶段,我们从网络到KVCache到算力的支持,再到调度,我们做了一系列的工作,让我们的推理平台能够高效地生产Token。比如说,在我们的KVCache这个场景下,我们可以让我们的KVCache的命中率达到90%甚至更高。这样在Attention阶段,我们的Memory命中率非常高,这样就让我们的推理这种Memory-bound的工作负载可以得到极大的优化。
