📋 “今年是投资很难的一年” :马上就要放五一了,回来再一晃上半年就过完了。今年从新年开始,就反复听到说今年投资难,就是几个原因:“模型还没等来新的范式”、“AI没有看到新的应用场景”、“AI应用都被吞噬”、“没有清晰陡峭的货币化路径”、“AI涨了三年,都在高位,太拥挤了”、“低位的没有起来的迹象”、“
- “今年是投资很难的一年”:马上就要放五一了,回来再一晃上半年就过完了。今年从新年开始,就反复听到说今年投资难,就是几个原因:“模型还没等来新的范式”、“AI没有看到新的应用场景”、“AI应用都被吞噬”、“没有清晰陡峭的货币化路径”、“AI涨了三年,都在高位,太拥挤了”、“低位的没有起来的迹象”、“地缘的影响太大了”
- 真AI又又又又新高了,大家还记得的话,上一次这么喊话也就1个季度前
- 自信的朋友净值又又又新高了
- AI的股价有三个因素低估了:
- 迭代频次
- 顶峰利润
- 加速度
- 前面写了这么多文章,海内外的的饼确实非常大,如果用这个数字去算,顶峰利润会很夸张。而且这波AI的加速度极其高,AI lab的ARR都体现出来了,尤其是anthropic今年又10x增长
- 以上这些只是反复提醒,不要轻易下车,搓波段也要及时回来
- 那往后看,怎么选择投资方向?所有的一切都从模型出发,最大的变化就是训练—>推理,chatbot—>agent—>harness
- 大模型本质是一个无状态的文本处理函数,吞吐字符串;Agent本质是Harness,解决了记忆、交互、执行的框架问题,让大模型的智能得以在工作流中应用
- 控制流:Agent 框架通常包含一个
while 循环(规划+边界)。比如,经典的ReAct(Reason + Act)
模式。例如,拦截输出,去执行搜索操作。LongChain、AutoGen去写大量代码来定义节点、路由和流转条件。 - 工具:Agent 会不断调用 LLM
函数。大模型无法直接联网,但 Agent 框架里写好了各种本地函数(search_web(), read_database(),
run_python())。当 LLM 决定需要某些信息时,Agent 框架负责真正去执行这些
API,拿到结果后,再把结果打包成文本,重新作为参数传给 LLM 函数。 - 记忆:因为 LLM 是无状态的,Agent
框架会维护一个数据库(向量数据库或本地上下文记录)。每次调用 LLM 前,Agent 框架都会先去翻阅记忆,把历史记录拼接在 Prompt 里传给
LLM,让它看起来像是有记忆一样。 - 训练数据:思维链(模型推理过程)、工具调用(API
名称、参数、返回值)、多轮对话(用户-Agent-环境交互序列) - 预训练
- 产出基础模型(Base Model),具备文本补全能力但缺乏对话能力。海量无标注文本(互联网文本、书籍、代码等,通常>1万亿tokens),通过自监督学习(语言建模)建立通用表征能力,学习语法、事实和基础常识。需要千卡级GPU集群训练数月,参数量通常在百亿至万亿级别。
- 数据处理->tokenization->神经网络训练
- 拿大规模语料->DRAM(loader/batching)->PCIe->HBM->Cache->Tensor Core->NV Link/InfiniBand(梯度同步)
- 中期训练(先有能力,才能校正)
- 使用中等规模的、领域特定的数据集(包含指令数据),专门针对几个关键能力方向进行增强。中期训练也是训练,数据流和训练相似。
- 后训练:教Agent知道什么时候做什么、怎么做、以及不该做什么
- 有什么工具、怎么调用工具、什么不能做(即使没直接说)、错了怎么办、如何保持上下文一致性、如何理解人类意图、什么是好的答案
- Agent 能力(需要通过专门的微调注入。Agent 的 SFT 通常依赖专家轨迹数据(expert trajectories),即演示如何完成任务的高质量交互序列,包括思考过程(Thought)、行动(Action)和观察(Observation)。对于 Web Agent 等复杂任务,通常采用拒绝采样 SFT,先让教师模型生成多条候选轨迹,仅保留成功完成的轨迹用于微调。
- SFT:目标是让模型学会指令遵循。SFT建立任务遵循、推理表达、工具使用与多轮交互的行为先验
- Agent 的 SFT 通常依赖专家轨迹数据(expert trajectories),即演示如何完成任务的高质量交互序列,包括思考过程(Thought)、行动(Action)和观察(Observation)。对于 Web Agent 等复杂任务,通常采用拒绝采样 SFT,先让教师模型生成多条候选轨迹,仅保留成功完成的轨迹用于微调。以GLM-5为例,本质上,一方面,它继续完成基础的行为对齐;另一方面,它也在为后续的 Reasoning RL、Agentic RL 以及更复杂的 tool-use 场景提前搭建行为模板。
- 拿数据对->DRAM(loader/batching/template/loss mask)->PCle->HBM->Cache->Tensor Core->NV Link/InfiniBand(轻量梯度)
- RL:
- 策略、价值、奖励等模型。Rollout采样,Reward打分。PPO更新。
- Reasoning/Agentic Tasks/General Tasks等形态
- 数据合成/RLVR等方式
- PPO框架(近端策略优化)
- 数据集->DRAM(环境数据等)->PCle->HBM(Actor策略网络模型)->Cache->Tensor Core->DRAM(Feedback)->PCIe->HBM(RM奖励模型)->Tensor Core(打分)->PCIe->DRAM(计算Advantage)->计算PPO Loss,梯度同步
- Agent Turning:
- 是一种特殊的Fine-Tuning,有时也被称为Tool SFT,特殊之处在于Agent Tuning的Prompt更复杂、约束条件更多,且Agent工作过程是多步骤的。
- 推理:Prefill(预填充,计算密集)→ Decode(解码,存储密集)
- 分词、计算、KV cache、首字。自回归、读cache、概率生成,和一般的推理过程没有什么差别。
- 对Agent来说是真正去做、去执行。推理的质量由训练决定,推理可以做更多步数。高层目标拆解,具体哪些步骤有依赖关系、哪些可以并行、哪些需要先获取信息才能规划。
- 调用工具时,参数构造、时机选择、结果解读都需要推理。不断对比状态和目标,反思自己的轨迹对不对,及时修正规划。单测全部通过后,把最终代码返回给用户。
- 长程(Coding为主)、多模态(大模型为主)、Multi-agent
- 对话:最开始的形态,一轮或者多轮就结束了。基本纯Prompt,也称不上Agent。
- 长程:长时间+多步骤+自主运行。代码运行要么对要么错,所以Coding最成熟、最有代表性。更大的HBM/更优的压缩算法/Attention机制,是支撑长程成立的基础设施条件。
- 多模态:成本太高+弱网络效应。分辨率(像素数量)
× 帧数(多少秒) × 去噪步数(噪声 → 多步去噪 → 视频帧)。文本大模型是输入序列 → 自回归逐token生成。每一步去噪都要处理数百帧 ×
每帧数千patches。视频生成也可以复用Cache,但效果更差,难度更高。文本KV是精确的Token,视频是变化的中间去噪状态,效果大打折扣。证据,Seedance算力不足,Sora关停。多模态Agent还没跑出来,现在能看到边的是Computer-use,这也只是完成一些简单的活。 - Multiagent:特定任务的必要选择。上下窗口不足/并行化(任务拆解第一性+隔离)->MAS。SA不可靠,就不用期望MAS可靠,长程SA是MAS成熟的必须条件。企业级任务大多是MAS,而不是SA。Orchestrator是模型做,而不是人去做。
- 互联、带宽的重要性远高于算力
- 第一阶段: ScaleOut:以构建单任务万卡/十万卡的训练任务集群
- 第二阶段: ScaleUp:用于高性能推理的超节点, 追求低延迟和处理MoE通信
- 1、芯片
- 1) GPU
- 2) CPU
- 3) LPU/CPX
- 2、整机
- 1) Scale up:正交背板、NPO/XPO、铜缆(AOC、AEC等)的连接方式
- 2)Scale out:
- 3) Scale across:
- 4)上下文存储机柜:
- 为什么看2-3年,就是一直的观点,已经交易到27年估值,肯定要看到28、29年,这个位置才能重仓干
- token,100x增长:今年10-30x的增长,明年3-5x(或者每年10-20x),2-3年的时间相对今年还能翻30-50x,甚至100x,无论怎么看,都是历史上从未出现过的顶尖级增长
- 大模型,30-50x:收入=token*单价,今年的模型仍然在涨价(要么是sota模型的定价还在涨,要么是国内的模型直接涨价),假设未来未来单价每年降一半。商业模式还在变化,订阅—>coding plan—>api,收费能力和token量越来越线性
- 光设备,10x:光capex加速*国产化率提升*价值量提升。比如xc的capex是3-4x yoy,国产化率、利润率一提,那对应的厂商可能有10x增长
- 国产芯片,5x:capex总量提升*渗透率提升,经历23-24年的nv。假设一下,如果未来几年国内的capex维持50-60%的增长,总量2-3x增长,今年国产化率也就20%,如果提升到50%,那国产芯片有4-6x增长
- 云/算租,5x:推理的云,总量跟着token提升,商业模式的变化带来op margin的提升
- CPU,3-4x:现在CPU:GPU=1:4(8卡服务器)、1:2(compute tray),如果放在整个数据中心,1:8-1:4,这个比例未来是1:2-1:1,加上国产化率提升的逻辑,那就可以5-10x了。有一个预期差是,大家都以为cpu是在推理阶段的增量,其实训练也需要CPU参加了,那这个总量还可以上修,但训练需要注意的是,这个需求在后训练阶段,而且有脉冲,不是一直占用。
- 光,3-4x:scale up是这轮最大的变化,光的价值量从5%到20%
- 能耗,1-2x:研究完CPU就低估了一个点,我们一直按照GPU的能耗去看液冷的需求,在⼤批量(batch
sizes)情况下,CPU 动态能耗可达总动态能耗的 44%。Xeon 6+的TDP是450w,Xeon 7是650w - 电源,渗透率提升以后跟着功耗走:800vHVDC已经是很清晰的方向了,后面还有sst,液冷和电源都找新技术
- 液冷,赚渗透率提升的一波后跟着卡得总量:nv的cpu柜子还是风冷的,arm的cpu柜子是液冷了,但是有增量变化
- 应用:除了大模型外,肯定会是最大成长的环节,但现在AI-native的公司还没上市,静待
- 纯粹和算力总量相关的,那机会就很小了
- 对于我而言,框架很简单,无论是PB-ROE的框架,还是利润二阶导的框架。这些都是判断大周期的顶,这个时间可能是半年,可能是一年,才能验证到。在周期的框架中时刻关注产业的进展,比如加速度、roi等指标,这些可以避免过度担忧周期而提早下车。
- 这也是我们,要把整个AI拉在一起分析的原因。
