原来你们说今年投资难，是难在怎么赚更多啊0419@kk

📋 “今年是投资很难的一年” ：马上就要放五一了，回来再一晃上半年就过完了。今年从新年开始，就反复听到说今年投资难，就是几个原因：“模型还没等来新的范式”、“AI没有看到新的应用场景”、“AI应用都被吞噬”、“没有清晰陡峭的货币化路径”、“AI涨了三年，都在高位，太拥挤了”、“低位的没有起来的迹象”、“

“今年是投资很难的一年”：马上就要放五一了，回来再一晃上半年就过完了。今年从新年开始，就反复听到说今年投资难，就是几个原因：“模型还没等来新的范式”、“AI没有看到新的应用场景”、“AI应用都被吞噬”、“没有清晰陡峭的货币化路径”、“AI涨了三年，都在高位，太拥挤了”、“低位的没有起来的迹象”、“地缘的影响太大了”
真AI又又又又新高了，大家还记得的话，上一次这么喊话也就1个季度前
自信的朋友净值又又又新高了
AI的股价有三个因素低估了：
迭代频次
顶峰利润
加速度
前面写了这么多文章，海内外的的饼确实非常大，如果用这个数字去算，顶峰利润会很夸张。而且这波AI的加速度极其高，AI lab的ARR都体现出来了，尤其是anthropic今年又10x增长
以上这些只是反复提醒，不要轻易下车，搓波段也要及时回来
那往后看，怎么选择投资方向？所有的一切都从模型出发，最大的变化就是训练—>推理，chatbot—>agent—>harness
大模型本质是一个无状态的文本处理函数，吞吐字符串；Agent本质是Harness，解决了记忆、交互、执行的框架问题，让大模型的智能得以在工作流中应用
控制流：Agent 框架通常包含一个
while 循环（规划+边界）。比如，经典的ReAct（Reason + Act）
模式。例如，拦截输出，去执行搜索操作。LongChain、AutoGen去写大量代码来定义节点、路由和流转条件。
工具：Agent 会不断调用 LLM
函数。大模型无法直接联网，但 Agent 框架里写好了各种本地函数（search_web(), read_database(),
run_python()）。当 LLM 决定需要某些信息时，Agent 框架负责真正去执行这些
API，拿到结果后，再把结果打包成文本，重新作为参数传给 LLM 函数。
记忆：因为 LLM 是无状态的，Agent
框架会维护一个数据库（向量数据库或本地上下文记录）。每次调用 LLM 前，Agent 框架都会先去翻阅记忆，把历史记录拼接在 Prompt 里传给
LLM，让它看起来像是有记忆一样。
训练数据：思维链（模型推理过程）、工具调用（API
名称、参数、返回值）、多轮对话（用户-Agent-环境交互序列）
预训练
产出基础模型（Base Model），具备文本补全能力但缺乏对话能力。海量无标注文本（互联网文本、书籍、代码等，通常>1万亿tokens），通过自监督学习（语言建模）建立通用表征能力，学习语法、事实和基础常识。需要千卡级GPU集群训练数月，参数量通常在百亿至万亿级别。
数据处理->tokenization->神经网络训练
拿大规模语料->DRAM（loader/batching）->PCIe->HBM->Cache->Tensor Core->NV Link/InfiniBand(梯度同步）
中期训练（先有能力，才能校正）
使用中等规模的、领域特定的数据集（包含指令数据），专门针对几个关键能力方向进行增强。中期训练也是训练，数据流和训练相似。
后训练：教Agent知道什么时候做什么、怎么做、以及不该做什么
有什么工具、怎么调用工具、什么不能做（即使没直接说）、错了怎么办、如何保持上下文一致性、如何理解人类意图、什么是好的答案
Agent 能力（需要通过专门的微调注入。Agent 的 SFT 通常依赖专家轨迹数据（expert trajectories），即演示如何完成任务的高质量交互序列，包括思考过程（Thought）、行动（Action）和观察（Observation）。对于 Web Agent 等复杂任务，通常采用拒绝采样 SFT，先让教师模型生成多条候选轨迹，仅保留成功完成的轨迹用于微调。
SFT：目标是让模型学会指令遵循。SFT建立任务遵循、推理表达、工具使用与多轮交互的行为先验
Agent 的 SFT 通常依赖专家轨迹数据（expert trajectories），即演示如何完成任务的高质量交互序列，包括思考过程（Thought）、行动（Action）和观察（Observation）。对于 Web Agent 等复杂任务，通常采用拒绝采样 SFT，先让教师模型生成多条候选轨迹，仅保留成功完成的轨迹用于微调。以GLM-5为例，本质上，一方面，它继续完成基础的行为对齐；另一方面，它也在为后续的 Reasoning RL、Agentic RL 以及更复杂的 tool-use 场景提前搭建行为模板。
拿数据对->DRAM（loader/batching/template/loss mask）->PCle->HBM->Cache->Tensor Core->NV Link/InfiniBand(轻量梯度）
RL：
策略、价值、奖励等模型。Rollout采样，Reward打分。PPO更新。
Reasoning/Agentic Tasks/General Tasks等形态
数据合成/RLVR等方式
PPO框架（近端策略优化）
数据集->DRAM（环境数据等）->PCle->HBM(Actor策略网络模型）->Cache->Tensor Core->DRAM(Feedback）->PCIe->HBM(RM奖励模型）->Tensor Core(打分）->PCIe->DRAM(计算Advantage)->计算PPO Loss，梯度同步
Agent Turning：
是一种特殊的Fine-Tuning，有时也被称为Tool SFT，特殊之处在于Agent Tuning的Prompt更复杂、约束条件更多，且Agent工作过程是多步骤的。
推理：Prefill(预填充，计算密集）→ Decode（解码，存储密集）
分词、计算、KV cache、首字。自回归、读cache、概率生成，和一般的推理过程没有什么差别。
对Agent来说是真正去做、去执行。推理的质量由训练决定，推理可以做更多步数。高层目标拆解，具体哪些步骤有依赖关系、哪些可以并行、哪些需要先获取信息才能规划。
调用工具时，参数构造、时机选择、结果解读都需要推理。不断对比状态和目标，反思自己的轨迹对不对，及时修正规划。单测全部通过后，把最终代码返回给用户。
长程（Coding为主）、多模态（大模型为主）、Multi-agent
对话：最开始的形态，一轮或者多轮就结束了。基本纯Prompt，也称不上Agent。
长程：长时间+多步骤+自主运行。代码运行要么对要么错，所以Coding最成熟、最有代表性。更大的HBM/更优的压缩算法/Attention机制，是支撑长程成立的基础设施条件。
多模态：成本太高+弱网络效应。分辨率（像素数量）
× 帧数（多少秒） × 去噪步数（噪声 → 多步去噪 → 视频帧）。文本大模型是输入序列 → 自回归逐token生成。每一步去噪都要处理数百帧 ×
每帧数千patches。视频生成也可以复用Cache，但效果更差，难度更高。文本KV是精确的Token，视频是变化的中间去噪状态，效果大打折扣。证据，Seedance算力不足，Sora关停。多模态Agent还没跑出来，现在能看到边的是Computer-use，这也只是完成一些简单的活。
Multiagent：特定任务的必要选择。上下窗口不足/并行化（任务拆解第一性+隔离）->MAS。SA不可靠，就不用期望MAS可靠，长程SA是MAS成熟的必须条件。企业级任务大多是MAS，而不是SA。Orchestrator是模型做，而不是人去做。
互联、带宽的重要性远高于算力
第一阶段: ScaleOut：以构建单任务万卡/十万卡的训练任务集群
第二阶段: ScaleUp：用于高性能推理的超节点, 追求低延迟和处理MoE通信
1、芯片
1) GPU
2) CPU
3) LPU/CPX
2、整机
1） Scale up：正交背板、NPO/XPO、铜缆（AOC、AEC等）的连接方式
2）Scale out：
3） Scale across：
4）上下文存储机柜：
为什么看2-3年，就是一直的观点，已经交易到27年估值，肯定要看到28、29年，这个位置才能重仓干
token，100x增长：今年10-30x的增长，明年3-5x（或者每年10-20x），2-3年的时间相对今年还能翻30-50x，甚至100x，无论怎么看，都是历史上从未出现过的顶尖级增长
大模型，30-50x：收入=token*单价，今年的模型仍然在涨价（要么是sota模型的定价还在涨，要么是国内的模型直接涨价），假设未来未来单价每年降一半。商业模式还在变化，订阅—>coding plan—>api，收费能力和token量越来越线性
光设备，10x：光capex加速*国产化率提升*价值量提升。比如xc的capex是3-4x yoy，国产化率、利润率一提，那对应的厂商可能有10x增长
国产芯片，5x：capex总量提升*渗透率提升，经历23-24年的nv。假设一下，如果未来几年国内的capex维持50-60%的增长，总量2-3x增长，今年国产化率也就20%，如果提升到50%，那国产芯片有4-6x增长
云/算租，5x：推理的云，总量跟着token提升，商业模式的变化带来op margin的提升
CPU，3-4x：现在CPU:GPU=1:4（8卡服务器）、1:2（compute tray），如果放在整个数据中心，1:8-1:4，这个比例未来是1:2-1:1，加上国产化率提升的逻辑，那就可以5-10x了。有一个预期差是，大家都以为cpu是在推理阶段的增量，其实训练也需要CPU参加了，那这个总量还可以上修，但训练需要注意的是，这个需求在后训练阶段，而且有脉冲，不是一直占用。
光，3-4x：scale up是这轮最大的变化，光的价值量从5%到20%
能耗，1-2x：研究完CPU就低估了一个点，我们一直按照GPU的能耗去看液冷的需求，在⼤批量（batch
sizes）情况下，CPU 动态能耗可达总动态能耗的 44%。Xeon 6+的TDP是450w，Xeon 7是650w
电源，渗透率提升以后跟着功耗走：800vHVDC已经是很清晰的方向了，后面还有sst，液冷和电源都找新技术
液冷，赚渗透率提升的一波后跟着卡得总量：nv的cpu柜子还是风冷的，arm的cpu柜子是液冷了，但是有增量变化
应用：除了大模型外，肯定会是最大成长的环节，但现在AI-native的公司还没上市，静待
纯粹和算力总量相关的，那机会就很小了
对于我而言，框架很简单，无论是PB-ROE的框架，还是利润二阶导的框架。这些都是判断大周期的顶，这个时间可能是半年，可能是一年，才能验证到。在周期的框架中时刻关注产业的进展，比如加速度、roi等指标，这些可以避免过度担忧周期而提早下车。
这也是我们，要把整个AI拉在一起分析的原因。

原来你们说今年投资难，是难在怎么赚更多啊0419@kk

作者AI财经

作者 AI财经