🔍 关于模型格局的几点思考

🎯 模型必须在某一方面非常出色，或者在各方面都很优秀。你必须在模型的一端或另一端具备优势。试图做到平庸，只会让你处于中间位置并被竞争淘汰。
⚔️ 我们将看到”便宜”阵营和”昂贵”阵营之间的整合。 “出色”阵营将出现：如果你的模型仅仅与DeepSeek持平或略优于DeepSeek，你就无法生存。”便宜”阵营也将如此：如果建模成本变得太高，任务分配将倾向于”便宜”模型，以最大化每美元的性能。
🧩 模型路由将变得必要。在”合适”的模型和”廉价”的模型之间做出选择将变得必要。必须分配足够的任务给合适的模型，以最大化单位成本的性能。
🧠 好的模型是否足够便宜？廉价模型阵营的看跌理由是，一旦廉价模型足够好，大多数用户就会满意。我不同意这种观点。我认为前端智能将永远不会被完全满足。市场上两端都将有持久的需求。
💰 关键在于廉价模型是否跨越了”足够好”这条线。对于前沿模型的悲观预期是，一旦廉价模型足够好，大多数用户就不会满意。我不同意这种观点。我认为前端智能将永远不会被完全满足。市场上两端都将有持久的需求。
🚧 GLM/中国模型恐惧值得关注，但目前无需夸大。 GLM受芯片严重制约。它主要通过Together、Fireworks和类似公司提供服务，而非广泛部署在公共云上。我们关注两点：1）可用性，以及2）与OpenAI和Anthropic相比的质量差距，这将决定其随时间推移产生的真正影响。
📉 Token定价可能具有误导性。如果两个模型相似，且价格差距为50%，这一差距很容易通过使用两倍token来完成同样的任务而被抵消。（仅比较”每百万token输入价格”往往具有欺骗性。）
⛓️ 廉价模型及其供应链被低估了。（也就是所谓的中国AI）
🤔 云端 vs. 本地真的应该有这么大的差距吗……我同意这一点：如果运行GLM 5.2需要花费20万美元……5.5年后才能实现GLM 5.2的利用率，即使经过5.5年的24/7运行，云成本仍将翻倍。
🏢 本地部署与云端部署实在没必要引发这么多争论……我赞同这里的观点：如果全天候运行GLM 5.2需要花费2万美元的硬件，而且只有在运行5.5年后才能回本，那么云端依然胜出。就每美元总成本而言。
💬 以下是关于”杰文斯悖论”（Jevons Paradox）和”Tokenmaxing”的探讨：
📖 “Tokenmaxing”和”杰文斯悖论”。与任何前沿技术一样，从早期采用者向主流市场的过渡通常需要一次重置。廉价模型将扩大市场。
📊 我一直在调研GLM 5.2的实际表现——简而言之，”别只看基准测试，听听构建者的真实想法。”
💬 我很希望听到任何使用过GLM 5.2或其他开源模型的人分享一些初步体验。
✅ 质量反馈出奇地积极。许多人表示GLM 5.2大致处于Codex 5.5中等思维（medium-thinking）的水平。
💻 反馈非常积极。许多人表示，在编码任务方面，GLM 5.2大致相当于Codex 5.5中等思维（medium-thinking）的水平。
💡 最常见的观点是，它在前端任务上的表现优于后端任务。我听到的反对意见主要有：
它在解决更复杂问题时仍然表现滞后。
它在泛化方面可能较弱——特别是当任务与它所经历过的常见模式明显不同时。
它在泛化能力上可能较弱——特别是当任务与它所经历过的前面常见模式有实质性差异时。
🧮 总体来看，如何思考开源模型？
🗣️ Gavin Baker 很好地概括道：
“前沿模型获取了90%的价值；开源模型承载了80%的token。”
“前沿模型获取了90%的价值；开源模型承载了80%的token。”
💡 这两件事可以同时为真。大多数经济学家可能倾向于认为前沿模型将占据大部分经济价值。开源模型可以并继续积累。这两件事可以同时成立——到目前为止，显然确实如此。同时，全球大部分token可能继续由开源模型提供——这一点似乎也越来越真实。
📚 Harvey等人最近的一篇好例子：他们报告说使用监督微调在开源模型上重现了Fireworks的路由。结果开源模型Opus 4.7 / 4.8表现更好。但像大多数前沿模型一样，未来token可能会越来越多地转向特定用途的开源模型。
📊 Harvey数据就是一个很好的例子。据报道，他们利用强化学习和监督微调，随后使用一个开源模型。其结果是，在成本更低的情况下，效果优于Opus 4.7 / 4.8。
🛡️ 因此，开源模型是真正的成本底线。
🎭 DeepSeek依然是这里真正的成本领跑者。在某种程度上，它确立了一个”性价比基准”：相比之下，DeepSeek更便宜，而且必须在性能上有显著提升，用户才会直接去使用DeepSeek并增加重试次数。
⚠️ 尽管如此，构建者对DeepSeek在一些维度上仍有抱怨：
质量可能不稳定。
不同运行之间的输出可能不一致。
对于同一任务，有时会出现较高的重试率。
更高的重试率会产生更多的缓存token，这会侵蚀明显的成本优势。
明显的成本优势可能会产生更多的重试循环，从而削弱明显的成本优势。
💸 Pricing comparison 定价比较
📝 表面上，GLM比Claude Opus便宜4-6倍。但有几个方面可能会使实际经济成本曲线发生扭曲：
缓存命中率—— 尤其是在缓存密集型代理循环中。
成功率/重试率—— 如果一个模型一次性完成任务，而另一个需要额外进行2-3轮，token节省会很快消失。
稳定性与重试率密切相关。更便宜的模型在生产中失败的频率通常更高。
一个失败频率更高、重试率更可靠的模型，在实际生产中未必更便宜。

🔍 关于模型格局的几点思考

作者AI财经

作者 AI财经