🔍 关于模型格局的几点思考

🎯 模型必须在某一方面非常出色,或者在各方面都很优秀。​ 你必须在模型的一端或另一端具备优势。试图做到平庸,只会让你处于中间位置并被竞争淘汰。
⚔️ 我们将看到”便宜”阵营和”昂贵”阵营之间的整合。​ “出色”阵营将出现:如果你的模型仅仅与DeepSeek持平或略优于DeepSeek,你就无法生存。”便宜”阵营也将如此:如果建模成本变得太高,任务分配将倾向于”便宜”模型,以最大化每美元的性能。
🧩 模型路由将变得必要。​ 在”合适”的模型和”廉价”的模型之间做出选择将变得必要。必须分配足够的任务给合适的模型,以最大化单位成本的性能。
🧠 好的模型是否足够便宜?​ 廉价模型阵营的看跌理由是,一旦廉价模型足够好,大多数用户就会满意。我不同意这种观点。我认为前端智能将永远不会被完全满足。市场上两端都将有持久的需求。
💰 关键在于廉价模型是否跨越了”足够好”这条线。​ 对于前沿模型的悲观预期是,一旦廉价模型足够好,大多数用户就不会满意。我不同意这种观点。我认为前端智能将永远不会被完全满足。市场上两端都将有持久的需求。
🚧 GLM/中国模型恐惧值得关注,但目前无需夸大。​ GLM受芯片严重制约。它主要通过Together、Fireworks和类似公司提供服务,而非广泛部署在公共云上。我们关注两点:1)可用性,以及2)与OpenAI和Anthropic相比的质量差距,这将决定其随时间推移产生的真正影响。
📉 Token定价可能具有误导性。​ 如果两个模型相似,且价格差距为50%,这一差距很容易通过使用两倍token来完成同样的任务而被抵消。(仅比较”每百万token输入价格”往往具有欺骗性。)
⛓️ 廉价模型及其供应链被低估了。(也就是所谓的中国AI)
🤔 云端 vs. 本地真的应该有这么大的差距吗……我同意这一点:如果运行GLM 5.2需要花费20万美元……5.5年后才能实现GLM 5.2的利用率,即使经过5.5年的24/7运行,云成本仍将翻倍。
🏢 本地部署与云端部署实在没必要引发这么多争论……我赞同这里的观点:如果全天候运行GLM 5.2需要花费2万美元的硬件,而且只有在运行5.5年后才能回本,那么云端依然胜出。就每美元总成本而言。
💬 以下是关于”杰文斯悖论”(Jevons Paradox)和”Tokenmaxing”的探讨:
📖 “Tokenmaxing”和”杰文斯悖论”。​ 与任何前沿技术一样,从早期采用者向主流市场的过渡通常需要一次重置。廉价模型将扩大市场。
📊 我一直在调研GLM 5.2的实际表现——简而言之,”别只看基准测试,听听构建者的真实想法。”
💬 我很希望听到任何使用过GLM 5.2或其他开源模型的人分享一些初步体验。
✅ 质量反馈出奇地积极。​ 许多人表示GLM 5.2大致处于Codex 5.5中等思维(medium-thinking)的水平。
💻 反馈非常积极。​ 许多人表示,在编码任务方面,GLM 5.2大致相当于Codex 5.5中等思维(medium-thinking)的水平。
💡 最常见的观点是,它在前端任务上的表现优于后端任务。​ 我听到的反对意见主要有:
它在解决更复杂问题时仍然表现滞后。
它在泛化方面可能较弱——特别是当任务与它所经历过的常见模式明显不同时。
它在泛化能力上可能较弱——特别是当任务与它所经历过的前面常见模式有实质性差异时。
🧮 总体来看,如何思考开源模型?
🗣️ Gavin Baker 很好地概括道:
“前沿模型获取了90%的价值;开源模型承载了80%的token。”
“前沿模型获取了90%的价值;开源模型承载了80%的token。”
💡 这两件事可以同时为真。大多数经济学家可能倾向于认为前沿模型将占据大部分经济价值。开源模型可以并继续积累。这两件事可以同时成立——到目前为止,显然确实如此。同时,全球大部分token可能继续由开源模型提供——这一点似乎也越来越真实。
📚 Harvey等人最近的一篇好例子:他们报告说使用监督微调在开源模型上重现了Fireworks的路由。结果开源模型Opus 4.7 / 4.8表现更好。但像大多数前沿模型一样,未来token可能会越来越多地转向特定用途的开源模型。
📊 Harvey数据就是一个很好的例子。​ 据报道,他们利用强化学习和监督微调,随后使用一个开源模型。其结果是,在成本更低的情况下,效果优于Opus 4.7 / 4.8。
🛡️ 因此,开源模型是真正的成本底线。
🎭 DeepSeek依然是这里真正的成本领跑者。​ 在某种程度上,它确立了一个”性价比基准”:相比之下,DeepSeek更便宜,而且必须在性能上有显著提升,用户才会直接去使用DeepSeek并增加重试次数。
⚠️ 尽管如此,构建者对DeepSeek在一些维度上仍有抱怨:
质量可能不稳定。
不同运行之间的输出可能不一致。
对于同一任务,有时会出现较高的重试率。
更高的重试率会产生更多的缓存token,这会侵蚀明显的成本优势。
明显的成本优势可能会产生更多的重试循环,从而削弱明显的成本优势。
💸 Pricing comparison 定价比较
📝 表面上,GLM比Claude Opus便宜4-6倍。​ 但有几个方面可能会使实际经济成本曲线发生扭曲:
缓存命中率——​ 尤其是在缓存密集型代理循环中。
成功率/重试率——​ 如果一个模型一次性完成任务,而另一个需要额外进行2-3轮,token节省会很快消失。
稳定性与重试率密切相关。​ 更便宜的模型在生产中失败的频率通常更高。
一个失败频率更高、重试率更可靠的模型,在实际生产中未必更便宜。

作者 AI财经

AI财经提供的财经数据以及其他资料均来自互联网其他第三方,仅作为用户获取信息之目的,并不构成投资建议。
AI财经以及其他第三方不为本页面提供信息的错误、残缺、延迟或因依靠此信息所采取的任何行动负责。市场有风险,投资需谨慎。