AI 的能力，现在取决于你愿意花多少钱

作者：王林Lincoln | MindsLeap创始人 | Founders Space合伙人 | 企业家AI俱乐部创始人

"如果给它 1000 万美元的预算，让 GPT-3 去跑，它真的做不出什么更多的事。"

OpenAI 研究科学家 Noam Brown 在最近的访谈中说了这句话。那是 2022 年 GPT-3 的时代，推理预算的多少，对模型能力的提升微乎其微。今天这句话已经彻底反过来了。

Brown 是 OpenAI 推理能力研究的奠基者之一。他在 GPT-5.5 发布后写了一篇长文，直指整个行业正在用错误的方式评估 AI 模型。这篇文章的价值不在于技术细节，而在于它揭示了一个正在改变企业经营逻辑的事实：AI 的能力，现在取决于你愿意花多少钱。

一个让所有人困惑的发布

GPT-5.5 刚发布时，市场的第一反应是怀疑。

Benchmark 表格里，它比上一代 GPT-5.4 在某些测试上只高出几个百分点。从纸面看，这算不上什么质的飞跃。Brown 自己也承认，"公平地说，这种怀疑只持续了几个小时"，因为一旦用户开始亲手使用，感受就完全不同了。

问题出在基准测试的呈现方式上。传统的做法是：一个模型，一个数字，横向对比。但这种方式忽略了一个正在改变游戏规则的事实：模型的表现取决于你在单次推理中投入了多少计算量。

5.5 真正的突破不是绝对分数更高，而是思考的效率更高。在最大设置下运行，5.4 需要思考更久才能给出答案，而 5.5 用更短的思考时间就能达到同等甚至更好的效果。

"一旦你控制了思考时间的变量，5.5 相比 5.4 其实是一个巨大的跨越。"

这句话翻译给企业决策者的含义很简单：如果你只看到供应商公布的单一性能数字，你看到的可能只是一个被预算严重限制的结果，而不是模型的真实上限。

扑克牌桌上的信任与谎言

Brown 有一个独特的测试方法：让 AI 帮他写扑克机器人。

扑克不是运气游戏。它需要推理、迭代、处理大量边界情况，而且开源的扑克机器人代码极少，这意味着模型不能靠记忆已有的代码来作弊，必须真正理解问题。

早期的模型在这个任务上几乎一无是处。到了 GPT-5.2，情况变了。Brown 描述那种感觉："它就像一个研究生，会遇到问题，但至少我知道问题出在哪里，知道怎么纠正它。我只要给出方向，它就会跑出去做，然后很快带回一个不错的结果。"

他甚至用 AI 把代码优化了十倍。

但 5.2 有一个让 Brown 深感不安的问题：它会"煤气灯操纵"你，在你指出错误时，它会一本正经地坚持自己是对的。

有一次 Brown 拿它做单元测试：假设牌池里有 100 美元，我选择弃牌，我损失多少？模型回答 92 美元。Brown 说，这太离谱了。我在牌池里有 100 美元，我弃牌了，怎么可能不损失 100 美元？模型的回答是："哦，92 已经很接近 100 了，没什么大不了的。"

这种"明明错了却坚持自己对"的行为，在商业场景中比技术错误更危险。如果一个 AI 智能体在处理合同条款、财务数据或合规审查时犯了类似的错，而它又表现得极其自信，后果远比给出一个错误答案严重。

到了 GPT-5.5，Brown 说情况大幅改善，已经可以接近零样本完成整个扑克求解器。他预计："我不排除六个月到一年后，模型能一次性零样本地完成整个扑克求解器，基本上相当于我的整篇博士论文。"

思考需要时间，而商业等不了那么久

Brown 访谈中有一个经常被忽视的矛盾。

当被问到"行业是否在充分使用推理时间"时，他的回答出人意料地务实："那种让模型想上一周然后再给你回复的做法，听起来很美，基准测试的分数也很好看，但在实际工作中根本不实用。因为你会坐在那里干等一个星期。"

这更像是一个产品设计判断：推理时间的长短应该是弹性的。该快速回答的时候快速回答，该长时间思考的时候再长时间思考。

这对企业意味着什么？意味着 AI 智能体的部署不是一个技术问题，而是一个业务流程设计问题。你需要在哪些环节允许模型"深度思考"，哪些环节要求即时响应，这取决于你愿意承担多少等待成本。

安全评估的预算悖论

更深层的问题出现在安全评估领域。

所有前沿实验室都有一套"负责任的扩展政策"，在模型发布前，评估它是否具备危险能力，比如是否可能被用于制造生物武器。但这些评估框架大多建立在 ChatGPT 早期的假设上：模型的能力是固定的。

"现在我们面临的情况是，模型的能力是你投入多少钱的函数。给它 1 万美元，它比 10 美元时强得多。给它 1000 万美元，它又能做更多。那么问题来了：你应该在哪个预算水平上评估它？"

现有的政策框架几乎没有回答这个问题。

把这个逻辑延伸到企业经营中，情况类似：当你引入一个 AI 智能体时，它的"能力边界"不是一个固定值，而是由你愿意在每次调用上花费多少决定的。这改变了传统的供应商评估方式，你不仅要问"这个模型能做什么"，还要问"在什么样的预算约束下它能做什么"。

一个大家都知道不对的均衡

Brown 写那篇文章的动机之一，是他发现整个行业陷入了一个"坏的均衡"。

他和其他研究者都认同：基准测试应该带一个 X 轴，不管是 token 数、成本还是时间。每个人都同意。但没有人愿意第一个打破惯例。

"他们的回应是：大家期望我们发布那个网格表格。为什么大家期望？因为每个人都在发布那个表格。"

于是所有人都在用一个已经失效的标准继续发布数据，因为所有人都害怕成为第一个不这样做的人。

对于企业决策者来说，这个现象的教训更直接：当你在看供应商的 benchmark 时，不要只盯着分数。你应该问的是：这个数字是在什么预算条件下测出来的？如果预算翻十倍，结果会怎样？如果预算被限制在每次调用 10 美分以内，结果又会怎样？

路由层的神话与真相

访谈最后，Brown 被问到一个在 AI 创业圈很热门的话题：专门做模型路由的公司，通过组合多个模型的输出来提升效果，是否真的优于让单个模型想得更久？

他的回答再次回到了同一个原点："当你控制了推理时间的变量，路由层是否仍然更好？这才是你应该问的问题。"

如果你用五倍的成本跑了五个模型然后取共识，效果当然好。但如果你把这五倍的成本全部投入到一个模型上让它思考更久，结果可能会更好，或者至少需要公平比较才知道。

这不是在否定路由策略的价值，而是在提醒：所有效果比较必须在相同的成本基准上进行，否则你看到的"性能提升"可能只是预算差异的伪装。

回到经营的本质

Noam Brown 在访谈末尾提到了一个细节：他现在用 AI 咨询税务问题，最近买公寓时也用 AI 来理解需要填写的所有文件。他说："我觉得现在模型已经到了一个阶段，我可以信任它们的输出，甚至在某些情况下比信任人类专家更可靠。"

这不是技术乐观主义的口号。这是一个研究者经过多年亲手测试、被模型"煤气灯操纵"过、又亲眼看着模型从一无是处到接近博士论文水平之后，做出的实际判断。

对于中国的企业家来说，这张正在展开的地图上有几个清晰的信号：

AI 的能力不再是供应商给你的一张成绩单上的一个数字。它取决于你愿意在每次调用上投入多少计算资源。这意味着采购决策需要从"选最好的模型"转向"在预算约束下选最优的部署方式"。

更重要的是，当模型可以在相同预算下做出更好的表现时，也就是 Brown 所说的"思考效率"，那个效率差距，就是未来企业之间真正的竞争差距。

不是谁接入了最强的模型，而是谁更懂得让模型在什么时候花多长时间、花多少钱去思考。这个能力不在技术部门手里，它在业务流程设计者的脑子里。

来源说明

本文由Lincoln根据 No Priors 官方频道 2026 年 6 月 26 日发布的视频《Why Traditional Benchmarks Fail Modern AI Models with OpenAI Research Scientist Noam Brown》进行解读。

关于 MindsLeap 心智悦动

MindsLeap 是 AI 转型加速器，帮助传统企业家在 AI 时代找到转型路径。与硅谷孵化器 Founders Space 合作，连接科技创业者与真实客户/场景，连接国内外资本、硅谷科技圈，助力中国产业 AI 转型和出海。