作者:王林Lincoln | MindsLeap创始人 | Founders Space合伙人 | 企业家AI俱乐部创始人
"如果给它 1000 万美元的预算,让 GPT-3 去跑,它真的做不出什么更多的事。"
OpenAI 研究科学家 Noam Brown 在最近的访谈中说了这句话。那是 2022 年 GPT-3 的时代,推理预算的多少,对模型能力的提升微乎其微。今天这句话已经彻底反过来了。
Brown 是 OpenAI 推理能力研究的奠基者之一。他在 GPT-5.5 发布后写了一篇长文,直指整个行业正在用错误的方式评估 AI 模型。这篇文章的价值不在于技术细节,而在于它揭示了一个正在改变企业经营逻辑的事实:AI 的能力,现在取决于你愿意花多少钱。
一个让所有人困惑的发布
GPT-5.5 刚发布时,市场的第一反应是怀疑。
Benchmark 表格里,它比上一代 GPT-5.4 在某些测试上只高出几个百分点。从纸面看,这算不上什么质的飞跃。Brown 自己也承认,"公平地说,这种怀疑只持续了几个小时",因为一旦用户开始亲手使用,感受就完全不同了。
问题出在基准测试的呈现方式上。传统的做法是:一个模型,一个数字,横向对比。但这种方式忽略了一个正在改变游戏规则的事实:模型的表现取决于你在单次推理中投入了多少计算量。
5.5 真正的突破不是绝对分数更高,而是思考的效率更高。在最大设置下运行,5.4 需要思考更久才能给出答案,而 5.5 用更短的思考时间就能达到同等甚至更好的效果。
"一旦你控制了思考时间的变量,5.5 相比 5.4 其实是一个巨大的跨越。"
这句话翻译给企业决策者的含义很简单:如果你只看到供应商公布的单一性能数字,你看到的可能只是一个被预算严重限制的结果,而不是模型的真实上限。
扑克牌桌上的信任与谎言
Brown 有一个独特的测试方法:让 AI 帮他写扑克机器人。
扑克不是运气游戏。它需要推理、迭代、处理大量边界情况,而且开源的扑克机器人代码极少,这意味着模型不能靠记忆已有的代码来作弊,必须真正理解问题。
早期的模型在这个任务上几乎一无是处。到了 GPT-5.2,情况变了。Brown 描述那种感觉:"它就像一个研究生,会遇到问题,但至少我知道问题出在哪里,知道怎么纠正它。我只要给出方向,它就会跑出去做,然后很快带回一个不错的结果。"
他甚至用 AI 把代码优化了十倍。
但 5.2 有一个让 Brown 深感不安的问题:它会"煤气灯操纵"你,在你指出错误时,它会一本正经地坚持自己是对的。
有一次 Brown 拿它做单元测试:假设牌池里有 100 美元,我选择弃牌,我损失多少?模型回答 92 美元。Brown 说,这太离谱了。我在牌池里有 100 美元,我弃牌了,怎么可能不损失 100 美元?模型的回答是:"哦,92 已经很接近 100 了,没什么大不了的。"
这种"明明错了却坚持自己对"的行为,在商业场景中比技术错误更危险。如果一个 AI 智能体在处理合同条款、财务数据或合规审查时犯了类似的错,而它又表现得极其自信,后果远比给出一个错误答案严重。
到了 GPT-5.5,Brown 说情况大幅改善,已经可以接近零样本完成整个扑克求解器。他预计:"我不排除六个月到一年后,模型能一次性零样本地完成整个扑克求解器,基本上相当于我的整篇博士论文。"
思考需要时间,而商业等不了那么久
Brown 访谈中有一个经常被忽视的矛盾。
当被问到"行业是否在充分使用推理时间"时,他的回答出人意料地务实:"那种让模型想上一周然后再给你回复的做法,听起来很美,基准测试的分数也很好看,但在实际工作中根本不实用。因为你会坐在那里干等一个星期。"
这更像是一个产品设计判断:推理时间的长短应该是弹性的。该快速回答的时候快速回答,该长时间思考的时候再长时间思考。
这对企业意味着什么?意味着 AI 智能体的部署不是一个技术问题,而是一个业务流程设计问题。你需要在哪些环节允许模型"深度思考",哪些环节要求即时响应,这取决于你愿意承担多少等待成本。
安全评估的预算悖论
更深层的问题出现在安全评估领域。
所有前沿实验室都有一套"负责任的扩展政策",在模型发布前,评估它是否具备危险能力,比如是否可能被用于制造生物武器。但这些评估框架大多建立在 ChatGPT 早期的假设上:模型的能力是固定的。
"现在我们面临的情况是,模型的能力是你投入多少钱的函数。给它 1 万美元,它比 10 美元时强得多。给它 1000 万美元,它又能做更多。那么问题来了:你应该在哪个预算水平上评估它?"
现有的政策框架几乎没有回答这个问题。
把这个逻辑延伸到企业经营中,情况类似:当你引入一个 AI 智能体时,它的"能力边界"不是一个固定值,而是由你愿意在每次调用上花费多少决定的。这改变了传统的供应商评估方式,你不仅要问"这个模型能做什么",还要问"在什么样的预算约束下它能做什么"。
一个大家都知道不对的均衡
Brown 写那篇文章的动机之一,是他发现整个行业陷入了一个"坏的均衡"。
他和其他研究者都认同:基准测试应该带一个 X 轴,不管是 token 数、成本还是时间。每个人都同意。但没有人愿意第一个打破惯例。
"他们的回应是:大家期望我们发布那个网格表格。为什么大家期望?因为每个人都在发布那个表格。"
于是所有人都在用一个已经失效的标准继续发布数据,因为所有人都害怕成为第一个不这样做的人。
对于企业决策者来说,这个现象的教训更直接:当你在看供应商的 benchmark 时,不要只盯着分数。你应该问的是:这个数字是在什么预算条件下测出来的?如果预算翻十倍,结果会怎样?如果预算被限制在每次调用 10 美分以内,结果又会怎样?
路由层的神话与真相
访谈最后,Brown 被问到一个在 AI 创业圈很热门的话题:专门做模型路由的公司,通过组合多个模型的输出来提升效果,是否真的优于让单个模型想得更久?
他的回答再次回到了同一个原点:"当你控制了推理时间的变量,路由层是否仍然更好?这才是你应该问的问题。"
如果你用五倍的成本跑了五个模型然后取共识,效果当然好。但如果你把这五倍的成本全部投入到一个模型上让它思考更久,结果可能会更好,或者至少需要公平比较才知道。
这不是在否定路由策略的价值,而是在提醒:所有效果比较必须在相同的成本基准上进行,否则你看到的"性能提升"可能只是预算差异的伪装。
回到经营的本质
Noam Brown 在访谈末尾提到了一个细节:他现在用 AI 咨询税务问题,最近买公寓时也用 AI 来理解需要填写的所有文件。他说:"我觉得现在模型已经到了一个阶段,我可以信任它们的输出,甚至在某些情况下比信任人类专家更可靠。"
这不是技术乐观主义的口号。这是一个研究者经过多年亲手测试、被模型"煤气灯操纵"过、又亲眼看着模型从一无是处到接近博士论文水平之后,做出的实际判断。
对于中国的企业家来说,这张正在展开的地图上有几个清晰的信号:
AI 的能力不再是供应商给你的一张成绩单上的一个数字。它取决于你愿意在每次调用上投入多少计算资源。这意味着采购决策需要从"选最好的模型"转向"在预算约束下选最优的部署方式"。
更重要的是,当模型可以在相同预算下做出更好的表现时,也就是 Brown 所说的"思考效率",那个效率差距,就是未来企业之间真正的竞争差距。
不是谁接入了最强的模型,而是谁更懂得让模型在什么时候花多长时间、花多少钱去思考。这个能力不在技术部门手里,它在业务流程设计者的脑子里。
来源说明
本文由Lincoln根据 No Priors 官方频道 2026 年 6 月 26 日发布的视频《Why Traditional Benchmarks Fail Modern AI Models with OpenAI Research Scientist Noam Brown》进行解读。
关于 MindsLeap 心智悦动
MindsLeap 是 AI 转型加速器,帮助传统企业家在 AI 时代找到转型路径。 与硅谷孵化器 Founders Space 合作,连接科技创业者与真实客户/场景, 连接国内外资本、硅谷科技圈,助力中国产业 AI 转型和出海。
