作者:王林Lincoln | MindsLeap创始人 | Founders Space合伙人 | 企业家AI俱乐部创始人
"过去的CPU是为人类设计的,而人类比AI智能体有耐心得多。"
在微软 Build 现场,纳德拉隔着屏幕感谢黄仁勋深夜从台北连线。这不是例行公事的商业互捧,而是两位从DirectX时代就开始合作的老朋友,在AI智能体真正落地的前夜,向整个行业发出的一组信号。
黄仁勋说出上面那句话时,他正在介绍NVIDIA即将发布的Vera Rubin芯片。这不是一次普通的硬件升级,而是一次针对全新计算范式的重新设计。智能体不需要人类那样的容错空间,它们要的是极低延迟、极快响应——因为它们会"不耐烦"。
这句话值得所有正在规划AI战略的企业负责人停下来想一想。
他旅行时,会给自己的PC发文字
黄仁勋描述了一个看起来很日常的场景:他在外面旅行,用手机给自己的PC发一条文字,让它帮忙写一段代码、改一个设计。PC收到指令后自动启动工具,完成修改,然后在他不在电脑前的时候,持续和他迭代。
"我的PC变成了一个助手。"他说。
三年前,黄仁勋和纳德拉第一次讨论这个问题时,他们的目标是打造一类"对设计师和创作者不可思议的PC"。三年后,RTX Spark芯片把这个目标变成了现实。这颗芯片配备128GB内存,支持两家公司联合开发的NVFP4数值格式,可以在本地运行一个数千亿参数级别的模型。黄仁勋的原话是:"两三千亿参数的模型,就是当今最先进的水平。"
这意味着什么?意味着高能力的人工智能,不再只能连接云端服务器才能运行。它就在你的桌面上,自主地工作,而你只需要在手机上告诉它你要什么。
PC的定位正在从"个人电脑"转向"个人AI"。
同一个计算模式,只是规模不同
黄仁勋在对话中反复强调一个观点:Vera Rubin数据中心的设计逻辑,和RTX Spark这台PC的设计逻辑,本质上是相同的。
"这是完全相同的智能体系统,只是规模要大得多,需要同时处理大量来自不同客户和合作伙伴的智能体。"
这个判断比它听起来更重要。它意味着AI智能体的运行方式——从存储作为长期记忆,到工作内存的处理,再到数据传输——在云端和边缘是同构的。唯一区别是规模:云端的Vera Rubin要同时服务成千上万个智能体,而你的RTX Spark只服务你一个。
这对企业决策者意味着什么?意味着你在评估AI基础设施时,不需要把"云端推理"和"边缘部署"当作两个完全不同的技术路线来考虑。它们是同一套架构在不同规模上的展开。今天你在云端验证的智能体工作流,明天可以直接部署到员工的桌面上,不需要重新设计。
当然,这更像是一个方向性的信号,距离大规模落地还有工程和成本上的挑战。但架构上的统一性本身,已经足以改变企业做技术选型时的思考方式。
整个工具链,都要为"不耐烦"的智能体加速
对话中另一个值得注意的细节,是黄仁勋谈到微软Azure平台时的表述。
"Fabric现在已全面加速。我们正在加速数据处理、SQL、Spark、语义的、向量的、图数据库的处理。我们要确保Azure上所有可用的工具都能被GPU全面加速,因为智能体会不耐烦。"
"我们给智能体的答案返回得越快,它们就能迭代得越快,生成token的速度就越快。"
这段话揭示了一个正在发生但尚未被广泛讨论的趋势:AI智能体不是孤立运行的模型,它们需要调用大量工具——数据库查询、数据处理、语义检索、图计算。这些工具如果不能在GPU上加速,就会成为整个智能体工作流的瓶颈。
换句话说,企业部署AI智能体,不只是买一个模型、接一个API那么简单。你需要审视整个工具链的延迟。如果你的智能体在等待一个SQL查询的结果,而这个查询在传统CPU上跑了三秒钟,那这三秒钟就是智能体"不耐烦"的三秒钟,也是你业务流程被拖慢的三秒钟。
这不是一个技术问题,这是一个业务流程问题。
过去几个月,GitHub提交量翻了三倍
黄仁勋在对话中给出了一组很少被引用的数据。
"过去几个月,GitHub上的代码提交量呈抛物线增长,增长了整整三倍。这说明智能体系统确实在做有生产力的工作。"
紧接着他说了一句更直白的话:"Token现在可以盈利了。"
这两句话放在一起,构成了一个完整的商业逻辑闭环。智能体在做实际工作(GitHub提交量暴增为证),而这些工作产生的token不再是成本中心的消耗品,而是可以直接创造收入的资产。
这对企业意味着一个根本性的成本结构变化。过去,AI推理是一个纯粹的成本项——你花钱买token,希望它能帮你省下人工。现在,token本身开始产生直接收益。当智能体可以直接参与编码、设计、数据分析并输出可用成果时,每一次token的生成都对应着一个可衡量的业务价值。
当然,从"token可以盈利"到"我的企业能从token中盈利",中间还有产品形态、客户获取和定价策略的鸿沟需要跨越。但这扇门已经开了。
从预训练到推理,再到智能体
如果把这个对话放在更长的时间线上看,会发现黄仁勋和纳德拉描述的是一条清晰的演进路径。
Ampere和Hopper时代,焦点是预训练。
Grace Blackwell时代,焦点转向了后训练和强化学习,催生了基于混合专家模型的推理模型。微软部署了全球最大规模的Grace Blackwell集群,采用完全液冷的Fairwater系统,token生成成本比Hopper时代降低了约三十倍。
而现在,Vera Rubin的时代,焦点是智能体。
每一代芯片的迭代,都对应着AI应用重心的转移:从"让模型变得更聪明"到"让模型学会推理"再到"让模型自主行动"。这个节奏比大多数人感知到的要快得多。
回到企业经营者
这场对话最容易被误解的地方,是把它当作一次硬件发布的前瞻来看待。芯片规格、内存大小、数值格式——这些当然是重要的技术参数,但它们背后的商业含义更加值得思考。
当CPU开始为智能体而非人类设计时,当PC开始运行自主的智能体而非被人类操作的软件时,当token从成本项变为收入项时——企业的组织能力、产品形态和成本结构都需要重新校准。
一个具体的行动方向是:重新审视你的业务流程中,哪些环节是可以被"不耐烦"的智能体接管的。这些环节的特征不是"需要人类判断",而是"需要快速迭代"。智能体不怕重复,不怕等待,它们只怕慢。
另一个行动方向是:评估你的工具链延迟。不是评估AI模型本身的推理速度,而是评估智能体在调用你的数据库、你的业务系统、你的第三方API时,整个链路的响应时间。这三五秒钟的延迟差距,可能就是你的智能体和竞争对手的智能体之间,迭代速度的差距。
这场对话发生在凌晨的台北,但它的回声会传到每一个正在规划AI战略的企业决策者的桌面上。变化不是从某个宏大宣布开始的。它从黄仁勋在旅行时给PC发的那条文字开始,从一个智能体因为等不及SQL查询而多等的那三秒钟开始,从GitHub上那翻了三倍的代码提交开始。
这些信号已经在那里了。问题只在于,你准备怎么回应它们。
来源说明
本文由Lincoln根据 NVIDIA 官方频道 2026 年 6 月 3 日发布的视频《Jensen Huang and Satya Nadella's Conversation at Microsoft Build》进行解读。
关于 MindsLeap 心智悦动
MindsLeap 是 AI 转型加速器,帮助传统企业家在 AI 时代找到转型路径。 与硅谷孵化器 Founders Space 合作,连接科技创业者与真实客户/场景, 连接国内外资本、硅谷科技圈,助力中国产业 AI 转型和出海。
