过去的CPU是为人类设计的

作者：王林Lincoln | MindsLeap创始人 | Founders Space合伙人 | 企业家AI俱乐部创始人

"过去的CPU是为人类设计的，而人类比AI智能体有耐心得多。"

在微软 Build 现场，纳德拉隔着屏幕感谢黄仁勋深夜从台北连线。这不是例行公事的商业互捧，而是两位从DirectX时代就开始合作的老朋友，在AI智能体真正落地的前夜，向整个行业发出的一组信号。

黄仁勋说出上面那句话时，他正在介绍NVIDIA即将发布的Vera Rubin芯片。这不是一次普通的硬件升级，而是一次针对全新计算范式的重新设计。智能体不需要人类那样的容错空间，它们要的是极低延迟、极快响应——因为它们会"不耐烦"。

这句话值得所有正在规划AI战略的企业负责人停下来想一想。

他旅行时，会给自己的PC发文字

黄仁勋描述了一个看起来很日常的场景：他在外面旅行，用手机给自己的PC发一条文字，让它帮忙写一段代码、改一个设计。PC收到指令后自动启动工具，完成修改，然后在他不在电脑前的时候，持续和他迭代。

"我的PC变成了一个助手。"他说。

三年前，黄仁勋和纳德拉第一次讨论这个问题时，他们的目标是打造一类"对设计师和创作者不可思议的PC"。三年后，RTX Spark芯片把这个目标变成了现实。这颗芯片配备128GB内存，支持两家公司联合开发的NVFP4数值格式，可以在本地运行一个数千亿参数级别的模型。黄仁勋的原话是："两三千亿参数的模型，就是当今最先进的水平。"

这意味着什么？意味着高能力的人工智能，不再只能连接云端服务器才能运行。它就在你的桌面上，自主地工作，而你只需要在手机上告诉它你要什么。

PC的定位正在从"个人电脑"转向"个人AI"。

同一个计算模式，只是规模不同

黄仁勋在对话中反复强调一个观点：Vera Rubin数据中心的设计逻辑，和RTX Spark这台PC的设计逻辑，本质上是相同的。

"这是完全相同的智能体系统，只是规模要大得多，需要同时处理大量来自不同客户和合作伙伴的智能体。"

这个判断比它听起来更重要。它意味着AI智能体的运行方式——从存储作为长期记忆，到工作内存的处理，再到数据传输——在云端和边缘是同构的。唯一区别是规模：云端的Vera Rubin要同时服务成千上万个智能体，而你的RTX Spark只服务你一个。

这对企业决策者意味着什么？意味着你在评估AI基础设施时，不需要把"云端推理"和"边缘部署"当作两个完全不同的技术路线来考虑。它们是同一套架构在不同规模上的展开。今天你在云端验证的智能体工作流，明天可以直接部署到员工的桌面上，不需要重新设计。

当然，这更像是一个方向性的信号，距离大规模落地还有工程和成本上的挑战。但架构上的统一性本身，已经足以改变企业做技术选型时的思考方式。

整个工具链，都要为"不耐烦"的智能体加速

对话中另一个值得注意的细节，是黄仁勋谈到微软Azure平台时的表述。

"Fabric现在已全面加速。我们正在加速数据处理、SQL、Spark、语义的、向量的、图数据库的处理。我们要确保Azure上所有可用的工具都能被GPU全面加速，因为智能体会不耐烦。"

"我们给智能体的答案返回得越快，它们就能迭代得越快，生成token的速度就越快。"

这段话揭示了一个正在发生但尚未被广泛讨论的趋势：AI智能体不是孤立运行的模型，它们需要调用大量工具——数据库查询、数据处理、语义检索、图计算。这些工具如果不能在GPU上加速，就会成为整个智能体工作流的瓶颈。

换句话说，企业部署AI智能体，不只是买一个模型、接一个API那么简单。你需要审视整个工具链的延迟。如果你的智能体在等待一个SQL查询的结果，而这个查询在传统CPU上跑了三秒钟，那这三秒钟就是智能体"不耐烦"的三秒钟，也是你业务流程被拖慢的三秒钟。

这不是一个技术问题，这是一个业务流程问题。

过去几个月，GitHub提交量翻了三倍

黄仁勋在对话中给出了一组很少被引用的数据。

"过去几个月，GitHub上的代码提交量呈抛物线增长，增长了整整三倍。这说明智能体系统确实在做有生产力的工作。"

紧接着他说了一句更直白的话："Token现在可以盈利了。"

这两句话放在一起，构成了一个完整的商业逻辑闭环。智能体在做实际工作（GitHub提交量暴增为证），而这些工作产生的token不再是成本中心的消耗品，而是可以直接创造收入的资产。

这对企业意味着一个根本性的成本结构变化。过去，AI推理是一个纯粹的成本项——你花钱买token，希望它能帮你省下人工。现在，token本身开始产生直接收益。当智能体可以直接参与编码、设计、数据分析并输出可用成果时，每一次token的生成都对应着一个可衡量的业务价值。

当然，从"token可以盈利"到"我的企业能从token中盈利"，中间还有产品形态、客户获取和定价策略的鸿沟需要跨越。但这扇门已经开了。

从预训练到推理，再到智能体

如果把这个对话放在更长的时间线上看，会发现黄仁勋和纳德拉描述的是一条清晰的演进路径。

Ampere和Hopper时代，焦点是预训练。

Grace Blackwell时代，焦点转向了后训练和强化学习，催生了基于混合专家模型的推理模型。微软部署了全球最大规模的Grace Blackwell集群，采用完全液冷的Fairwater系统，token生成成本比Hopper时代降低了约三十倍。

而现在，Vera Rubin的时代，焦点是智能体。

每一代芯片的迭代，都对应着AI应用重心的转移：从"让模型变得更聪明"到"让模型学会推理"再到"让模型自主行动"。这个节奏比大多数人感知到的要快得多。

回到企业经营者

这场对话最容易被误解的地方，是把它当作一次硬件发布的前瞻来看待。芯片规格、内存大小、数值格式——这些当然是重要的技术参数，但它们背后的商业含义更加值得思考。

当CPU开始为智能体而非人类设计时，当PC开始运行自主的智能体而非被人类操作的软件时，当token从成本项变为收入项时——企业的组织能力、产品形态和成本结构都需要重新校准。

一个具体的行动方向是：重新审视你的业务流程中，哪些环节是可以被"不耐烦"的智能体接管的。这些环节的特征不是"需要人类判断"，而是"需要快速迭代"。智能体不怕重复，不怕等待，它们只怕慢。

另一个行动方向是：评估你的工具链延迟。不是评估AI模型本身的推理速度，而是评估智能体在调用你的数据库、你的业务系统、你的第三方API时，整个链路的响应时间。这三五秒钟的延迟差距，可能就是你的智能体和竞争对手的智能体之间，迭代速度的差距。

这场对话发生在凌晨的台北，但它的回声会传到每一个正在规划AI战略的企业决策者的桌面上。变化不是从某个宏大宣布开始的。它从黄仁勋在旅行时给PC发的那条文字开始，从一个智能体因为等不及SQL查询而多等的那三秒钟开始，从GitHub上那翻了三倍的代码提交开始。

这些信号已经在那里了。问题只在于，你准备怎么回应它们。

来源说明

本文由Lincoln根据 NVIDIA 官方频道 2026 年 6 月 3 日发布的视频《Jensen Huang and Satya Nadella's Conversation at Microsoft Build》进行解读。

关于 MindsLeap 心智悦动

MindsLeap 是 AI 转型加速器，帮助传统企业家在 AI 时代找到转型路径。与硅谷孵化器 Founders Space 合作，连接科技创业者与真实客户/场景，连接国内外资本、硅谷科技圈，助力中国产业 AI 转型和出海。