两百个工具让系统崩溃后，monday.com 重新理解了 AI 智能体

作者：王林Lincoln | MindsLeap创始人 | Founders Space合伙人 | 企业家AI俱乐部创始人

"它确实充满前景，但最终还是没跑通——它在我们面前炸开了。"

在 2026 年 Interrupt 大会上，monday.com 的团队负责人 Omri 站在台上，毫不掩饰地复盘了他们的失败。Sidekick V2 是他们的第二代 AI 智能助手，采用了多智能体架构，每个业务领域都有自己的 MCP 服务和专属工具，引擎里塞进了超过两百个工具。结果呢？上下文污染让大模型陷入混乱，成本直线上升，各个团队的需求互相打架。

这不是一个遥远的实验室故事。monday.com 是一家服务全球企业的 AI 工作平台，他们的判断直接决定了数百万用户的日常体验。而他们踩过的坑，正在成为今天所有想构建企业级 AI 系统的公司的共同课题。

从"管理工作"到"替你工作"

monday.com 的野心在过去一年发生了一个根本性转变。过去，他们帮企业用看板管理工作——帮你找到销售线索，帮你把候选人信息录入系统。现在，他们的 SDR 智能体可以直接给潜在客户打电话推销产品，招聘智能体可以自己去 LinkedIn 上筛选候选人并发送邮件。

用 Omri 的话说："我们为什么要替你管理工作？干脆替你做完算了。"

这不是产品功能的叠加，而是产品形态的重定义。当 AI 从记录系统变成执行系统，企业的业务流程、组织架构和人岗匹配方式都会被重新洗牌。但对于 monday.com 自己来说，第一步要解决的，是让他们的 AI 助手足够可靠，而不是在关键时刻掉链子。

两百个工具为什么反而成了灾难

Sidekick V2 的思路在直觉上完全合理：每个产品线——CRM、客服、营销——都有自己的术语和场景，那就给每个领域配专属工具和提示词。但实际运行下来，一个引擎承载两百多个工具，无限扩张的上下文让模型不知所措。

Omri 描述得很直白："上下文污染，模型被搞糊涂了，成本飙升。每个领域都有不同需求。"

这在企业经营上对应一个经典误区：当你看到多个细分需求时，第一反应往往是做更多专门的东西。但 AI 系统的复杂度和工具数量之间的关系不是线性的——工具越多，模型做选择的噪音就越大，出错的概率呈指数级增长。

他们做了一个在当时看起来很反直觉的决定：整个架构不要了，从头重写。

一个聪明的指挥者，胜过一群忙碌的执行者

重写的方向只有一个词：Deep Agent。

monday.com 的选择逻辑很简单——与其让数百个专业智能体互相喊话制造混乱，不如培养一个高度集中的大脑。Omri 说："我们想要一个聪明的编排者，而不是混乱的蜂群。"

这个判断背后的信念是：今天的模型已经足够聪明，可以把规划、记忆管理和子智能体调度这些硬活儿交给模型自己处理。你需要做的不是帮模型想清楚每一步怎么走，而是确保它不会在起步阶段就被过多选项淹没。

这也是为什么 progressive disclosure——渐进式信息暴露——成了他们架构的核心原则。不要一次性把所有东西扔给模型，让它在需要的时候自己去发现。

三层工具发现：按需供给的工程智慧

具体怎么做？monday.com 设计了一个三层工具分类系统。

第一层是基础工具，覆盖大约百分之五六十的常见用例——网页搜索、图像生成、知识库检索，这些永远对模型可见。第二层是上下文工具，只暴露与你当前所在领域相关的功能：如果你在看 CRM 的文档，你就只看到 CRM 的工具，看不到营销模块的东西。第三层最巧妙——延迟加载工具。所有剩余的工具以大约二十个字的简短描述放在目录里，模型需要时才激活调用。

这意味着模型在绝大多数时间里只面对少量清晰的选项，而不是被两百个工具名称淹没。

Omri 还透露了下一步计划：把这些工具描述全部放入语义数据库，用语义搜索替代简单的列表匹配。工具发现从"翻菜单"变成了"问问题"。

写代码的智能体，取代了所有专门工具

整场演讲中最让人意外的一个设计是：与其为每一个可能的用例建造专门的工具，不如让智能体自己写代码。

monday.com 给 Sidekick 配备了一个可以在沙箱里运行 Python 代码的能力。他们用的是 LangChain 的沙箱环境，安全隔离，即写即跑。效果是什么？"一个安全的沙箱，可以替代几百个工具。"

Omri 举了一个真实例子：有用户想找伦敦的新办公室，要求从大本钟出发在特定时段驾车不超过二十分钟。Sidekick 调用 Google API 和地图服务，自己写了一套算法来筛选符合条件的房源。这种事在没有代码能力的情况下，需要单独开发一个完整的工具链。

当智能体获得编写和执行代码的能力，它的行为边界就从预定义的操作扩展到了任意可计算的逻辑。对企业而言，这意味着你不需要预判用户的所有需求——你只需要提供一个安全的执行环境和足够的上下文。

能自我修复的系统，才配进入企业

企业级产品和消费级产品最大的区别在于：失败的成本太高。Omri 给出的数字是百分之九十四的自愈成功率。

他们是怎么做到的？不是追求模型永远不出错，而是设计了一套疗愈中间件。当智能体卡住了，系统会识别出来并切换到其他模型；当内存溢出，系统会自动扩容资源。用 Omri 的话说："真实的企业工作流不应该频繁失败。"

这是一种完全不同的工程哲学：接受大模型会犯错这个前提，然后在系统层面设计容错和自愈能力，而不是试图在模型层面消灭所有幻觉。

判断与边界

monday.com 的探索给了几个清晰的信号。工具发现比工具堆叠更重要，渐进式暴露是解决上下文污染的核心思路。代码执行能力正在成为智能体的标配基础设施，而不是某个产品的差异化功能。自愈机制不是锦上添花，而是企业级 AI 系统的准入门槛。

但也要看到，这些实践仍然处于早期阶段。百分之九十四的自愈率听起来很高，但剩下的百分之六在企业场景中可能就是关键业务的停摆。智能体写代码的能力虽然强大，但代码质量、安全性和维护成本仍然是需要回答的问题。monday.com 选择把所有硬活儿交给模型，这种策略在不同行业、不同风险等级的场景下是否都适用，还需要时间验证。

对中国企业家而言，更有价值的启示可能不是具体的技术方案，而是 monday.com 面对失败时的态度。他们公开承认 V2"在我们面前炸开了"，然后果断推倒重来。这种对技术边界的诚实和对架构原则的坚持，比任何工具选型都更能决定一家公司在这场变革中走多远。

关于 MindsLeap 心智悦动

MindsLeap 心智悦动是 AI原生组织转型加速平台。

我们与硅谷创新孵化器 Founders Space 深度合作，持续连接全球 AI 前沿认知、硅谷科技创业生态与中国企业家的真实转型场景。

围绕 AI 原生组织建设，MindsLeap 正在构建一个面向企业家、创业者、AI 工程师、产业专家和投资人的转型生态，帮助企业把 AI 从认知、战略和工具，真正落到组织能力、业务流程、产品创新和增长系统中。