Notion 团队：为什么真正难的不是做 Agent，而是重做整个工作系统丨Latent Space

全文约 3500 字，如果你现在没有时间，试试转成播客稍后再听”MCP 就是那个笨但简单、而且能工作的东西。

我们每天为你更新硅谷最新的 AI 创业与科技播客总结，让你与前沿保持同频。全文约 3800 字，如果你现在没有时间，试试转成播客稍后再听晚点再听LaterCast

“MCP 就是那个笨但简单、而且能工作的东西。”

“99% 的时候，问题其实出在某个工具的 bug 上。”

“未来，我们的大多数流量会来自使用我们界面的 Agent，而不是人类。”

这期 Latent Space 对谈请来 Notion 的 Sarah Sachs 和 Simon Last。前者负责 Notion 的核心 AI 能力与基础设施，后者长期站在原型和 agent harness 的最前线。两人把一个外界经常误解的问题讲得很透：Notion 要做的，并不是给文档软件外挂一个会聊天的助手，而是把企业记录工作、协作工作、检索工作、推进工作的底层系统，一点点改造成既能给人用，也能给 Agent 用。如果你正在做 AI 产品、企业软件，或者正在琢磨 MCP、Eval、检索和工作流自动化，这期对话的信息密度非常高。

为什么 Notion 的 Custom Agents 做了四五次才真正能用？

Sarah 和 Simon 回头看 2022 年到今天的过程，结论其实非常朴素：不是团队不够聪明，而是时机没到。那时既没有成熟的 tool calling 标准，也没有足够长的上下文窗口，模型对多轮工具使用的稳定性也远远不够。Notion 很早就设想过“给 AI 一个能调用 Notion 所有能力的助手”，甚至已经和 Frontier Labs 一起试着微调模型去学会调用 Notion 的函数，但每次都只能看到一点“快成了”的曙光，距离可用、可靠、让人放心交付后台任务，始终差一口气。直到近一年模型推理能力、工具调用能力和产品侧权限设计同时成熟，他们才觉得这件事能从 demo 变成产品。这也是为什么 Custom Agents 不是简单地把老功能公开出来，而是一次围绕可靠性、后台运行、共享权限和管理员理解成本的重做。

“这次发布当然很让人兴奋，因为这大概已经是我们第四次或第五次把它重做了。我们从 2022 年末就开始尝试，但那时候真的太早了：模型还太笨，上下文也太短。”

真正的产品判断，不是押注未来，而是别逆着模型的能力游泳

Sarah 讲了一个很重要的能力：先判断你是在和模型能力硬碰硬，还是只是没把正确的信息、正确的工具、正确的基础设施交给模型。Notion 内部会同时做两类事，一类是今天就能交付价值的产品，一类是有点疯狂、但代表未来方向的原型。关键不是“永远只做保守的事”，也不是“为了未来死扛今天做不通的东西”，而是知道什么时候该继续押，什么时候该停下来重想。她把这种能力概括成两步：第一，不要逆着河流游；第二，当你确认河流方向对了，就要提前开始搭产品，不然等模型真的准备好了，你反而没准备好。这也是他们后来能比较早地把 meeting notes、agent harness、custom agents 串起来的原因。

“一个关键能力是别让自己一直逆流而上。你得尽快判断，自己到底是在对抗模型当前的极限，还是只是还没给它对的信息、对的工具和对的基础设施。”

Notion 不想做“酷工具”，它想守住工作的系统记录层

这场对话里最有价值的一句判断，其实不是关于模型，而是关于产品边界。Sarah 反复强调，Notion 的任务是成为企业工作的“system of record”。所以他们会支持 MCP，也会支持外部设备、外部工具、外部模型接进来，但他们不想把自己理解成“某个模型的包装层”。这也是为什么他们警惕“做很酷的工具”这件事：如果一个功能只是看起来炫，但不能嵌回真实的用户旅程，比如 PDF 导出、邮件分拣、任务推进、会议跟进，那它就很难长期成立。Notion 真正在构建的，不是一堆孤立的 AI feature，而是一个让企业知识、流程、权限和协作关系可被 Agent 理解的工作底座。这和“给用户一个会对话的入口”完全不是一个层级的问题。

“Notion 致力于成为人们做企业工作的最佳系统记录层。我们团队最容易失败的时候，恰恰是太关注哪些工具看起来很酷，而不是它有没有服务一个真实的用户旅程。”

为什么 Simon 会说：Coding Agent 也许是 AGI 的内核

Simon 对未来的判断非常激进，但并不空泛。他说自己越来越相信 coding agents 是“AGI 的 kernel”，因为代码是少数一种可以让 Agent 自举自身能力的媒介：它不只回答问题，还能写工具、调试工具、维护工具，甚至把自己的工作环境越建越复杂。顺着这条线，Notion 在思考的就不只是“让一个助手替你做几件事”，而是所谓 software factory：由一组 Agent 组成的流水线，去开发、调试、评审、合并、维护一个持续运行的系统。这意味着未来的知识工作，不会停留在“问答式自动化”，而会慢慢走向“多 Agent 协作完成一个结果”。Simon 自己甚至提到，曾经让一个 coding agent 线程连续跑了 17 天。夸张归夸张，但它说明他们脑子里想的早就不是单点功能，而是整个生产方式的变化。

“越来越清楚的一件事是，coding agents 很像 AGI 的内核。更让人兴奋的是，Agent 可以自举自己的软件和能力，甚至自己调试和维护它们。我们现在想得很多的，就是 software factory。”

MCP 和 CLI 不是站队题，真正的问题是能力、权限和成本边界

这期里关于 MCP 的讨论也很值得反复看。Simon 说自己总体上更看好 CLI，因为那类 agent 更像真正能操作环境、调试自身、扩展能力的通用执行体；但 Sarah 也明确讲，MCP 在很多场景里反而更合适，尤其当你想要一个窄能力、轻量级、权限边界非常清晰的 Agent 时，MCP 的价值很高。Notion 的立场并不意识形态化：用户和生态在用 MCP，他们就会把 MCP 做好；但他们也很清楚，随着能力增强，产品就要面对权限、管理员理解、成本和定价的复杂度。Agent 越强，不只是“能做更多”，也意味着你必须把“它能碰什么、不能碰什么、为什么这么贵”解释得更清楚。这一点，比单纯争论协议优劣更接近真实产品世界。

“MCP 天生就有一个很强的权限模型，因为它本质上只允许你调用工具。它就是那个笨但简单、而且能工作的东西。对于窄能力、轻量级的 Agent，这其实非常有价值。”

别把希望全押在微调上，Agent 真正的地基是 Eval、Harness 和工具质量

Notion 这群人最有说服力的地方，是他们真的踩过“重度训练”这条路。Simon 直说自己以前花了很多时间训练模型，但后来越来越觉得，训练本身只是实现细节，关键是外循环：模型怎样和系统交互，工具有没有 bug，Harness 有没有把失败暴露出来，Eval 有没有覆盖真实工作流。Sarah 也补了一句特别现实的话：他们的工具几乎每天都在变，如果把模型专门微调到理解这些工具，反而会拖慢整个产品迭代速度。所以他们现在的重点，是用回归测试、launch-quality evals 和更前沿的 headroom evals 去理解问题，再用更好的工具、更清晰的系统提示和更稳的产品包装去解决问题。这和很多人想象中“Agent 时代最重要的是把模型训得更懂你”完全相反。

“别太执着于训练。真正有用的思路是看外循环：模型怎样和系统交互。因为很多时候，问题不在模型。99% 的时候，问题其实出在某个工具的 bug 上，那就把 bug 修掉。”

当请求主要来自 Agent，搜索、排序和索引逻辑都得重写

这场对话最容易被低估的一段，是他们聊检索系统时的那套思路。Sarah 说，Notion 现在很多 AI 计划下面的搜索流量，已经主要不是人发出来的，而是 Agent 发出来的。于是，原来面向人的搜索优化目标开始失效：人更在乎前几条结果是不是顺手能点，Agent 更在乎 top-k 召回够不够全、片段切得对不对、能不能并行发散多个 query 去扩大搜索空间。Simon 甚至提到，他们内部把这件事叫 agentic find，把 ranking、query generation、parallel search、snippet 选择当成同一条链路来做。这意味着一家公司一旦认真做 Agent，最先要动刀的往往不是首页 UI，而是索引、检索、排序、缓存和上下文压缩这些底层设施。

“现在很多搜索负载都来自 Agent，不是人类。它们写查询的方式不同，想要的返回形式也不同。对我们来说，这已经不是传统搜索优化，而是一整条 agentic find 的问题。”

Meeting Notes 不是小功能，它在把工作世界变成 Agent 可消费的数据

Notion 对 meeting notes 的理解也很有启发。他们后来越来越把它看成 data capture，而不是一个“帮你写纪要”的工具。Sarah 说，她的每次 one-on-one 基本都用 meeting notes，做自评时就回看这些对话，因为如果一件事从没出现在和经理的对话里，那它大概率也没那么重要。更进一步，Simon 描述了他们团队自己的工作方式：custom agent 会在 standup 前先汇总 Slack 和 GitHub 生成 pre-read，开会时大家只讨论问题本身，开完会另一个 agent 再自动建任务、发 follow-up。一旦会议、聊天、任务、权限、上下文都沉淀到同一个系统里，Agent 的价值就不是“帮你记笔记”，而是开始接手原本大量分散、琐碎、没人愿意做的 bookkeeping。

“我们现在很多会议都是 hands-off keyboard。先让 Agent 做 pre-read，开会只讨论问题，结束后再让另一个 Agent 自动建任务、发跟进消息。我们想把注意力放在问题根源上，而不是那些记账式的杂活上。”

未来的工作软件，必须同时为人和 Agent 设计

整场对话最有穿透力的预测，还是那句看似轻描淡写的话：未来 Notion 的大多数流量，会来自 Agent，而不是人。这句话背后的含义非常大。它意味着产品工程团队不再只是给用户做界面，而要同时考虑“这个界面对 Agent 来说是不是可调用、可理解、可组合”；它意味着数据库、编辑器、SQL 引擎、权限系统都要为 Agent 留出接口；也意味着 pricing、model picker、auto routing、开放模型选择都不只是商业决策，而是产品的一部分。换句话说，未来工作软件的竞争，不会只发生在谁的模型更强，而会发生在谁先把整套系统改造成 Agent 真的能工作的环境。Notion 这次讲得最清楚的一点，就是他们已经不再把这件事当成某个 AI 团队的试验品，而是整个产品组织的共同任务。

“从产品工程的角度看，我们的目标是让所有表面都同时为人类客户和 Agent 工作。因为随着时间推移，我们的大多数流量都会来自使用我们界面的 Agent，而不是人。”

写在最后

Notion 这期最重要的启发是：Agent 产品的难点，从来不只是模型够不够强，而是你有没有把真实工作流、权限边界、检索系统和组织协作一起改掉。如果你也在做类似的事，先别急着堆“酷功能”。先问自己一句：你的系统，真的已经准备好让 Agent 上手工作了吗？很多团队以为拐点来自某个更强的新模型，但真正的拐点，往往发生在你把会议、任务、搜索、权限这些最枯燥的底层，一起接成了一个能被 Agent 调用的工作环境之后。

内容来源：”Notion’s Sarah Sachs & Simon Last on Custom Agents, Evals, and the Future of Work” 丨 Latent Space（嘉宾：Sarah Sachs、Simon Last）

原视频：https://www.youtube.com/watch?v=ATt7QJgt-2k

如果你喜欢深度好文，试试用小程序将不方便立刻阅读的文章转成播客，用「听」的方式，稍后阅读，不再错过好文章⇣

⇣关注我，每天为你更新硅谷最新的 AI 创业／科技播客总结，让你与前沿保持同频 ⇣