YC CEO：如何让 Claude 为你的 AI 工程团队编写代码？丨Y Combinator

全文约 3500 字，如果你现在没有时间，试试转成播客稍后再听 “我们正处在一个全新的构建软件时代，agent 时代。

我们每天为你更新硅谷最新的 AI 创业与科技播客总结，让你与前沿保持同频。全文约 3900 字，如果你现在没有时间，试试转成播客稍后再听晚点再听LaterCast

“我们正处在一个全新的构建软件时代，agent 时代。”

“让 agent 做真正工作的方式，和人类作为团队工作的方式一样：角色、流程和评审。”

“瓶颈不是模型的智能。只要把模型设置对，它们已经足够聪明。”

这一期主讲人是 YC 总裁兼 CEO Gary Tan。按照他的自我介绍，他学的是计算机系统工程，早年在 Palantir 做过工程师、设计师和产品经理，后来联合创办 Posterous，也写过 YC 内部社交平台和知识库 Bookface 的第一版。换句话说，这不是一场“AI 会改变软件开发”的泛泛演讲，而是一个长期写代码、带团队、看创业公司的操盘手，试图回答一个更具体的问题：当 Claude Code 这类 agent 已经能写大量代码时，人应该怎样组织它，才不只是得到一堆看起来合理、实际会坏掉的代码？Gary 还补充了一个很有冲击力的体感：过去两个月，他写的代码比 2013 年一整年还多；而 Posterous 当年花了两年、上千万美元和十人团队才做出来的东西，如今他已经能用 agent 复刻出很大一部分。

别把模型当实习生，要先给它团队结构

Gary 的核心判断很直接：今天的问题不是模型不够聪明，而是我们经常把模型丢进代码库，然后期待它自己知道该怎么工作。默认状态下，模型会游荡，会补全，会猜测；在一个真实项目里，这种“看起来很像”的产出最危险，因为它可能静悄悄破坏已有逻辑。他把 Claude Code 的正确用法，从“更强的单个助手”改写成“需要角色、流程和评审的工程团队”。GStack 就是他为此写的一套薄脚手架，把复杂度放在 skills 里，而不是堆一个笨重外壳。

“开箱即用时，模型会到处游荡。它不了解你的数据，所以会猜。”

这句话对工程团队尤其刺耳。过去我们担心 AI 不会写代码，现在更现实的问题是：它写得太快，快到人类 review 跟不上。Gary 说，只要把模型设置对，它们已经足够在代码库里做出非凡的工作。真正稀缺的不是“再多一个提示词”，而是一套能让 agent 明确任务边界、知道何时停下、知道如何自检的生产流程。Gary 反复强调的 thin harness、fat skills，本质上也是这个意思：外层框架应该尽量薄，真正的能力沉到可复用的专业技能里，让每一次构建都沿着同一套质量标准往前走。

Office Hours：先问“谁真的想要这个”

视频里第一个演示不是写代码，而是 YC Office Hours。Gary 让 GStack 帮他想一个报税工具：自动去 Gmail 和金融机构里找 1099 表格。普通 agent 收到这个需求，很可能直接开始做 Gmail 搜索和 PDF 下载；Office Hours 先停下来，问一个 YC 式问题：你凭什么知道有人真的要这个？随后它继续追问，TurboTax、H&R Block、Plaid 已经在做类似事情，为什么还没有解决你的问题？这一步的价值，是把“我想做一个功能”提前改成“这个痛点有没有足够强的商业楔子”。

“决定其他一切的问题是：你有什么最强证据证明真的有人想要这个？”

这个例子后来变得更有意思。模型没有停在“每年收几美元帮用户聚合税表”，而是推导出更大的路径：先用“找到所有 1099”作为入口，再把用户带到报税准备和 CPA 匹配。Gary 认可这个方向，因为交易抽成的价值可能远高于单纯文档聚合。对产品经理和创业者来说，GStack 在这里不是替你拍脑袋，而是把 YC 合伙人常问的商业问题，提前嵌进了构建流程。它先逼你回答需求证据、现有替代品和商业模式，再决定是否值得写代码。这样做会慢几分钟，但能避免团队花几天甚至几周，把一个没人真正想要的功能做得很完整。

好 agent 不是照做，而是帮你改写问题

Gary 特别喜欢 Office Hours 的一点，是它“不像在轨道上跑”。如果他只输入“帮我找 1099”，模型会照做；但真实创业不是把任务执行完，而是理解用户是谁、痛点是什么、现有替代方案为什么不够好。于是这个报税工具被重新塑造成一个浏览器自动化方案：用户自己登录 Gmail 和银行网站，AI 在可见浏览器里导航、寻找税务文档、下载 PDF，全程不需要把凭证交给云端。

“它不是那种沿着轨道走的东西，更像是和你的模型的一场对话。”

这里有一个很实用的启发：AI 编程的起点未必是代码。它可以先帮助你把一个粗糙需求变成更清晰的产品假设，再把方案拆成多个可选路径。Gary 最后选择了“Gmail 加 AI 浏览器自动化，加 CPA 市场”的方向，还补充了一个想法：甚至可以绕过 Google OAuth，让用户直接打开 Gmail，由浏览器 agent 搜索相关邮件和附件。这种方案在几个月前可能没人会认真尝试，但今天它已经变成可以马上验证的产品路线。

计划不是文档，是降低返工的自动化流程

Office Hours 之后，Gary 进入 plan mode。模型给出三条路径：小范围 Gmail 搜索、完整的 Gmail 加浏览器自动化加 CPA 市场、或者从 CPA 端反转 go-to-market。他选了第二条，但没有直接开工，而是继续让系统做多步对抗性评审。评审发现了缺口：没有失败处理、没有隐私章节、2FA 交接没有方案。系统能自动补的就补，不能补的留成后续问题。计划的意义不再是写一份漂亮文档，而是让返工和风险尽量在动手前暴露。

“我们的设计文档经历了两轮对抗性评审，并自动发现和修复了 16 个问题。”

这也是 Gary 所说“像团队一样工作”的具体样子。传统上，一个资深工程师或产品负责人会在动手前指出方案漏洞；现在，这些检查可以变成默认命令。模型不是一次性给答案，而是在不同角色之间来回推敲：CEO 视角看商业，工程视角看实现，设计视角看体验，开发者体验视角看可维护性。最后评分从 6 分提高到 8 分，剩下的问题也被明确记录。这种记录很重要，因为 agent 并不应该假装所有风险都已经消失。它应该把能修的修掉，把还需要人类判断的部分显性化，让工程师知道接下来要盯住什么。

AI 编程的关键，不是更会写代码，而是更会评审

当计划被批准，Claude Code 可以开始写代码。但 Gary 更在意的是后半段：代码写完后如何被检查。他提到 review 可以做 staff 级别的 bug 捕捉，把工作重新过一遍，找出 plan mode 没覆盖到的问题。更关键的是浏览器能力。Gary 说自己写了围绕 Playwright 和 Chromium 的 CLI，让 agent 能截图、点击、填表、下载媒体、跑回归测试，甚至根据真实浏览器问题更新 CSS。

“一旦 agent 开始做计划、设计和编码，我发现自己坐在那里做 QA。”

这句话点出了 AI 编程的新瓶颈：当机器承担更多产出，人类最容易被困在验证环节。Gary 甚至直说，做 QA 可能是软件开发里最没意思的部分，所以必须自动化。如果 agent 只会写代码，你得到的是更快的风险；如果它还能在真实浏览器里验证，你才开始接近可交付的软件工厂。这也是他不满足于 Claude Chrome MCP 的原因：慢、上下文膨胀、动作不稳定，都会在高频 QA 中迅速放大。把浏览器能力做成 CLI，等于把验证变成 agent 可以可靠调用的基础设施。

设计也可以并行，但人要做选择

视频中还有一个很有代表性的环节：Design Shotgun。系统围绕税务文档追踪页面，一次生成三个方向：command center、friendly progress、split view。Gary 逐个看，给 A 四星，觉得 B 更适合普通用户，C 太复杂，于是选了 B。这个过程说明，他并没有把设计判断完全交给模型。agent 负责快速扩展可能性，人负责判断哪一个更贴近用户。

“如果你不喜欢它，可以输入反馈并重新生成；但这次我们选择 B 继续。”

对设计师和产品负责人来说，这个环节比“AI 会不会取代设计”更有参考价值。Gary 要的不是一个炫技界面，而是一个友好的卡片式进度体验，让普通人知道哪些银行、哪些 1099、当前状态是什么。AI 让草案变多，但品味和取舍仍然要回到用户场景。这也是为什么他把设计工具放在整套流程里，而不是单独当成图片生成器。

多 agent 不是更多窗口，而是并行 PR 的工厂

Gary 把 GStack 能达到的状态称作接近“level 7 software factory”。意思不是一个 agent 替你完成所有事，而是你可以同时开多个 Conductor 窗口，在不同项目、不同分支、不同功能上并行推进。他说自己现在经常同时运行 10 到 15 个 Claude Code 会话，有时一个项目就有多个 session，在不同分支上做平行 PR，最后再合并落地。

“我同时运行 10 到 15 个 Claude Code 会话。”

这听起来很激进，但背后仍然是流程，而不是盲目堆 agent。每个想法、bug report、用户抱怨，都可以变成一个独立 worktree；每个 work item 都跑 Office Hours、CEO review、工程评审、对抗性评审和最终 review。并行的前提，是每条线都有清楚的边界和交付门槛。否则，多 agent 只会把混乱并行放大。Gary 的做法更像把每个新想法都变成可追踪的工作单元：它有自己的分支、自己的评审、自己的发布门槛。人类不再手写长长的待办清单，而是不断判断哪些 work item 值得继续、哪些应该停下。

最后一层护栏，是把安全和交付放进默认流程

越是高并行，越不能只看速度。Gary 特别提到，AI coding 里很可怕的一件事是供应链攻击，所以他对开源 PR 非常谨慎。GStack 里的 ship tool 是落到 main 之前的最后一步，负责确认 PR 是否真的准备好合并。对一个每天可能处理很多 PR 的人来说，这不是形式主义，而是把安全、质量和交付节奏变成默认动作。

“我不再有待办清单了。每一个想法或 bug report，都会变成一个新的 work item。”

视频结尾，Gary 说这是历史上最不可思议的软件构建时刻，构建门槛已经坍塌，剩下的问题是你要做什么。放在整期内容里，这句话并不是鸡血。它的前提是：你得有一套足够严格的流程，把想法、计划、设计、代码、浏览器验证、评审和发布连接起来。否则，门槛降低之后，最先到来的不是生产力，而是更多未经验证的半成品。对今天的工程团队来说，这可能是最实际的提醒：不要只问模型能写多少代码，也要问这些代码从哪里来、经过哪些审查、如何在真实用户路径里被验证。

写在最后

把 agent 当团队管理，而不是当魔法按钮使用。先问证据，再定计划，再做评审和验证。模型已经足够快，接下来真正拉开差距的，是你能不能把它放进一套稳定、可复用、能交付的流程里。

内容来源：”How to Make Claude Code Your AI Engineering Team”丨Y Combinator

原视频：https://www.youtube.com/watch?v=wkv2ifxPpF8&t=0s

如果你喜欢深度好文，试试用小程序将不方便立刻阅读的文章转成播客，用「听」的方式，稍后阅读，不再错过好文章⇣

⇣ 关注我，每天为你更新硅谷最新的 AI 创业／科技播客总结，让你与前沿保持同频 ⇣