创业邦 2026-04-16 18:13 北京

黄仁勋:没有AI NVIDIA依然会非常非常强大,但我会很难过


主要内容
- 将电子转化为token的过程极难被完全商品化。在这个过程中英伟达自己的定位是“做尽可能多必要的事和尽可能少不必要的事”,将不需要做的事交给生态合作伙伴。
- 预测AI智能体和工具用户的数量将呈指数级增长。这会导致现有工具软件如新思科技Synopsys的使用实例激增,反驳了AI会使传统软件公司贬值或商品化的普遍观点。
- 反对AI导致失业的末日论。正如十年前人们被劝退不要学习放射学导致如今放射科医生短缺一样,现在劝退人们学习软件工程将导致未来软件工程师紧缺。当前行业的真正瓶颈其实是水管工和电工等基础设施建设人员。
- 黄仁勋坦承自己过去犯了一个错误,当时未能深刻认识到基础AI实验室无法通过传统VC获得所需资金。这导致Nvidia错失了早期为Anthropic提供数十亿美元计算资源投资的机会,从而让竞争对手占据了先机。
- 关于Nvidia为何不自己成为超大规模云服务商,黄仁勋强调公司的理念是避免业务过于复杂。支持CoreWeave等新型云服务商的目的是确保这些生态系统能够顺利诞生并发展。Nvidia极力避免涉足融资或底层云服务托管业务领域。
- 黄仁勋澄清了关于科技大佬们在晚宴上向他乞求GPU的传闻,明确表示Nvidia的算力分配原则通常基于订单先后顺序以及客户数据中心的准备情况,绝对拒绝采用价高者得的竞价模式。
- 针对中国算力受限的问题,他提出“AI是一个五层蛋糕”的观点,认为底层的能源充裕程度可以弥补芯片工艺的不足。中国拥有充足的电力和庞大的基础设施,可以通过组合大量7nm旧工艺芯片来获得所需的庞大算力。
- 黄仁勋警告彻底切断对华芯片供应将迫使中国大力发展本土独立技术栈。放弃这个全球第二大市场将严重损害美国的技术领导地位,并可能导致未来全球首选的开源AI模型在非美国硬件底座上运行得更好。
- 黄仁勋透露Nvidia正在细分推理市场。由于高价值用户如软件工程师愿意为极低的延迟支付溢价,Nvidia开始通过整合类似Groq的技术来提供响应速度极快的高级token服务,借此满足对速度敏感的高端细分市场需求。
- Nvidia在投资基础大模型初创公司时坚持不挑选赢家的策略。黄仁勋回忆Nvidia早期架构曾被普遍认为必定失败却最终幸存的经历,这种谦卑感促使自己决定要么让所有初创公司自己发展,要么就同时支持所有公司。
(文字稿来自Dwarkesh Patel播客 https://www.dwarkesh.com/p/jensen-huang)

Nvidia最大的护城河 是其对稀缺供应链的掌控吗?
主持人:我们看到许多软件公司的估值暴跌,因为人们预期AI将使软件商品化。有一种可能比较天真的想法,那就是你看,英伟达Nvidia将GDS2文件发送给台积电TSMC。TSMC制造逻辑芯片,制造交换机,然后将它们与SKHynix、Micron和Samsung制造的HBM封装在一起。然后将其发送到台湾的ODM,由他们组装机架。Nvidia本质上是在开发由其他人制造的软件,如果软件变得商品化,Nvidia会被商品化吗?
黄仁勋:归根结底,必须有某种东西将电子转化为词元(token)。将电子转化为token并随着时间的推移使这些token变得更有价值,这很难完全商品化。从电子到token的转变是一个不可思议的旅程。创造那个token就像让一个分子比另一个分子更有价值,让一个token比另一个更有价值。显然我们正在实时见证为了让那个token变得有价值所投入的艺术、工程、科学和发明。这个转化、制造过程以及其中包含的所有科学还远未被深刻理解,而且这个旅程还远未结束。我怀疑这种情况会发生。我们当然会让它变得更高效。你提出问题的方式正是我对我们公司的心理模型。输入的是电子,输出的是token。中间是Nvidia。我们的工作是做尽可能多必要的事,做尽可能少不必要的事,从而以令人难以置信的能力完成这种转变。
我所说的“尽可能少”是指,任何我不需要做的事情,我都会找人合作,并将其纳入我的生态系统。如果你看看今天的Nvidia,我们在供应链的上下游可能拥有最大的合作伙伴生态系统,包括所有的计算机公司、应用程序开发者和模型制造商。如果你愿意这么想,AI就像一个五层蛋糕。我们在整个五层都有生态系统。我们尽量少做事,但事实证明,我们必须做的那部分难得令人发指。我不认为那会被商品化。事实上,我同样认为企业软件公司、工具制造商的情况也是如此。当今大多数软件公司都是工具制造商。有些公司存在差异。有些属于工作流编码系统。但对于许多公司来说,它们是工具制造商。例如Excel是一个工具,PowerPoint是一个工具,Cadence制造工具,Synopsys制造工具。我看到的其实与人们看到的完全相反。
我认为agent的数量将呈指数级增长,工具用户的数量也将呈指数级增长。所有这些工具的实例数量极有可能会猛增。SynopsysDesignCompiler的实例数量极有可能会猛增,同时使用布局规划器、我们的布线工具和我们的设计规则检查器的agent数量也会猛增。今天我们受到工程师数量的限制。明天这些工程师将得到一群agent的支持。我们将以前所未见的方式探索设计空间,我们将使用我们今天使用的工具。我认为工具的使用将导致软件公司迅速发展。这尚未发生的原因在于agent还不够擅长使用它们的工具。要么这些公司将自己构建agent,要么agent将变得足够好以能够使用这些工具。我认为这将是两者的结合。
主持人:我认为在你们最近的财报中,你们在代工厂、存储器和封装方面有近1000亿美元的采购承诺。SemiAnalysis报道称,你们将有2500亿美元的此类采购承诺。一种解释是,Nvidia的护城河实际上是你们已经锁定了这些稀缺组件多年的产能。其他人可能有加速器,但他们真的能得到制造它所需的存储器吗?他们真的能得到制造它的逻辑芯片吗?这真的是Nvidia未来几年的巨大护城河吗?
黄仁勋:这是我们能做到的而别人很难做到的事情之一。我们在上游做出了巨大的承诺。其中一些是显性的,比如你提到的这些承诺。有些是隐性的。例如,上游的许多投资是由我们的供应链进行的,因为我向各位CEO明确表示,让我告诉你们这个行业会有多大,让我向你们解释原因,让我和你们一起推理,让我向你们展示我所看到的。作为这个告知、启发并与上游各个行业的CEO保持一致的过程的结果,他们愿意进行投资。为什么他们愿意为我投资而避开其他人呢?原因在于他们知道我有能力购买他们的供应品并通过我的下游销售。事实是Nvidia的下游供应链和我们的下游需求如此巨大,以至于他们愿意在上游进行投资。
你看看GTC,人们会对其规模和与会者感到惊叹。这是全方位的,整个AI宇宙都在一个地方。他们都在一个地方是因为他们需要看到彼此。我把他们聚集在一起,这样下游就能看到上游,上游也能看到下游,所有人都能看到AI的进步。非常重要的是,他们都可以见到AI原生企业,所有正在建立的AI初创公司,以及所有正在发生的惊人事情,这样他们就可以亲眼看到我告诉他们的所有事情。我花了很多时间直接或间接地向我们的供应链、合作伙伴和生态系统通报摆在我们面前的机会。有些人总是说,黄仁勋在大多数主题演讲中总是一个接一个地宣布新产品。在我们的主题演讲中,总有一部分感觉有点像在受折磨,因为它几乎像是在进行教育。事实上这正是我所想的。我需要确保整个供应链、上游和下游以及生态系统都明白我们将面临什么,为什么会发生,什么时候发生,规模会有多大,并且能够像我一样系统地推理。
关于你描述的护城河,我们能够为未来而建设。如果我们未来几年的规模达到万亿美元,我们就有供应链来做到这一点。如果没有我们的影响力,我们业务的速度根本无法维持。就像有现金流一样,也有供应链流,也有客户流失。如果业务流失率很低,没有人会为某种架构建立供应链。我们之所以能够维持这种规模,仅仅是因为我们的下游需求太大了。他们看到了,他们听说了,他们看到这一切即将到来。这让我们能够在我们所做的规模上做我们能够做的事情。
主持人:我确实想更具体地了解上游是否能跟上。多年来,你们的收入逐年翻倍。你们提供给世界的flops数量也逐年增加了两倍多。
黄仁勋:在现在的规模下还能翻倍真是令人难以置信。
主持人:确实如此。但接下来你看看逻辑芯片。你们是TSMC的N3节点的最大客户,你们也是N2节点的最大客户之一。根据SemiAnalysis的数据,今年整个AI将占N3节点的60%。明年将达到86%。如果你们已经占据了大多数份额,你们如何翻倍?你们如何年复一年地做到这一点?我们现在是否处于这样一种状态,即由于上游的原因,AI计算的增长率必须放缓?你看到解决这个问题的办法了吗?归根结底我们如何做到每年增加两倍的晶圆厂?
黄仁勋:在某种层面上,全球的即时需求大于上游和下游的供应。在任何瞬间,我们都可能受到水管工数量的限制,这实际上正在发生。
主持人:明年的GTC要邀请水管工人参加了。
黄仁勋:顺便说一句,这是个好主意。但这是一个好情况。你希望一个行业的即时需求大于行业的总供应。反之显然不那么好。如果差距太大,如果某个特定组件距离太远,整个行业就会蜂拥而至。例如,请注意人们现在不再怎么谈论CoWoS了。原因在于两年来我们一直在疯狂地解决它。我们在好几个翻倍的基础上继续翻倍。现在我认为我们的状况相当好。TSMC现在知道CoWoS的供应必须跟上其他逻辑需求和存储器需求。他们正在像扩展逻辑芯片一样扩展CoWoS和未来的封装技术。这太棒了,因为很长一段时间以来,CoWoS和HBM存储器都是相当特殊的领域。但它们不再是特种技术,人们现在认识到它们是主流计算技术。当然我们现在更有能力影响更大范围的供应链。
在AI革命初期,我现在说的所有话,五年前我就说过了。有些人相信并投资了它,例如Sanjay和Micron团队。我依然清楚地记得那次会议,在那次会议上我明确指出了究竟会发生什么,为什么会发生,以及今天的预测。他们真的加倍投入。我们在LPDDR和HBM存储器方面与他们合作,他们真的进行了投资。显然这对公司来说是巨大的成就。有些人来得晚了一点,但现在他们都来了。这些瓶颈中的每一个都得到了极大的关注。现在我们在几年前就提前应对这些瓶颈。例如,过去几年我们对Lumentum、Coherent和硅光子生态系统进行的投资真正重塑了供应链。我们围绕TSMC建立了一个完整的供应链。我们在COUPE上与他们合作,发明了大量技术,并将这些专利授权给供应链,以保持其良好的开放性。我们正在通过发明新技术、新工作流程、新测试设备如双面探测来让供应链做好准备,投资公司并帮助他们扩大产能。你可以看到我们正在努力塑造生态系统,以使供应链准备好支持这种规模。
主持人:似乎有些瓶颈比其他瓶颈更容易解决。扩大CoWoS产能与扩大其它产能相比。
黄仁勋:顺便说一句,我谈到了最难的一个。
主持人:那是什么?
黄仁勋:水管工。水管工和电工。这是我对那些末日论者描述工作终结和扼杀就业的担忧之一。如果我们阻止人们成为软件工程师,我们将会耗尽软件工程师。十年前也出现过同样的预测。一些末日论者告诉人们,无论你做什么,都不要当放射科医生。你可能还会在网上听到一些类似的视频说放射学将是第一个消失的职业,世界将不再需要任何放射科医生。猜猜我们现在缺什么?放射科医生。
主持人:回到这一点,有些东西你可以扩大规模,而另一些东西则不然。你究竟如何做到每年制造出两倍的逻辑芯片?归根结底,存储器和逻辑芯片都受到EUV的瓶颈限制。你们如何实现EUV机器数量每年翻倍?
黄仁勋:快速扩大规模并非不可能。所有这些都很容易在两三年内完成。你只需要一个需求信号。一旦你能制造一个,你就能制造十个,一旦你能制造十个,你就能制造一百万个。这些东西不难复制。
主持人:你们对供应链的渗透有多深?你们会去找ASML说如果我展望三年后,为了让Nvidia每年产生两万亿美元的收入,我们需要更多的EUV机器吗?
黄仁勋:有些我必须直接沟通,有些则间接沟通,如果我能说服TSMC,ASML就会被说服。我们必须考虑关键的瓶颈点。但如果TSMC被说服了,几年后你就会有充足的EUV机器。我的观点是,没有一个瓶颈会持续两三年以上,完全没有。与此同时,我们将计算效率提高了10倍到20倍,从Hopper到Blackwell,提高了30到50倍。我们正在提出新算法,因为CUDA非常灵活。我们正在开发各种新技术,以便在增加容量的同时提高效率。这些事情都不让我担心。让我担心的是我们下游的事情。阻碍能源发展的能源政策。没有能源你就无法创造一个行业。没有能源你就无法创造一个全新的制造业。我们希望美国重新工业化。我们希望带回芯片制造、计算机制造和封装。我们希望制造电动汽车和机器人等新事物。我们希望建立AI工厂。没有能源你什么都建不成,而这些事情需要很长时间。更多的芯片产能,这是一个两三年的问题。更多的CoWoS产能,也是两三年的问题。
主持人:有趣。我觉得有时候我的客人告诉我完全相反的事情。在这种情况下,我只是没有技术知识来做出判断。
黄仁勋:美妙之处在于你正在和专家交谈。

TPU会打破 Nvidia对AI计算的掌控吗?
主持人:确实如此。我想问一下关于你们竞争对手的情况。如果你看看TPU,可以说世界上排名前三的模型中有两个,即Claude和Gemini,是在TPU上训练的。这对Nvidia的未来意味着什么?
黄仁勋:我们构建的是完全不同的东西。Nvidia构建的是加速计算,这与张量处理单元完全不同。加速计算被用于各种各样的事情:分子动力学、量子色动力学、数据处理、数据框架、结构化数据和非结构化数据。它也用于流体动力学和粒子物理学。此外我们还将它用于AI。加速计算要多样化得多。尽管如今AI是热门话题,而且显然非常重要且具有影响力,但计算的范围远不止于此。Nvidia彻底重塑了计算方式,从通用计算转变为加速计算。我们的市场触达范围远大于任何TPU或ASIC可能拥有的范围。
如果你看看我们的地位,我们是唯一一家加速各种应用程序的公司。我们拥有庞大的生态系统。因此各种框架和算法都在Nvidia上运行。因为我们的计算机被设计为由其他人操作,任何操作员都可以购买我们的系统。对于大多数这些自建系统,你必须做自己的操作员,因为它们在设计之初就缺乏足够的灵活性供他人操作。因为任何人都可以操作我们的系统,所以我们存在于每个云端,包括Google、Amazon、Azure和OCI。
如果你想运营它来出租,你最好在许多行业拥有庞大的客户生态系统来成为承购方。如果你想为自己运营它,我们显然有能力帮助你自己运营,就像我们为马斯克的xAI所做的那样。因为我们能够支持任何公司和任何行业的操作员,你可以用它来为Lilly的科学研究和药物发现建立一台超级计算机。我们可以帮助他们运营他们自己的超级计算机,并将其用于我们加速的药物发现和生物科学的整个多样性研究中。有很多我们可以解决的应用程序是TPU无法做到的。
Nvidia也将CUDA构建成了一个出色的张量处理单元,但它也处理数据处理、计算、AI等每一个生命周期。我们的市场机会要大得多,我们的触达范围也大得多。因为我们现在支持世界上每一个应用程序,你可以在任何地方构建Nvidia系统,并知道一定会有客户。这是完全不同的事情。
主持人:这将是一个很长的问题。你们的收入非常可观,而且你们并非从制药和量子领域每季度赚取600亿美元。你们之所以赚到钱,是因为AI是一项前所未有的技术,正以前所未有的速度发展。那么问题是,对于AI本身来说什么是最好的?我不了解细节,但我与我的AI研究员朋友交谈,他们说,你看,当我使用TPU时,它是一个巨大的脉动阵列,非常适合进行矩阵乘法,而GPU则非常灵活。当你有大量分支或不规则存储器访问时,它非常棒。但AI是什么?它只是一次又一次非常可预测的矩阵乘法。你不需要为warp调度器或线程和存储器组之间的切换放弃任何芯片面积。而且TPU确实针对当前正在上线的这部分收入增长和计算用例进行了优化。我想知道你对此有何反应。
黄仁勋:矩阵乘法是AI的重要组成部分,但绝对不仅仅限于这一部分。如果你想提出一种新的注意力机制,以不同的方式分解,或完全发明一种全新的架构如混合SSM,你需要一种通用可编程的架构。如果你想创建一个融合扩散和自回归技术的模型,你需要一种通用可编程的架构。我们运行你能想象到的一切。这就是优势所在。它允许更容易地发明新算法,因为它是一个可编程的系统。发明新算法的能力真正让AI发展得如此之快。与任何其它事物一样,TPU受摩尔定律的影响,我们知道摩尔定律正以每年约25%的速度增长。真正实现10倍或100倍飞跃的唯一方法就是每年彻底改变算法及其计算方式。这是Nvidia的根本优势。我们能够让Blackwell比Hopper提升50倍的唯一原因在于……当我第一次宣布Blackwell的能效将比Hopper高35倍时,没人相信。后来Dylan写了一篇文章说我有所保留,其实是50倍。仅靠摩尔定律你是无法合理做到这一点的。我们解决这个问题的方法是使用新模型如MoE,它们被并行化、分解并分布在计算系统中。如果没有能力真正深入并使用CUDA开发新的内核,这真的很难做到。这是我们架构的可编程性与Nvidia是一家极端协同设计公司这一事实的结合。我们甚至可以将部分计算卸载到光纤结构本身如NVLink,或者通过SpectrumX卸载到网络中。我们可以同时影响处理器、系统、光纤结构、库和算法的更改。如果没有CUDA来做到这一点,我甚至不知道从哪里开始。
主持人:这引出了一个关于Nvidia客户的有趣问题。你们60%的收入来自这五大超大规模云服务商。在一个拥有不同客户的不同时代,比方说教授在做实验,他们需要CUDA。他们不能使用其它加速器。他们只需要用CUDA运行PyTorch,并优化一切。但是这些超大规模云服务商有资源编写自己的内核。事实上,为了获得特定架构所需的最后5%的性能,他们必须这样做。Anthropic和Google主要运行他们自己的加速器或运行TPU和Trainium。但即使是使用GPU的OpenAI,也有Triton,因为他们需要自己的内核。一直到CUDAC++,他们没有使用cuBLAS和NCCL,而是有自己的堆栈,也可以编译到其它加速器。如果你们的大多数客户能够并且确实制造了CUDA的替代品,那么在多大程度上CUDA才是真正让Nvidia实现前沿AI的关键?
黄仁勋:CUDA是一个丰富的生态系统。如果你想首先在任何计算机上进行构建,那么首先在CUDA上构建是非常明智的。因为生态系统如此丰富,我们支持所有框架。如果你想创建自定义内核……例如我们在Triton上做出了巨大贡献。因此Triton的后端包含大量的Nvidia技术。我们很高兴能帮助每个框架做到最好。有许多框架存在。有Triton、vLLM、SGLang等。现在还有一大批新的强化学习框架出现,比如verl和NeMoRL。随着后训练和强化学习的出现,整个领域都在爆炸式增长。因此如果你想在某种架构上进行构建,在CUDA上构建是最合理的,因为你知道生态系统很棒。你知道如果发生问题,它更可能出在你的代码中,而不是在底层的海量代码中。不要忘记在构建这些系统时你要处理的代码量。当某些东西不起作用时,是你出的问题还是计算机出的问题?你总是希望问题出在你自己身上并且能够信任计算机。显然我们自己仍然有很多漏洞,但我们的系统经过了极其充分的测试,你至少可以在这个基础上进行构建。这是第一点:生态系统的丰富性、可编程性和能力。
第二件事是,如果你是一名开发任何东西的开发人员,你最想要的一件事就是安装基础。你希望你编写的软件能在许多其它计算机上运行。你开发软件并非仅仅为了你自己。你是为你的机队或所有其他人的机队构建它,因为你是一个框架构建者。Nvidia的CUDA生态系统最终是其巨大的财富。我们现在拥有数亿个GPU。每个云端都有。这可以追溯到A10、A100、H100、H200、L系列、P系列。有一大堆。它们有各种尺寸和形状。如果你是一家机器人公司,你希望那个CUDA堆栈真正运行在机器人内部。我们简直无处不在。安装基础意味着一旦你开发了软件或模型,它将在任何地方都有用。这实在是不可估量的价值。最后,我们存在于每一个云端这一事实使我们真正独一无二。如果你是一家AI公司或开发人员,你不完全确定你将与哪家云服务提供商合作,或者你想在哪里运行它。我们到处运行,如果你愿意,甚至可以在本地为你运行。生态系统的丰富性、安装基础的广阔性以及我们所在位置的多样性相结合,使CUDA变得极其宝贵。
主持人:这很有道理。我想我好奇的是这些优势是否对你们的主要客户非常重要。对于很多人来说,它们可能很重要。那种能够实际构建自己的软件堆栈的人构成了你们大部分收入来源。特别是当你进入这样一个世界,AI在具有紧密验证循环且可以在其上进行强化学习的事情上变得特别出色时。这个问题变成如何编写一个在整个扩展过程中最有效地执行注意力或MLP的内核?这是一个非常可验证的反馈循环。所有超大规模云服务商都能为自己编写这些自定义内核吗?Nvidia仍然拥有出色的性价比,所以他们可能仍然更喜欢使用Nvidia。但问题是,这是否仅仅变成了一个谁提供最好的规格、每美元最好的flops和存储器带宽的问题。而历史上Nvidia之所以在整个AI硬软件领域拥有超过70%的最高利润率,完全是因为这个CUDA护城河。问题是,如果你们的大多数客户实际上能够负担得起构建自己的东西以替代CUDA护城河,你们还能维持这些利润率吗?
黄仁勋:我们分配给这些AI实验室的工程师数量是疯狂的,与他们合作,优化他们的堆栈。原因在于没有人比我们更了解我们的架构。这些架构不像CPU那样通用。CPU有点像卡迪拉克。它是一个很好的巡航车。它从不跑得太快。每个人都开得很好。它有定速巡航,一切都很简单。但在很多方面,Nvidia的GPU、加速器就像F1赛车。我可以想象每个人都能以每小时100英里的速度驾驶它,但要将它推向极限需要相当多的专业知识。我们使用了大量AI来创建我们现有的内核。我非常确定我们在很长一段时间内仍然会被需要。我们的专业知识帮助我们的AI实验室合作伙伴轻松地从他们的堆栈中获得另外两倍的提升。当我们完成对他们堆栈或特定内核的优化时,他们的模型速度提升3倍、2倍、50%,这是很常见的情况。这是一个巨大的数字,特别是当你谈论他们拥有的机队安装基础,他们拥有的所有Hopper和Blackwell时。当你将其增加两倍时,收入就会翻倍。这直接转化为收入。Nvidia的计算堆栈具有世界上最好的每TCO性能,无可匹敌。没有人能向我证明今天世界上有任何单一平台具有更好的性能与TCO比率。没有一家公司。事实上那些基准测试都摆在那里。Dylan的InferenceMAX摆在那里供大家使用,而没有任何一个TPU敢来测试,Trainium也不会来。我鼓励他们使用InferenceMAX并展示他们令人难以置信的推理成本。这真的很难。没有人愿意露面。MLPerf也是如此。我很欢迎Trainium来展示他们一直声称的40%优势。我很想听听他们展示TPU的成本优势。在我看来这毫无意义。这绝对毫无意义。从第一性原理来看,这毫无道理。所以我认为我们如此成功的原因仅仅是因为我们的TCO太棒了。
其次,你说我们60%的客户是前五大公司,但这些业务大部分是外部业务。例如AWS中Nvidia的大部分业务都是针对外部客户的,完全排除了内部使用的情况。我们在Azure的大多数客户,显然我们所有的客户都是外部客户。我们在OCI的所有客户都是外部客户。他们青睐我们的原因在于我们的触达范围太大了。我们可以为他们带来世界上所有优秀的客户。他们都是在Nvidia上构建的。所有这些公司都建立在Nvidia之上的原因在于我们的覆盖面和通用性极其巨大。所以我认为飞轮效应真正体现为安装基础、我们架构的可编程性、我们生态系统的丰富性,以及世界上有大量AI公司这一事实。现在有成千上万家这样的公司。
如果你是这些AI初创公司之一,你会选择哪种架构?你会选择数量最充足的架构。我们是世界上数量最充足的。你会选择安装基础最大的一个。我们有最大的安装基础。你会选择拥有丰富生态系统的那个。这就是飞轮。这就是原因所在,综合以下几点:第一,我们的每美元性能如此之高,以至于他们拥有最低成本的token。第二,我们的每瓦性能是世界上最高的。因此如果这些公司之一,如果我们的合作伙伴建造了一个一吉瓦的数据中心,那个一吉瓦的数据中心最好能提供最大数量的收入和token数量,这直接转化为收入。你希望它生成尽可能多的token,最大化该数据中心的收入。我们是世界上每瓦token数最高的架构。最后,如果你的目标是出租基础设施,我们拥有世界上最多的客户。这就是飞轮有效运转的原因。
主持人:有趣。我想问题归结为,这里实际的市场结构是什么?因为即使有其它公司……世界上可能有数万家AI公司拥有大致相等的计算份额。但即使通过这五大超大规模云服务商,真正在Amazon上使用计算资源的人是Anthropic、OpenAI,以及这些本身能够负担得起并且有能力让不同加速器工作的大型基础实验室。
黄仁勋:不,我认为你的前提错了。
主持人:也许吧。但让我问一个稍微不同的问题。
黄仁勋:请回来让我纠正你的前提。
主持人:好的。让我问你一个不同的问题。
黄仁勋:但一定要确保让我回来修复它,因为它对AI太重要了。它对科学的未来太重要了。它对行业的未来太重要了。那个前提……你看。
主持人:让我先问完问题,然后我们再一起探讨。
黄仁勋:好的。
主持人:如果所有这些关于价格、性能和每瓦性能等事情都是真的,为什么你认为是这样的情况,比如Anthropic就在几天前宣布他们与Broadcom和Google达成了数十吉瓦的协议,涉及TPU和他们大部分的计算能力?显然对于Google来说,TPU占据了计算的绝大部分。所以如果我看看这些大型AI公司,似乎他们很多的计算资源……在某一点上全是Nvidia,而现在已经有所改变。所以我很好奇如何解释,如果这些在纸面上都是真的,为什么他们要选择其它加速器?
黄仁勋:Anthropic是一个极其罕见的特例,这绝代表不了某种趋势。如果没有Anthropic,TPU怎么会有任何增长?这100%归功于Anthropic。如果没有Anthropic,Trainium怎么会有增长?这100%归功于Anthropic。我认为这是相当众所周知且容易理解的。这绝非意味着有丰富的ASIC机会。只有一个Anthropic。
主持人:但是OpenAI与AMD的交易……他们正在建造自己的Titan加速器。
黄仁勋:是的,但我认为我们都可以承认他们绝大部分都使用Nvidia。我们仍将一起做很多工作。我不会因为别人使用其它东西并进行尝试而感到被冒犯。如果他们不尝试这些其它东西,他们怎么知道我们的有多好?有时候你需要被提醒一下。我们必须不断赢得我们所处的地位。总是有很多夸大的声明。看看被取消的ASIC数量。仅仅因为你要制造一个ASIC,你仍然需要制造出比Nvidia更好的东西。制造比Nvidia更好的东西没那么容易。这其实是不明智的。除非Nvidia真的错失了什么严重的问题。由于我们的规模和速度,我们是世界上唯一一家每年都在推出新产品的公司。每年都有巨大的飞跃。
主持人:我想他们的逻辑是,它不需要更好,它只需要不比你们差70%以上,因为他们向你们支付了70%的利润。
黄仁勋:不,别忘了,即使在ASIC中利润也非常高。比方说Nvidia的利润率是70%。但ASIC的利润率是65%。你真正省下了什么?
主持人:哦,你是说从Broadcom或者类似的地方?
黄仁勋:是的,当然。你必须付钱给某人。据我所知,我认为ASIC的利润高得令人难以置信。他们也这么认为。他们为自己惊人的ASIC利润率感到相当自豪。所以你问了为什么的问题。很久以前我们只是没有能力做到这一点。当时我没有深刻认识到建立像OpenAI和Anthropic这样的基础AI实验室有多么困难,也没有认识到他们需要供应商自己提供巨额投资。我们当时只是没有能力对Anthropic进行数十亿美元的投资以便他们可以使用我们的计算资源。但是Google和AWS可以。他们一开始投入了巨资,作为回报,Anthropic使用了他们的计算资源。我们当时只是没有能力做到这一点。我想说我的错误在于我没有深刻认识到他们真的别无选择,VC永远不会向一个AI实验室投入50到100亿美元的投资,并指望它能成为Anthropic。所以那是我的失误。但即使我理解了,我也不认为我们当时有能力做到那一点。但我不会再犯同样的错误。我很高兴能投资OpenAI,我很高兴能帮助他们扩大规模,我相信这样做是必不可少的。然后当我有能力时,当Anthropic来找我们时,我很高兴成为投资者,很高兴帮助他们扩大规模。我们当时只是没有能力做到这一点。如果我能让一切倒流,而Nvidia在当时就能像现在一样庞大,我会非常乐意这么做。

为什么Nvidia不成为 一家超大规模云服务商?
主持人:这其实相当有趣。多年来Nvidia一直是AI领域赚钱的公司,赚了很多钱。现在你们正在投资。有报道称你们已经向OpenAI投资了高达300亿美元,向Anthropic投资了100亿美元。但现在他们的估值增加了,我相信还会继续增加。如果过去这么多年你们一直在为他们提供计算资源,你们看到了发展方向,而几年前甚至在一年前他们的估值还只有现在的十分之一左右,且你们有大量现金,在那样一个世界里,要么Nvidia自己成为一个基础实验室,进行大规模投资以实现这一目标,要么就在早期以当前的估值达成你们现在的协议。而且你们有现金来做这件事。所以我很好奇,实际上为什么不早点做呢?
黄仁勋:我们已经尽快去做了。我们一有能力就做了,如果可以的话我会做得更早。在Anthropic需要我们这么做的时候,我们只是没有条件去做。这不是我们的行事原则。
主持人:怎么说?是因为现金问题吗?
黄仁勋:是的,投资规模的问题。当时我们从未在公司外部进行过投资,也没有投资过那么多。我们没有意识到我们需要这么做。我一直认为看在上帝的份上,他们可以像所有公司一样去向VC融资。但他们想做的事情不可能通过VC来完成。OpenAI想做的事情不可能通过VC完成。我现在认识到了。我当时不知道。但那是他们的天才之处。那就是他们聪明的原因。他们当时意识到他们必须做那样的事情。我很高兴他们这样做了。尽管我们导致Anthropic不得不去找别人,我仍然对它的发生感到高兴。Anthropic的存在对世界大有裨益。我为此感到高兴。
主持人:我想你们现在赚的钱仍然非常多,而且一个季度比一个季度赚得多。
黄仁勋:有遗憾仍然是可以接受的。
主持人:所以问题依然存在。既然我们现在到了这个阶段,你们手握着源源不断赚来的巨额资金,Nvidia应该拿这些钱做什么?有一种答案是,现在涌现出一个完整的中间商生态系统,将这些实验室的资本支出转化为运营支出,以便他们可以租用计算资源。由于芯片非常昂贵,而且随着AI模型不断改进,它们在其生命周期内赚取了大量利润。因此它们产生的价值、它们的token正在增加,但它们的设置成本很高。Nvidia有钱进行资本支出。事实上据报道,你们为CoreWeave提供了高达63亿美元的资金支持,并投资了20亿美元。为什么Nvidia自己不成为云服务提供商?为什么不自己成为超大规模云服务提供商并出租这种计算资源?你们有充足的现金来做这件事。
黄仁勋:这是公司的一项理念,我认为这是明智的。我们应该做尽可能多必要的事,做尽可能少不必要的事。这意味着我们构建计算平台的工作,如果我们不做,我真心相信它就不会完成。如果我们没有承担我们所承担的风险,如果我们没有以我们所做的方式构建NVLink,如果我们没有构建整个堆栈,如果我们没有以我们所做的方式创建生态系统,如果我们没有在大部分时间都在亏钱的情况下致力于CUDA长达20年,如果我们没有这么做,没有任何其他人会这么做。如果我们没有创建所有针对特定领域的CUDAX库……十五年前,我们进军特定领域的库,因为我们意识到,如果我们不创建这些特定领域的库,无论是用于光线追踪还是图像生成,甚至早期的AI工作、这些模型,如果我们不创建它们用于数据处理、结构化数据处理或矢量数据处理,如果我们不创建它们,就没有人会创建。对此我绝对肯定。我们创建了一个名为cuLitho的计算光刻库。如果我们不创建它,就没有人会创建。所以如果我们没有做我们所做的事情,加速计算就不会像现在这样发展。所以我们应该这样做。我们应该倾注我们公司的全部心血,全力以赴去做那件事。然而世界上有很多云。如果我不做,也会有人出现。因此遵循做尽可能多必要的事但做尽可能少不必要的事的秘诀和哲学,这种哲学今天存在于我们公司。我做的每一件事,我都用这种眼光来看待。
在云的问题上,如果我们不支持CoreWeave的存在,这些新型云服务、这些AI云就不会存在。如果我们没有帮助CoreWeave存在,他们就不会存在。如果我们不支持Nscale,他们就不会有今天的地位。如果我们不支持Nebius,他们也不会有今天的成就。现在他们做得非常好。那是一个商业模式吗?我们应该做尽可能多必要的事,做尽可能少不必要的事。所以我们投资于我们的生态系统,因为我希望我们的生态系统繁荣。我希望这种架构以及AI能够连接尽可能多的行业,连接尽可能多的国家,让这个星球建立在AI之上,建立在美国的技术堆栈之上。这一愿景正是我们所追求的。现在你提到的一件事……有很多伟大且惊人的基础模型公司,我们尝试投资所有的这些公司。这是我们做的另一件事。我们不挑选赢家。我们需要支持每一个人。这也是我们乐在其中的一部分。这对我们的业务至关重要。但我们也会特意不去挑选赢家。所以当我投资其中一家时,我会投资所有的公司。
主持人:为什么你们特意不去挑选赢家?
黄仁勋:首先因为那不是我们的工作。其次当Nvidia刚起步时,有60家3D图形公司。我们是唯一幸存下来的一家。如果你看看那60家图形公司并问自己哪一家会成功,Nvidia绝对会排在最不可能成功名单的榜首。这发生在你出生很久以前,但Nvidia的图形架构曾经完全错误。不是有一点错。我们创建了一个完全错误的架构,开发人员根本无法提供支持。它永远不会成功。我们从良好的第一性原理对其进行了推理,但最终得出了错误的解决方案。每个人都会把我们排除在外。但我们现在站在这里。所以我保持足够的谦卑来认识到这一点。不要挑选赢家。要么让他们各显神通,要么就照顾好他们所有人。
主持人:有一件事我不明白,你说我们不优先考虑这些新型云服务,绝非仅仅因为它们是新型云服务我们就想支撑它们。但你同时也列举了一堆新型云服务,并说如果没有Nvidia它们就不会存在。这两件事是如何兼容的?
黄仁勋:首先他们自己必须想存在,然后他们来向我们寻求帮助。当他们想存在并且他们有商业计划、专业知识和热情时……他们显然必须自己具备一些能力。但如果归根结底他们需要一些投资才能起步,我们会为他们提供支持。但他们越早让飞轮转动起来越好。你的问题是我们想进入融资业务吗?答案是完全不想。有很多从事融资业务的人,我们宁愿与所有从事融资业务的人合作,也不愿自己成为金融家。我们的目标是专注于我们所做的事情,保持我们的商业模式尽可能简单,并支持我们的生态系统。当像OpenAI这样的人需要达到300亿美元规模的投资,因为这还是在他们IPO之前,而且我们深信他们,我深信他们将成为一家……其实他们今天已经是一家非凡的公司了。他们将成为一家令人难以置信的公司。世界需要他们存在。世界希望他们存在。我也希望他们存在。他们顺风顺水。让我们支持他们并让他们扩大规模。我们将进行这些投资因为他们需要我们这么做。但我们并未试图做尽可能多的事情。我们正试图做尽可能少的事情。
主持人:这可能是一个显而易见的问题,但我们已经生活在这种GPU短缺的情况下很多年了,而且随着模型变得更好这种短缺正在加剧。
黄仁勋:我们确实面临GPU短缺。
主持人:是的。Nvidia以分配稀缺资源而闻名,并非仅仅基于出价高低,而是基于我们要确保这些新型云服务存在。让我们给CoreWeave分一点,给Crusoe分一点,给Lambda分一点。为什么这对Nvidia有好处?首先你同意这种关于分裂市场的描述吗?
黄仁勋:不同意。不同意。你的前提完全错误。我们对这些事情足够关注。我们对这些事情非常关注。首先如果你不下达采购订单,世界上所有的谈话都无济于事。在我们收到采购订单之前,我们能做什么?所以第一件事是,我们非常努力地与大家一起完成预测,因为这些东西需要很长时间来构建,数据中心也需要很长时间来构建。我们通过预测使我们在需求和供应等事情上保持一致。明白吗?这是第一项任务。第二,我们试图与尽可能多的人一起进行预测,但在最终分析中,你仍然必须下订单。也许无论出于何种原因你没有下订单。我能做什么?在某个时候,遵循先到先得。但除此之外,如果由于你的数据中心没有准备好,或者某些组件没有准备好使你能够建立数据中心,而你没有准备好,我们可能会决定先服务另一个客户。那仅仅是为了最大化我们自己工厂的吞吐量。我们可能会在那里做一些调整。除此之外的优先事项是先到先得。你必须下达采购订单。如果你不下达采购订单……现在当然有关于这方面的传闻。例如,这一切可能源于一篇关于Larry和Elon与我共进晚餐并在席间乞求GPU的文章。这根本没发生过。我们确实共进晚餐了。我们绝对共进晚餐了,而且那是一顿美好的晚餐。但他们在任何时候都没有乞求过GPU。他们只需要下订单就行了。一旦他们下了订单,我们就会尽最大努力把产能提供给他们。我们并不复杂。
主持人:好的。听起来好像有一个队列,然后根据你的数据中心是否准备好以及你何时下达采购订单,你会在特定的时间收到它们。但这听起来仍然不像是出价最高的人就能得到它。这背后有原因吗?
黄仁勋:我们从不那样做。
主持人:好的。为什么不直接给价高者得?
黄仁勋:因为这是一种糟糕的商业行为。你设定价格,然后人们决定是否购买。我知道芯片行业的其他人在需求更高时会改变价格,但我们从不这样做。这从来不是我们的做法。你可以指望我们。我更喜欢做一个可靠的人,成为行业的基石。你不需要猜疑。如果我给你报了价,我们就是给你报了价。就这么简单。如果需求激增,那就这样。
主持人:在另一端,这也是为什么你们与TSMC有着富有成效的关系的原因,对吧?
黄仁勋:是的,Nvidia与他们做生意我想快30年了。Nvidia和TSMC没有法律合同。总是有一些粗略的公平。有时我是对的,有时我是错的。有时我得到了更好的交易,有时我得到了更差的交易。但总体而言,这种关系令人难以置信。我可以完全信任他们。我可以完全依靠他们。对于Nvidia,你可以指望的一件事是今年VeraRubin将令人难以置信。明年VeraRubinUltra将会问世。后年Feynman将会问世。再后一年,我还没有公布名字。每一年你都可以指望我们。你只能去世界上寻找另一个ASIC团队,挑你的ASIC团队,在哪里你可以说我愿意押上全部家当,我可以押上我的整个业务,相信你们每年都会为我提供支持。你们的token成本每年都会下降一个数量级。我可以像信任时钟一样信任你们。
我刚才说了关于TSMC的一些事情。对于历史上的其它任何代工厂你都不可能这么说。你今天可以针对Nvidia说这番话。你每年都可以指望我们。如果你想购买价值10亿美元的AI工厂计算设备,没问题。如果你想购买1亿美元,没问题。你想购买1000万美元或者只是一个机架,不是问题。或者只是一张显卡,好的没问题。如果你想为一家耗资1000亿美元的AI工厂下订单,没问题。我们是当今世界上唯一一家你能对其说出这句话的公司。我也可以这样评价TSMC。我想买一个,买十亿个,都没问题。我们只需要经历计划它的过程,以及成熟的人做的所有事情。所以我认为Nvidia有能力成为世界AI产业的基础,这个地位花了我们几十年的时间才达到。巨大的承诺,巨大的奉献。我们公司的稳定性、一致性非常重要。

应该向中国出售AI芯片吗?
主持人:好的。我想问一下关于中国的问题。我其实不知道我如何看待向中国出售芯片是否是一件好事,但我喜欢在客人面前扮演唱反调的角色。所以当支持出口管制的Dario来上节目时,我问他,为什么美国和中国不能各自在数据中心里拥有一群天才?但既然你持有相反的立场,我将以相反的方式问你。一种思考方式是,Anthropic实际上几天前发布了Mythos Preview。他们甚至没有公开这个Mythos模型,因为他们说它具有非常强的网络攻击能力,我们认为世界还没有准备好,直到我们确保这些零日漏洞被修补。但他们说它在每一个主要操作系统、每一个浏览器中发现了数千个高危漏洞。它在OpenBSD中发现了一个存在了27年的漏洞,而这个操作系统是专门设计为没有零日漏洞的。因此如果中国公司、中国实验室和中国政府能够获得AI芯片来训练像ClaudeMythos这样具有这些网络攻击能力的模型,并通过更多的计算资源运行数百万个实例,问题是这是否对美国公司、对美国国家安全构成威胁?
黄仁勋:首先Mythos是由一家非凡的公司在相当普通的算力规模和算力类型上训练出来的。用于训练它的计算能力和类型在中国是大量存在的。所以你首先必须意识到芯片在中国是存在的。他们制造了世界上60%甚至更多的主流芯片。对他们来说这是一个非常庞大的产业。他们拥有世界上最伟大的计算机科学家。如你所知,所有这些AI实验室中大多数的AI研究员都是中国人。他们拥有世界上50%的AI研究人员。所以问题是考虑到他们已经拥有的所有资产,他们拥有充足的能源,他们有大量的芯片,他们有大多数的AI研究人员,如果你担心他们,创造一个安全世界的最佳方式是什么?将他们视为受害者,把他们变成敌人,很可能不是最好的答案。他们是一个对手。我们希望美国获胜。但我认为进行对话、进行研究对话可能是最安全的做法。由于我们当前将中国视为对手的态度,这是一个明显缺失的领域。我们的AI研究人员和他们的AI研究人员进行真正的对话是必不可少的。我们双方必须就AI不能用于什么方面达成一致,这是必不可少的。
至于发现软件中的错误,当然那是AI应该做的。它会在很多软件中发现错误吗?当然。有大量大量的错误。AI软件中也有很多错误。那是AI应该做的,而且我很高兴AI已经达到了能够帮助我们提高如此多生产力的水平。被低估的一件事是围绕网络安全、AI网络安全以及AI安全和AI隐私的生态系统的丰富性。整个AI初创公司生态系统正在努力为我们创造这个未来,在这个未来你有一个令人难以置信的AIagent,被成千上万个AIagent包围着,以保持它的安全。那个未来肯定会发生。
你将拥有一个无人看管的AIagent到处乱跑的想法有点疯狂。我们非常清楚这个生态系统需要蓬勃发展。事实证明这个生态系统需要开源。这个生态系统需要开放模型。他们需要开放的堆栈,以便所有这些AI研究人员和所有这些伟大的计算机科学家能够构建强大的AI系统并保证AI的安全。所以我们需要确保做的一件事就是保持开源生态系统的活力。这是不能被忽视的。其中很多都来自中国。我们不应该扼杀它。至于中国,我们当然希望美国拥有尽可能多的计算能力。我们受到能源的限制,但我们有很多人在致力于解决这个问题。我们不能让能源成为我们国家的瓶颈。但我们同时想要确保的是,世界上所有的AI开发者都在美国的技术堆栈上进行开发,并将AI的贡献和进步特别是开源部分提供给美国的生态系统。创造两个生态系统将是极其愚蠢的:一个只在外国技术堆栈上运行的开源生态系统,以及一个在美国技术堆栈上运行的封闭生态系统。我认为这对美国来说将是一个可怕的结果。
主持人:既然有很多事情要谈,让我梳理一下回答。我认为关于黑客攻击中flops差异的担忧是,是的他们有计算能力,但一些估计表明,由于他们在7nm阶段没有EUV光刻机,因为芯片制造出口管制,他们实际能够产生的flops数量只有美国的十分之一。基于这一点,他们最终能训练出像Mythos这样的模型吗?是的。但问题在于,因为我们有更多的flops,美国实验室能够率先达到这种能力水平。因为Anthropic先做到了,他们说我们要暂时保留一个月,同时我们让所有美国公司访问它。他们将修补所有的漏洞,然后我们再发布它。此外即使他们训练了这样的模型,大规模部署它的能力。如果你有一个网络黑客,他们有一百万个肯定比有一千个要危险得多。所以推理计算真的非常重要。事实上他们有这么多如此优秀的AI研究人员,这正是让事情变得如此可怕的原因,因为是什么让这些工程师、研究人员更具生产力呢?是计算。如果你和美国的任何AI实验室交谈,他们都会说限制他们的是计算能力。DeepSeek创始人或者Qwen领导层都有这方面的引述。他们说他们受到算力的限制。那么问题来了,因为美国公司拥有更多算力能够率先达到Mythos级别的能力并在中国达到之前为我们的社会做好准备,难道这不是更好吗?因为中国的算力较少?
黄仁勋:我们总是应该保持领先并且拥有更多。但为了让你描述的结果成真,你必须把它推向极端。他们必须没有任何计算资源。如果他们有一些计算资源,问题是需要多少?中国拥有的算力是巨大的。你谈论的是世界上第二大计算市场的国家。如果他们想聚合他们的算力,他们有大量的算力可以聚合。
主持人:但那是真的吗?人们做过这些估计并说SMIC实际上在工艺节点上落后了。
黄仁勋:我正要告诉你。
主持人:好的。
黄仁勋:他们拥有的能源数量令人难以置信。是这样吧?AI是一个并行计算问题,对吧?因为能源是免费的,为什么他们不能将4倍、10倍的芯片放在一起呢?他们有如此多的能源。他们的数据中心空空如也且电力充足。你知道他们有鬼城,他们也有鬼数据中心。他们有如此多的基础设施容量。如果他们愿意,他们只需组合更多的芯片,即使它们是7nm的。他们制造芯片的能力在世界上名列前茅。半导体行业知道他们垄断了主流芯片。他们产能过剩。因此认为中国将无法拥有AI芯片的想法完全是无稽之谈。当然如果你问我如果整个世界都没有计算能力美国会进一步领先吗?但那并不是一个结果。那不是一个真实的情况。
他们已经有大量的计算能力。对于你担心的门槛要求,他们已经达到并超越了这个门槛。所以我认为你误解了AI是一个五层蛋糕,最底层是能源。当你拥有充足的能源时,它弥补了芯片的不足。如果你有大量的芯片,它弥补了能源的不足。例如美国缺乏能源,这就是为什么Nvidia必须不断推进我们的架构并进行这种极端的协同设计,这样我们用运送的少数芯片由于能源如此有限,我们的每瓦吞吐量是惊人的。但如果你的电量完全充足且是免费的,你还在乎每瓦性能干什么?你有很多。你可以用旧芯片来做。所以7nm芯片本质上是Hopper。Hopper的能力……我必须告诉你,今天的模型很大程度上是在Hopper一代上训练出来的。所以7nm芯片足够好了。丰富的能源是他们的优势。
主持人:但接下来就有一个问题,他们是否能实际制造出足够的芯片。
黄仁勋:但他们做到了。证据是什么?华为刚刚创下了他们公司历史上最成功的一年。
主持人:他们出货了多少芯片?
黄仁勋:很多。数百万。数百万远远超过了Anthropic的数量。
主持人:关于SMIC能生产多少逻辑芯片是个问题,关于多少存储器也是个问题。
黄仁勋:我告诉你事实就是如此。他们有充足的逻辑芯片,也有充足的HBM2存储器。
主持人:对。但正如你所知,训练和运行这些模型的瓶颈通常是带宽的大小。所以如果你有HBM2……我手头没有具体数字,但与你们最新产品相比,存储器带宽可能存在将近一个数量级的差异,这是巨大的。
黄仁勋:华为是一家网络公司。
主持人:但这并没有改变你需要EUV才能生产最先进的HBM的事实。
黄仁勋:并非如此。完全不是这样的。你可以把它们组合在一起,就像我们用NVL72组合它们一样。他们已经展示了硅光子技术,将所有这些计算连接在一起,变成一台巨大的超级计算机。你的前提完全错误。事实上他们的AI开发进行得很顺利。因为最好的AI研究员受到计算资源的限制,他们也会想出极其聪明的算法。记住我刚说过摩尔定律每年以大约25%的速度推进。然而通过伟大的计算机科学,我们仍然可以将算法性能提高10倍。我的意思是伟大的计算机科学才是发挥杠杆作用的地方。毫无疑问MoE是一项伟大的发明。毫无疑问所有令人难以置信的注意力机制都减少了计算量。我们必须承认,AI的大部分进步都来自算法突破,而绝非仅仅来自原始硬件。现在如果大部分进展来自算法、计算机科学和编程,请告诉我他们庞大的AI研究团队不就是他们根本的优势吗。我们看到了这一点。DeepSeek绝非一个无关紧要的进步。如果DeepSeek率先在华为上发布,那对我们国家来说将是一个可怕的结果。
主持人:为什么会这样?因为目前你可以拥有像DeepSeek这样的模型,如果它是开源的,它可以在任何加速器上运行。为什么未来这种状况会改变呢?
黄仁勋:假设它不改变。假设它针对华为进行了优化,假设它针对他们的架构进行了优化。这会使我们处于劣势。你描述了一种我认为是好消息的情况。一家公司开发了软件,开发了AI模型,而它在美国的技术堆栈上运行得最好。我认为这是好消息。你把它作为一个前提,认为那是坏消息。我将给你带来坏消息,那就是世界各地开发的AI模型,如果在非美国硬件上运行得最好,那对我们来说才是坏消息。
主持人:我想我只是没有看到有巨大的差异阻止你切换加速器的证据。美国实验室正在跨越所有云端、跨越所有不同加速器运行他们的模型。
黄仁勋:我就是证据。你拿一个针对Nvidia优化的模型尝试在其他设备上运行。
主持人:但是美国实验室就是这么做的。
黄仁勋:而且它们运行得并没有更好。Nvidia的成功就是完美的证据。事实是AI模型建立在我们的堆栈上,并在我们的堆栈上运行得最好,这有什么不符合逻辑的呢?
主持人:Anthropic的模型在GPU上运行,在Trainium上运行,在TPU上运行。
黄仁勋:要做出改变必须投入大量工作。但你去全球南方国家看看,去中东看看。直接开箱即用,如果所有的AI模型都在别人的技术堆栈上运行得最好,你现在一定是在进行某种荒谬的争论,认为这对美国是一件好事。
主持人:但我大概不明白这个论点。假设中国公司率先达到了下一个Mythos级别。他们首先发现了美国软件中的所有安全漏洞,但他们可以在Nvidia硬件上做到这一点,并将其运往全球南方。他们在Nvidia硬件上这么做。这怎么能说是好事?好吧,它运行在Nvidia硬件上。
黄仁勋:这不是好事。这不是好事。
主持人:对。
黄仁勋:这不是好事。所以不要让它发生。
主持人:为什么你认为它是完全可替代的,如果你不向他们运送计算设备,它就会立刻被华为取代?他们处于落后状态,对吧?他们的芯片比你们的差。
黄仁勋:这是完全……现在就有证据。他们的芯片产业非常庞大。
主持人:你可以直接看看H200和华为910C在flops或带宽或存储器方面的比较。性能大概只有一半到三分之一。
黄仁勋:他们使用了更多。他们使用了两倍的数量。
主持人:听起来你的论点是他们有所有准备就绪的能源,对吧?并且他们需要用芯片填满它。
黄仁勋:而且他们擅长制造。
主持人:我相信他们最终将能够在制造能力上超越所有人。但这关键的几年呢。
黄仁勋:你说的关键之年是什么?
主持人:接下来的这几年。我们有了这些能够进行所有网络攻击的模型。
黄仁勋:在那钟情况下,如果接下来的几年至关重要,那么我们必须确保在这关键的几年里,世界上所有的AI模型都是建立在美国的技术堆栈上的。
主持人:如果它们建立在美国的技术堆栈上,如果它们有更先进的能力,这怎么能防止它们发动相当于Mythos级别的网络攻击呢?
黄仁勋:任何一种情况都没有保证。
主持人:但如果我们能早点拥有,我们就能防患于未然。
黄仁勋:听着,你为什么要让AI产业的一层失去整个市场,以便你能使AI产业的另一层受益?有五个层面而且每一层都必须成功。最需要成功的一层实际上是AI应用层。你为什么那么执迷于那个AI模型?那一家公司?出于什么原因?
主持人:因为那些模型使得这些令人难以置信的攻击能力成为可能,而且你需要计算来运行它们。
黄仁勋:能源、芯片和AI研究员生态系统使这成为可能。
主持人:好吧,退一步说,中国必须能够建立足够的7nm产能。并且记住,他们仍停留在7nm,而你们将继续推进到3nm,然后是2nm或者随着Feynman推进到1.6nm。因此当你们在1.6nm时,他们仍然将在7nm,他们必须生产足够的产品来弥补短缺。他们有如此多的能源以至于你给他们的芯片越多他们拥有的算力就越多。所以这最终归结为一个问题,他们确实获得了更多的算力。算力是训练和推理的一种输入要素。
黄仁勋:听着,我认为你的讲话太绝对了。我认为美国应该处于领先地位。美国的算力是世界上任何其他地方的100倍。美国应该保持领先。好的。美国处于领先地位。Nvidia构建最先进的技术。我们确保美国实验室最先听到并有优先购买权。如果他们没有足够的钱,我们甚至会投资他们。美国应该领先。我们想尽一切努力确保美国保持领先。这是第一点,你同意吗?我们正在尽我们所能做到这一点。
主持人:但是如果他们受到算力的限制,向中国运送芯片如何能保持美国领先呢?
黄仁勋:不,不是的。我们有VeraRubin为美国服务。我们为美国准备了VeraRubin。那么,我在美国吗?你认为我是美国的一部分吗?
主持人:是的。
黄仁勋:Nvidia。你认为Nvidia是一家美国公司吗?好的。第一,为什么我们不能提出一个更平衡的法规,让Nvidia能在世界各地获胜而不是放弃世界市场?你为什么希望美国放弃世界市场?芯片行业是美国生态系统的一部分。它是美国技术领导地位的一部分。它是AI生态系统的一部分。它是AI领导地位的一部分。为什么你的政策、你的哲学导致美国放弃了巨大一部分的世界市场?
主持人:我想这里的说法是……Dario有一段引述,他说这就好比Boeing吹嘘我们正在向朝鲜出售核武器,但导弹外壳是由Boeing制造的。而这在某种程度上强化了美国的技术堆栈。从根本上说,你是在为他们提供这种能力。
黄仁勋:将AI与你刚才提到的任何东西进行比较都是疯狂的。
主持人:但AI类似于浓缩铀,对吧?它既有积极用途,也有消极用途。我们仍然不想将浓缩铀送到其它国家。
黄仁勋:谁在送浓缩的……
主持人:这个比喻是浓缩铀就像算力。
黄仁勋:这是一个糟糕的比喻。这是一个完全不符合逻辑的比喻。
主持人:但如果那种计算能运行一个可以对所有美国软件进行零日漏洞攻击的模型,这怎么不是一种武器?
黄仁勋:首先解决这个问题的方法是与研究人员对话并与中国对话,与所有国家对话,以确保人们不会以这种方式使用技术。这必须成为一场对话。明白吗?这是第一。第二,我们还需要确保美国处于领先地位,VeraRubin、Blackwell在美国大量可用,堆积如山。显然我们的业绩会证明这一点。非常丰富,数量巨大。我们拥有的计算能力非常庞大。我们这里有令人惊叹的AI研究员。这太棒了。我们应该保持领先。然而我们还必须认识到AI绝非仅仅是一个模型。AI是一个五层蛋糕。AI产业在每一层都很重要,我们希望美国在每一层都获胜,包括芯片层。让出整个市场不会让美国在芯片层、在计算堆栈的长期技术竞赛中获胜。这是一个事实。
主持人:我想这最终归结为一个问题,现在向他们出售芯片如何在长远来看帮助我们获胜?Tesla长期向中国出售极好的电动汽车。iPhone在中国销售,极好。这并没有导致他们被锁定。中国仍然会制造他们自己版本的电动汽车,而且他们正在占据主导地位。他们的智能手机正在占据主导地位。
黄仁勋:当我们在今天开始谈话时,你承认Nvidia的地位非常不同。你使用了像护城河这样的词。对我们公司来说最重要的一点是我们丰富的生态系统,这是关于开发者的。50%的AI开发者在中国。美国不应该放弃这一点。
主持人:但我们在美国有很多Nvidia开发者,这并不妨碍美国实验室在未来使用其它加速器。事实上现在他们也在使用其它加速器,这很好也很棒。我不明白为什么如果你向他们出售Nvidia芯片,这在中国就不能同样适用,就像Google可以使用TPU和Nvidia一样。
黄仁勋:我们必须保持创新,正如你可能知道的,我们的份额正在增长而不是减少。如果你认为即使我们在中国竞争我们无论如何都会失去那个市场……你不是在和一个天生就是失败者的人说话。那种失败者的态度、那种失败者的前提对我来说毫无道理。我们绝非汽车。计算技术并非如此。x86协议存在是有原因的。ARM具有如此高粘性是有原因的。这些生态系统很难被替换。这需要花费大量的时间和精力,而大多数人都不想这么做。因此我们的工作是继续培育那个生态系统,继续推进技术以便我们能在市场中竞争。基于你描述的前提放弃一个市场,我根本无法认同。这毫无道理。因为我不认为美国是一个失败者。我们的行业不是失败者。那种必败的提议、那种必败的心态,在我看来完全不合理。
主持人:好的。我将继续下一个话题。我只是想确保……
黄仁勋:你不用继续。我很享受这个过程。
主持人:好的,太好了。那我就不跳过了。我很感激你能这么做。但我认为也许关键在于……感谢你陪我兜圈子,因为我认为这有助于找出关键所在。
黄仁勋:关键在于你走极端了。你的论点从极端出发。如果我们在这个狭窄的时刻给他们提供任何一点计算资源,我们就会失去一切。
主持人:不,我认为我的论点是……
黄仁勋:那些极端情况太幼稚了。
主持人:让我为自己辩护一下。这个想法并不意味着存在某种计算的绝对门槛。而是任何边际计算都是有帮助的。因此如果你有更多计算能力,你就能训练出更好的模型。
黄仁勋:我只是想让你承认,美国技术产业的任何边际销售都是有益的。
主持人:我实际上不认为……如果运行在那些芯片上的AI模型具有网络攻击能力,或者这些芯片正在训练具有网络能力的模型并运行更多这些模型的实例,它不是核武器,但它促成了一种武器的产生。
黄仁勋:按照你使用的逻辑,你同样可以把它用在微处理器和DRAM上。你同样可以把它用在电力上。
主持人:但事实上我们确实对与制造最先进DRAM相关的技术实施了出口管制。我们对中国的各种芯片制造设备实施了各种出口管制。
黄仁勋:我们向中国出售了大量的DRAM和CPU,我认为这是对的。
主持人:我想这又回到了那个根本问题,AI有何不同?如果你拥有这种能够发现软件中零日漏洞的技术,我们是否希望尽可能减少中国率先掌握该技术并将其广泛部署的能力?
黄仁勋:我们希望美国保持领先。这是我们可以控制的。
主持人:如果芯片已经在那里并且他们正用它来训练那个模型,我们如何控制这一点?
黄仁勋:我们有大量的计算资源。我们有大量的AI研究人员。我们正在全速竞赛。
主持人:再说一次,我们拥有比任何人都多的核武器,但我们不想将浓缩铀送到任何地方。
黄仁勋:我们不是浓缩铀。这只是一块芯片,而且是他们自己能制造的芯片。
主持人:但他们从你们这里购买是有原因的。我们有中国公司创始人的引述,他们说受到算力限制。
黄仁勋:因为我们的芯片更好。总的来说我们的芯片更好。这是毋庸置疑的。如果没有我们的芯片……你能承认华为业绩创下了历史新高吗?你能承认有一大批芯片公司已经上市了吗?你能承认这一点吗?
主持人:是的。
黄仁勋:你还能承认我们曾经在那个市场占有很大的份额,而我们现在不再在这个市场占有很大份额了吗?我们还可以承认中国大约占据了全球技术产业的40%。让美国技术产业放弃那个市场对我们的国家是一种伤害。这对我们的国家安全是一种伤害。这对我们的技术领导地位是一种伤害,而这一切仅仅为了让一家公司受益。这对我来说完全没有道理。
主持人:我想我很困惑。感觉你好像在说两句不同的话。一句是我们将在与华为的竞争中获胜,因为如果允许我们竞争,我们的芯片会好得多。另一句是无论如何没有我们他们也能做完全相同的事情。这两件事怎么可能同时成立呢?
黄仁勋:这显然是真的。如果没有更好的选择,你将接受你拥有的唯一选择。这有什么不合逻辑的?这太符合逻辑了。
主持人:他们想要Nvidia芯片的原因在于它们更好。
黄仁勋:是的。
主持人:更好的意思就是更多的算力。更多的算力意味着你能训练出更好的模型。
黄仁勋:不,它仅仅就是更好。它更好是因为它更容易编程。我们有更好的生态系统。但无论这个更好是什么,无论更好是什么……当然我们会向他们输送算力。那又怎样?事实是我们能够从中受益。别忘了,我们获得了美国技术领先地位带来的好处。我们获得了开发者在美国技术堆栈上工作的好处。我们获得了当这些AI模型扩散到世界其他地方时美国技术堆栈成为最佳选择的好处。我们可以继续推进并普及美国技术。我相信这是一种积极的影响。这是美国技术领导地位非常重要的一部分。现在你所倡导的政策导致美国电信业基本上被政策挤出了世界舞台,以至于我们甚至无法控制自己的电信产业了。我不认为那是明智的。这有点目光短浅,而且导致了意想不到的后果,我正在向你描述,而你似乎很难理解。
主持人:好的,让我们退一步。似乎这里的关键是存在潜在的收益和潜在的成本。我们试图弄清楚的是收益是否大于成本?我想我是试图让你承认潜在的成本。计算是训练强大模型的一种输入。强大的模型确实具有强大的攻击能力如网络攻击。美国公司率先获得了Mythos级别的能力是一件好事,现在他们暂不公开这些能力,以便美国公司和美国政府在宣布这种级别的能力之前能更好地保护他们的软件。如果中国拥有更多计算能力或众包算力,如果他们能够更早制造出Mythos级别的模型并广泛部署,那将是非常糟糕的。这没有发生的原因之一是我们有更多的算力,这要归功于美国像Nvidia这样的公司。这就是把它送到中国的代价。所以让我们暂时把利益放在一边。你承认这是一个潜在的成本吗?
黄仁勋:我也会告诉你潜在的成本是我们让AI堆栈中最重要的一层也就是芯片层,出让了整个市场也就是世界第二大市场,以便他们可以发展规模,以便他们可以开发自己的生态系统,以便未来的AI模型能以与美国技术堆栈非常不同的方式进行优化。随着AI扩散到世界其它地方,他们的标准、他们的技术堆栈将变得比我们的更优越,因为他们的模型是开放的。
主持人:我想我只是对Nvidia的内核工程师和CUDA工程师有足够的信心,认为他们可以优化……
黄仁勋:如你所知,AI不仅仅是内核优化。
主持人:当然,但是你可以做很多事情,比如蒸馏成一个非常适合你们芯片的模型。
黄仁勋:我们将尽力而为。
主持人:你们拥有所有的软件。只是很难想象中国生态系统会产生长期的锁定,即使他们有一段时间拥有稍微好一点的开源模型。
黄仁勋:中国是世界上最大的开源软件贡献者。事实。中国是世界上最大的开放模型贡献者。事实。今天它是建立在Nvidia的美国技术堆栈之上的。事实。AI的全部五层技术堆栈都很重要。美国应该去赢下所有这五层。它们都很重要。当然最重要的一层是AI应用层。融入社会的那一层、使用最多的一层将从这场工业革命中获益最多。但我的观点是每一层都必须成功。如果我们恐吓这个国家,让人认为AI在某种程度上是一颗核弹,从而让每个人都憎恨AI并害怕AI,我不知道你如何能帮助美国。你正在给它带来伤害。如果我们恐吓每个人不去做软件工程工作,因为它会扼杀所有的软件工程工作,结果是我们没有软件工程师,我们就在给美国带来伤害。如果我们把所有人都吓得不敢从事放射学,导致没人想当放射科医生,因为计算机视觉完全免费且没有任何AI做得比放射科医生更差,那就是我们误解了工作和任务的区别。放射科医生的工作是护理患者。任务是阅读扫描结果。如果我们如此深刻地误解这一点并吓走所有人不去放射学院,我们将不会有足够的放射科医生和足够好的医疗保健。因此我的观点是,当你提出如此极端的前提时,一切都变成要么是零要么是无穷大,最终我们会以完全不真实的方式吓到人们。生活并非如此。我们希望美国成为第一吗?当然希望。我们需要在那一层的每一层都成为领导者吗?当然需要。当然需要。
今天你谈论Mythos是因为Mythos很重要。当然。这太棒了。但在几年后,我向你预测,当我们希望美国的技术堆栈、美国的技术向全世界推广,向印度、向中东、向非洲、向东南亚推广时,当我们国家想要出口,因为我们想要出口我们的技术、出口我们的标准时,在那一天,我希望你和我再次进行同样的对话。我会准确地告诉你今天的对话,关于你的政策和你所想象的东西如何毫不讲理地导致美国放弃了世界第二大市场。我们不应该让步。如果我们输了,那也毫无办法。但我们为什么要主动让步呢?现在没有人主张全盘接受或者全盘否定,意味着我们随时把所有东西都运到中国。没有人主张这样做。我们应该永远在这里拥有最好且最多的技术,并且是最早的。但我们也应该努力在世界各地竞争并获胜。这两件事可以同时发生。这需要一定程度的细致思考,需要一定程度的成熟,而不是绝对。世界绝非非黑即白。
主持人:好的。争论的关键在于此。他们开发了针对他们几年内能制造出的最好芯片进行优化的模型。这些芯片被出口到世界各地。这就确立了标准。正如我们所说的,由于EUV出口管制,你们将迈向1.6nm。几年后他们仍将停留在7nm。在国内他们更倾向于说我们有很多能源,我们可以大规模制造,我们将继续使用7nm。这可能说得通。但在出口方面,他们的7nm芯片必须与你们的1.6nm芯片竞争。他们的模型必须针对7nm优化到如此程度,以至于在7nm上运行他们的模型比在你们的1.6nm上运行模型更好。
黄仁勋:我们能看看事实吗?Blackwell的光刻技术比Hopper先进50倍吗?是50倍吗?差得远呢。我刚才反复强调摩尔定律已死。在Hopper和Blackwell之间,从晶体管本身来看,大概只有75%的提升。间隔了三年,提升了75%。但Blackwell的性能是Hopper的50倍。我的意思是架构很重要。计算机科学很重要。半导体物理学固然重要,但计算机科学也同样重要。AI的影响在很大程度上来自于计算堆栈,这也是CUDA如此有效、如此受人喜爱的原因。它是一个生态系统、一种计算架构,它允许如此多的灵活性,以至于如果你想彻底改变一种架构,创造像MoE、扩散或者分离式的东西,你可以这样做。这很容易做到。所以事实是,AI既关乎上层堆栈,也关乎底层架构。就针对我们的堆栈、我们的生态系统优化的架构和软件堆栈而言,它显然是好的,因为我们今天在谈话开始时就谈到了Nvidia的生态系统是多么丰富。为什么人们总是喜欢首先对CUDA进行编程?他们确实如此。他们就是这样。中国的研究人员也是如此。但如果我们被迫离开中国,如果我们被迫离开中国,首先这是一个政策失误。显然它有反作用。
这对美国来说结果很糟糕。它促成了并加速了他们的芯片产业。它迫使他们所有的AI生态系统专注于他们的内部架构。现在还不算太晚,但尽管如此这已经发生了。你将在未来看到,他们显然没有停滞在7nm。他们擅长制造。他们将继续从7nm甚至更先进的工艺发展。那么5nm和7nm之间有10倍的差异吗?答案是否定的。架构很重要。网络很重要。这就是Nvidia收购Mellanox的原因。网络很重要。能源很重要。所以所有这些东西都很重要。这绝非像你试图简化的那样简单。

为什么Nvidia 不制造多种不同的芯片架构?
主持人:我们可以换个话题不谈中国了,但这实际上引发了一个
代产品,架构不仅仅是晶体管规模。你在工程、封装和堆叠以及数值学和系统架构方面做了非常多的工作。当你产能耗尽时,轻易回到另一个节点……那是没有人能负担得起的研发水平。我们可以负担得起向前倾斜。我认为我们负担不起后退。现在如果世界只是说……如果在那个时候,让我们做一个思想实验,在那个时候我们说听着,我们再也不会有更多的产能了。我会回去使用7nm吗?当然会,毫不犹豫。
主持人:和我交谈的一个人有一个疑问,为什么Nvidia不同时运行具有完全不同架构的多个不同的芯片项目呢?你可以做一些像Cerebras风格的晶圆级设计。你可以做Dojo风格的巨大封装。你可以做一个没有CUDA的产品。你们有资源和工程人才并行完成所有这些工作。既然没人知道AI和架构可能会走向何方,为什么要把所有的鸡蛋放在一个篮子里呢?
黄仁勋:哦我们完全可以。只是我们没有更好的主意。我们可以做所有这些事情。只是它们并没有更好。我们在我们的模拟器中模拟了这一切,并且被证明更差。所以我们不会这么做。我们只在做我们确切想做的项目。如果工作负载发生巨大变化,我并非指算法,我实际上是指工作负载,而这取决于市场的形态,我们可能决定添加其它加速器。例如最近我们加入了Groq,我们将把Groq纳入我们的CUDA生态系统。我们现在这样做是因为token的价值已经上升得如此之高,以至于你可以对token进行不同的定价。在过去就在几年前,token要么是免费的,要么并不昂贵。但现在你可以有不同的客户,这些客户想要不同的答案。因为客户赚了这么多钱,例如我们的软件工程师,如果我能给他们响应快得多的token以至于他们比今天更有生产力,我会愿意为此付钱的。但那个市场只是最近才出现。所以我认为我们现在有能力让同一个模型根据响应时间划分为不同的细分市场。这就是为什么我们决定扩展帕累托前沿并创建一个虽然吞吐量较低但响应时间更快的推理细分市场的原因。在此之前,更高的吞吐量总是更好。我们认为可能会有一个世界,那里可能有非常高ASP的token,尽管工厂的吞吐量较低,但ASP弥补了这一点。这就是我们这样做的原因。但在其他方面,从架构的角度来看,如果我有更多的钱,我会投入更多来支持Nvidia的架构。
主持人:我认为这种极高级的token和推理市场分解的想法是非常有趣的。
黄仁勋:它的细分化。
主持人:是的。好的,最后一个问题。假设深度学习革命没有发生。Nvidia会做什么?显然是游戏,但是考虑到……
黄仁勋:加速计算,和我们一直在做的事情完全一样。我们公司的前提是摩尔定律将会……通用计算对于很多事情都很好,但对于很多计算来说它并不理想。所以我们将名为GPU的架构以及CUDA与CPU结合起来,以便我们可以加速CPU的工作负载。代码或算法的不同内核可以卸载到我们的GPU上。结果你将应用程序的速度提高了100倍甚至200倍。你可以在哪里使用它?显然是工程、科学和物理学、数据处理、计算机图形学、图像生成等等各种各样的事情。即使今天AI不存在,Nvidia也会非常非常庞大。其原因相当基础,那就是通用计算继续扩展的能力已基本走到了尽头。而做到这一点的唯一方法……并非唯一方法,而是途径在于通过特定领域的加速。我们开始的领域之一是计算机图形学,但还有许多其它领域。有很多种。粒子物理学和流体、结构化数据处理等所有能够从CUDA中受益的不同类型算法。我们的使命实际上是为世界带来加速计算,并推进通用计算无法处理的应用类型,并扩展到有助于突破某些科学领域的能力水平。一些早期的应用包括分子动力学、能源勘探的地震处理、图像处理当然还有所有那些通用计算实在效率太低而无法处理的领域。如果没有AI我会非常难过。但由于我们在计算方面取得的进步,我们使深度学习平民化了。我们使任何研究人员、任何地方的任何科学家、任何学生都有可能访问PC或GeForce插件卡并进行惊人的科学研究。那个基本承诺甚至没有发生一点点改变。如果你看GTC,整个开头部分就是这样。没有一个是AI。关于计算光刻或我们的量子化学工作、数据处理工作的整个部分,所有这些东西都与AI无关。而且它仍然非常重要。我知道AI非常有趣也相当令人兴奋,但有很多人在做很多非常重要的工作,这些工作与AI无关,并且张量绝非计算它的唯一方法。我们想帮助每一个人。
主持人:黄仁勋,非常感谢你。
黄仁勋:不客气。我聊得很开心。
主持人:我也是。


