E230|1万亿收入预期背后:英伟达的巅峰与软肋 - 主题精读稿
E230|1万亿收入预期背后:英伟达的巅峰与软肋 - 主题精读稿
前言:万亿野心背后的结构性矛盾
英伟达在 2025 年 GTC 大会上抛出了一个惊人数字:到 2027 年底,仅 Blackwell 和 Vera Rubin 两个平台的累计订单将达到一万亿美元——这个数字超过了 2024 年全球半导体产业的全年销售额。这期播客围绕这一核心数字展开,从芯片设计、供应链瓶颈、推理芯片革命、软件生态布局到数据中心建设的物理极限,拆解了英伟达万亿帝国的可行性与脆弱性。最值得关注的张力在于:需求端的指数级增长与供给端每一个环节的物理瓶颈之间的深刻矛盾,以及英伟达从 GPU 公司向 AI 基础设施公司转型过程中,护城河的形态正在发生根本性变化。
一、万亿订单与推理经济学 (00:01 - 05:04)
英伟达 GTC 大会的几个关键数字勾勒出了一幅野心勃勃的图景:一万亿美元的累计订单目标、Vera Rubin 平台一次性发布七款新芯片且全部进入量产、NVL72 相比 Blackwell 推理效率提升十倍、token per watt 性能提升三十五倍。去年这个数字的上限还是五千亿,一年之内翻了一倍。
这个数字背后的逻辑不仅仅是销售预测。英伟达正在重新定义自己——不再是一家 GPU 公司,而是一座巨大的人工智能工厂,产出的是未来工作的新型生产力:Token。 从这个角度理解,增长空间确实巨大,因为驱动力已经从训练转向了推理。
训练和推理的成本结构正在发生根本性逆转。2023 年大约百分之七八十的成本在训练端,现在已经接近五五开,预计到明年或后年,百分之七八十的成本将集中在推理层。原因在于,训练更像一次性的成本投入,而推理是长期的现金流——agent 智能体需要持续在线、不停调用,长上下文窗口进一步放大了 token 消耗,低延迟和实时响应的需求让推理端的资源消耗远超预期。
二、供应链瓶颈:钱买不来的时间 (05:04 - 09:30)
需求端的旺盛已经毫无疑问,但瓶颈已经转移到了供应链层面。作为前芯片架构师、阿里韩光 800 加速器的设计者,Zhibin 给出了一个直观的对比:2024 年整个半导体产业销售额六千亿美元,AMD CEO Lisa Su 预测整个数据中心 AI 加速芯片到 2030 年才到一万亿——而黄仁勋一家公司的两个平台,加上 Ethernet Switch 和软件,2027 年就要达到这个数字。
三纳米晶圆产能大概能跟上,但先进封装 CoWoS 的产能是真正的未知数。 2024 年至今台积电 CoWoS 产能已经涨了三倍,仍在疯狂扩产。HBM 方面,美光和三星宣布 HBM4 已量产,同时在推进 HBM4E 的定制化方案。半导体产业已经从买方市场变成了卖方市场。
这里有一个非技术背景的人容易忽略的关键事实:半导体行业的产能扩张周期无法用资金加速。从供应链端的预投资到生产线投产再到过程控制优化,每一步都需要确定的时间。哪怕今天确认了额外的产能需求,也要等一到两年后才能实现,届时可能还有更多附加要求。这不是软件行业——需求有多大就能产出多大的销售额,硬件层面的生产周期是刚性的。
英伟达之所以能把芯片设计速度拉到如此之快——从两年一款到一年多款——除了扩大研发团队,AI 的帮助至关重要。英伟达内部百分之百的工程师都在使用 Coding Agent,效率提升显著。但关键不在于芯片数量,而在于芯片内部的优化做得如何,这恰恰是最需要 AI 帮助的地方。
三、Grok 推理芯片:纯 SRAM 架构的激进赌注 (10:10 - 14:49)
英伟达在 GTC 上推出了 LPU(Language Processing Unit),并建议所有数据中心预留 25% 的空间给 Grok 的推理芯片。去年底收购、今年三月就在 GTC 上发产品,整合速度惊人。
Grok 芯片的核心是一个纯 SRAM 架构。SRAM 是静态存储,与芯片设计使用同样的逻辑工艺,访问延迟仅一到两纳秒,不需要动态刷新;DRAM 虽然成本低、容量大,但延迟也大且需要 dynamic refresh。大部分 AI 芯片都采用 DRAM,因为成本低、模型放得更大。Grok 剑走偏锋,完全去掉了 DRAM,只通过片上 SRAM 存储模型参数和中间产生的 KV Cache 结果,再通过极致互联扩展到更大的集群。
这种架构带来的核心优势是极低的推理延迟。对于 Agentic 应用——需要 agent 经常在线、持续查询的场景——Token Per Second Per User 可以做得非常好,相比 GPU 效率提升超过三十倍。
从技术原理上理解:语言模型分为 Encoder 和 Decoder 两部分。Encoder 适合高吞吐量的批量处理,天然适合 GPU;Decoder 则是一个 token 一个 token 生成,每个 token 的计算量不大,但需要反复从内存中加载大模型的全部权重——大部分时间都花在了通信而非计算上。Grok 把权重直接放到芯片内部,从根本上消除了这个瓶颈。
通信问题的重要性远超大多数人的认知。 斯坦福前校长 John Hennessy 有一个论断:未来通信的耗电量将是计算的十倍以上。compute 的能耗在持续降低,但 communication 的能耗并没有同步下降,其占比只会越来越高。这也是 LPU 的另一个潜在优势所在。
四、推理芯片创业与异构数据中心 (14:49 - 20:58)
在英伟达收购 Grok 并进入推理市场后,创业公司做推理芯片的空间确实变小了。英伟达拥有全栈式系统能力,从 Inception Program 培育的初创生态已经从几百家增长到两万多家。创业者的策略不是正面竞争,而是找到英伟达优先级之外的短板,帮它补全。 比如 Interconnect 和 Switch——大规模 AI 部署的真正瓶颈往往在这里。
Zhibin 用自己连续创业的亲身经历印证了这一点:从 2017 年在阿里做纯 SRAM 推理芯片、MLPerf 世界第一,到后来应用迭代、大家回归 GPU 软件生态;再到做模型压缩的专用芯片架构,又因为大模型时代 Post Training 成本过高而遇到瓶颈。每一次,创业公司都难以跟上应用层的快速迭代。
我已经看到了,未来的数据中心绝对是异构的——GPU、Switch、光 Switch、LPU 的架构。甚至现在英伟达的 GPU 跟 LPU 还是两个机柜。
他现在的新公司转向做系统级优化——一个中立的仿真和优化平台,可以仿真 Google 的 TPU、AMD 的 GPU 或英伟达的架构,在 kernel level 之上做整合优化。英伟达在 GTC 上没有公布 Grok 的 benchmark,说明内部软件还在持续优化,后续还有大量芯片层和软件层的整合工作。
Mark Ren 提供了一个有价值的思考框架:回顾过去几次 computing 革命,每次转型中都有创业者在开发栈的中间层找到了切入点。在 AI factory 这种新计算形态中,同样性质的问题会再次出现——找到这些问题并解决它们,就是创业机会。
五、OpenCloud 与 NemoCloud:软件生态的卡位战 (20:58 - 25:38)
OpenCloud 带来了 token 使用量的巨大提升——黄仁勋所说的千倍增长。但对普通用户来说,如何在省钱的同时保证性能是现实问题。Zhibin 的公司正在开发一个叫 Token Simulator / Auto Optimize 的工具,即将开源,用户接入后可以自动根据使用画像做后台优化。
对于垂直领域的 Agent 创业者来说,OpenCloud 是利好:当更多通用工具适配了 OpenCloud,过去对 Agent 不友好的工具变得友好了,做垂直应用时至少通用层不用自己造了。
英伟达推出 NemoCloud 的真正意图,可能不是抓应用层的收入,而是确立自己在 Agent 部署层面的规则制定地位——成为所有企业做 Agent 部署时必须经过的安全层级。这与企业级需求直接相关:大型企业追求的首先是安全部署,其次是准确性和精准度。OpenCloud 的优化目标是"把事情做完",但企业级应用要求的是"把事情做好"。
六、Agent as a Service:SaaS 商业模式的颠覆 (25:38 - 29:19)
Jensen 在演讲中提出了 Agent as a Service 的概念,对标传统的 SaaS。这不是技术层面的变化,而是商业理念层面的。传统 SaaS 提供标准化软件服务——不管什么公司用的都是一样的软件。Agent 可以做到高度定制化和个性化,比如用很短的时间自己写一个完全适配自身业务场景的 CRM 系统。
未来做软件或 Agent 的公司,本质上将变成劳动力输出方。 它们拥有成千上万的专属智能体,满足各种定制化要求。好消息是,过去卖软件用的是 IT 预算,未来输出 AI 劳动力可以动用劳动力预算——预算池更大了。但 AI 劳动力的要求也更高:就像招人一样,你希望招来的人能做这个职位 90% 以上的工作,且能力超过 90% 以上的人。以这个标准衡量,当前 Agent 的能力还有相当距离。
不过 Zhibin 的判断更为激进:如果传统 SaaS 公司现在不做剧烈改变,很快会被 Agent 平台替代。 它们需要做两件事:一是买算力并优化算力到服务输出的 ROI,二是把原有的行业经验尽快与 Agent 和 AI 平台结合。
未来企业的组织架构也将随之变化。一个公司的核心可能只有二三十人,HR、CFO、财务等职能都可以外包给 AI Agent,以项目形式周期性存在。这对公司领导者提出了全新要求:不仅要管理人才,还要管理 AI Agent,并定义哪些职位由人主导、哪些可以外包。
七、AI 设计芯片与 CUDA 护城河之辩 (29:19 - 46:12)
英伟达内部从去年年初开始,在一两个月之内就实现了 Coding Agent 的百分之百覆盖率,其他芯片公司也已经启动了类似流程。Mark Ren 在英伟达时领导的设计自动化研究团队,从 CNN/GNN 时代就开始探索用 AI 做芯片设计。他认为,大语言模型和 Agent 技术是第一次能够通用性地解决芯片设计问题——此前的传统机器学习只能解决非常局部的问题。
他们三年前就发布了 ChipNeMo 项目,用英伟达内部二十几个 billion tokens 的数据训练模型来做芯片设计。现在 AI 已经能做到与设计文档交互理解需求、编写硬件 RTL 代码,虽然质量还有提升空间。真正的难点在下一步:不仅要生成出来,还要优化得好。
现场观众提出了一个尖锐的问题:CUDA 作为软件,会不会被 Coding Agent 快速复制,护城河是否正在被削弱?
Mark Ren 的回答是:Coding Agent 确实能做很多事,但生成高性能代码仍有待观察。CUDA 需要的是最高 performance,所有 kernel 都是深度优化过的,这是技术壁垒。更重要的是,CUDA 已经不是英伟达唯一的护城河——成为 AI 基础设施公司之后,它有了全栈的护城河。
Zhibin 给出了更具体的判断:CUDA 在 kernel level 的护城河根据大厂工程师的反馈确实在变弱,AI 写的代码已经能达到手动优化 90% 以上的水平。但英伟达已经变成了系统公司,系统公司内部有大量硬件的 know-how 和数据,这些东西 Coding Agent 目前还拿不到。
这引出了一个所有使用 Coding Agent 的公司都应该警惕的问题:你的 know-how 和 knowledge 一直在被学习。很多 gaming studio 在使用 Coding Agent 时非常小心,因为代码是核心 IP。私有化部署因此变得至关重要。
CUDA 的护城河不在于代码本身,而在于它形成的全体系——包括开发者社区的凝聚力、企业级全栈优化的积累、以及 Inception Program 培育的两万多家初创企业生态。 其他芯片厂商做类似 CUDA 系统做了很多年、也拉了大软件公司合作,至今也没有做出来。
在竞争格局上,谷歌 TPU 在内部全体系优化下表现出色,训练成本可能只有 ChatGPT 的三分之一,但其他公司用 TPU 做不到这么低。谷歌在系统、互联、垂直供电等能力上实际超过英伟达,但其优化是针对自身应用场景定制的。英伟达作为第三方服务多家企业,体系的通用性更强。未来市场将是多样化的,不同应用场景选用不同芯片,但英伟达的领头位置仍然强劲。
英伟达的核心护城河可以总结为两点:快速的执行能力和供应链的把控能力。 尤其是与台积电多年建立的信任关系,使其拿到了 CoWoS 的大部分产能。未来的挑战可能来自垂直领域——机器人 AI 芯片、Physical AI、边缘端私有化部署——以及市值过大带来的资本裹挟:短期收入增长与长线技术创新投入之间的权重分配。
八、数据中心的物理极限:土地、电力与建设速度 (46:12 - 55:15)
Gemini Cloud 创始人 Alex 作为真正在建数据中心的人,带来了最接地气的一线视角。数据中心的铺设速度事实上很快,但最终的瓶颈卡在 land and power。
美国电网已经 bone dry——不可能拿到 10 兆瓦以上的电。 现在 90% 新的数据中心建设都是 behind the meter,直接在现场放天然气涡轮发电机就地燃烧供电。所有数据中心开发基本都是找旧的 brownfield 地产直接改建,钢筋水泥的传统建法已经不存在了。Hyperscaler 也不再抗拒,全部采用集装箱模组方案——40 尺海运柜内预装 CDU、光纤、HVAC、UPS,一步到位。建设规模以几百兆瓦甚至几个 GW 计算。美国和中国的大厂都开始包核能发电厂,直接就地建变电站降电供给。
美国实际上不缺电——高压传输线上有 330kV 的电力。问题在于 distribution,从高压电到可用电(从 400V 到现在的 800V),被监管卡住了。建变电站影响的是整个州电网的稳定性,需要大量研究。而美国电网由 oil and gas people 运营,动作远没有硅谷快。所以大家转而直接用天然气发电机组先上。
从建设周期看,数据中心从绿地到交付服务已经从过去的十八到二十个月压缩到六到九个月。模组化方案进一步加速:从土地到 concrete 到白地板约四个月,从白地板到 rack space 再装服务器约两到四个月。英伟达通过 AI 工厂的概念——从卖单块 GPU 到卖一组 GPU 再到打包全套设计方案——正在帮助加速落地。
九、GPU 云运营与芯片供应实况 (55:15 - 1:05:25)
从推理计算的中美对比来看,中国在 OpenCloud 和 Coding Agent 两个方向上发展极快,大模型公司如 Kimi、GLM 的主要营收已经是卖 Token。美国主要是 AI Coding 和多模态视频模型。真正的 Agentic 落地才起苗头,但发展速度很快。
芯片选择上,大厂基本用算推一体方案——只要做好 load balancing 和 scheduling 就行,毕竟分开建训练和推理两套系统要花两次钱。市场仍以 NVIDIA 卡为主。
供应链方面的现状比想象中更紧张。DDR4 内存去年到现在已涨 100% 到 200%,HBM 产能挤压导致 DDR 开始缺货,SSD 也开始缺。CX7 转 Bluefield 的 lead time 不断拉长,连 Intel 的 CPU 都开始缺货,水冷 CDU 方案也在缺货。供应链预估到 2027 年底都不会好转。
GPU 的折旧按华尔街的做法是五年。但技术角度上看,V100 是 2017、2018 年的产品,七八年了还在用,使用率非常高。实际预期寿命远比资本市场估算的长,主要原因是需求量实在太大。
运营 GPU 云最核心的能力,首先是有卡、能上线,然后是做到极致的稳定性。这些机器包含二十多万个 unique parts,每个 part 有至少 5% 的工厂 failure rate,几千台连在一起,non-zero chance it will fail。需要供应链能快速换件维持 SLA,DevOps 团队能快速排查硬件、光模块、Switch、K8s 乃至客户自身的问题。在硬件稳定性之上,才是模型服务层——做集群化推理优化,把 token 成本打下来。
与 Hyperscaler 的差异化在于:传统云厂商本质是 CPU 云和存储云,用 VM 方式管理,会吃掉 10% 的 compute power。在 CPU 时代一台服务器两三万美金没人在乎,但 GP300 是几百万美金一套——必须用 K8S 方式做集群管理,让客户直接拿到 bare metal 的 100% 效率。