「1 亿 TOKEN 俱乐部」挤爆了，AI 的燃料不够了｜对谈于文渊：阿里云百炼技术负责人 - 主题精读稿

2026年4月1日

「1 亿 TOKEN 俱乐部」挤爆了，AI 的燃料不够了｜对谈于文渊：阿里云百炼技术负责人 - 主题精读稿

前言：算力即石油，Token 即燃料

伴随 Claude Code 和 OpenClaw 的爆炸性流行，全球 Token 消耗正以月翻倍的速度增长，算力短缺成为 AI 行业面临的核心瓶颈。阿里云百炼研发负责人于文渊在本期对话中，从 MaaS 服务商的一线视角出发，拆解了算力供给的真实困境：GPU 不够用、Token 数量有误导性、企业自建模型得不偿失。他还提出了一个反直觉的判断——AI 最可能替代的不是初级程序员，而是写操作系统内核和数据库内核那些代码质量最高的系统工程师。在他看来，AI 的终局是成为水电煤一样的基础设施，而通往这个终局的路上，算力供给的缺口才是最大的变量。

一、Token 爆炸与云计算范式变革 (01:41 - 03:17)

Claude Code 和 OpenClaw 席卷全球，直接的结果是 Token 消耗的迅速飙升。在阿里云百炼，Token 数基本上按月翻倍增长，而且都是高质量的 Token——用户不再把 AI 当聊天机器人，而是融入到生产力场景中去消耗算力。

这仅仅是一个开始。 于文渊判断，AI 正在深刻改变人类使用算力的方式。他无法预测短期内下一个爆发场景是什么，但非常笃定地说：三五年内，大量人力所做的工作一定会被 AI 替代。云计算的数据中心、调度系统、存储网络的使用方式，三五年后会和今天完全不一样。云计算的范式会发生天翻地覆的变化，云厂商的格局也面临重新洗牌。

二、云计算格局重塑：Neocloud 涌现与阿里云的应变 (03:19 - 05:25)

过去很长时间，全球云厂商格局几乎板上钉钉——中美各有几家巨头。但最近 Neocloud 的出现，让这个定局出现了松动。于文渊认为很难判断新玩家能否挤入一线行列，但有一件事是确定的：所有厂商都在迎接变革。阿里云作为中国最大的云计算厂商，需要思考的是——未来的云用户可能不再是人，而是 Agent。Agent 需要什么样的计算、存储、网络和算力，如何去满足，这是所有人都要面对的问题。

在阿里云内部，变化以天为单位发生。千问 3.5 发布后两周，峰值就跃升到历史上所有文本模型从未见过的高度。即便有了最激进的算力投入决策，依然不够用——模型研发要用、客户服务要用、突破性增长在持续发生。OpenClaw 和 Claude Code 在 Agent 场景下带来了绝对的增长加速，但爆炸性增长并非始于此刻：从百炼上线第一天起，增长就没有停下来过。每一次一个模型跨过从 Demo 到真实可用的门槛，都会迅速带来一波增量。

三、GPU 的使命：一秒钟都不能闲 (05:25 - 07:50)

在剧烈变化中追求稳定是极大的挑战。除了安全和稳定性，百炼面临的巨大约束是 GPU 供给的有限——算法团队抢着要 GPU 做训练，客户需要更强的模型、更好的服务质量，系统和工程的挑战前所未有。

我们有一个非常非常重要的使命，就是让每一个 GPU 不要有一秒钟闲下来，让它发挥最大的作用。一千卡，一万卡，十万卡，一百万卡。

百炼的目标是让所有用户感觉自己在调用中国最大的算力集群——极致的弹性，极致的稳定性，只需一个 API。

Token 数量本身有误导性。 一个 0.6B 小模型或 Embedding 模型的 Token，和一个会深度思考的大模型的 Token，在算力、智能和水平上完全不等价。微信群里"一天烧掉一亿 Token 才能进群"的门槛，在百炼看来已经不算高——每天都有数以万计的新增用户在消耗 Token，重度个人用户的一亿 Token 早已不是大门槛。或许该改叫"十亿 Token 俱乐部"了。

四、百炼的关注点与国际化的现实 (07:59 - 09:57)

除了 Token 总量，百炼更关注峰值形态、技术上的削峰填谷调度、GPU 的充分利用，以及首包延时和生成速度这些服务质量指标。

国际化是一个让 GPU 全天候运转的好思路——中国白天中国人用，欧洲白天欧洲人用。于文渊认为 Token 出海非常重要，阿里云也拥抱国际化。但现实是国内外业务发展速度完全不在同一量级，如果慢两个月，国际业务可能只占大盘的个位数百分比。两条线齐头并进在今天非常难，但最终中台一定是国际国内都要用。这中间还有地缘政治、合规等大量问题需要克服。

在百炼的"上帝视角"下，能看到各赛道、领域、场景的 Token 使用分布。一个有趣的例子是：经销商在微信群里用机器人补货——直接对机器人说"某某饮料多少箱"，系统会深入理解这是什么饮料、以前买的什么，直接完成补货。这种用自然语言完成商业操作的方式，就是大模型替代人工的自然延伸。

五、MaaS 的差异化：端到端能力才是护城河 (10:20 - 12:45)

外界看所有云厂商的 MaaS 服务好像长得差不多，但内行视角有本质差异。于文渊作为 hands-on 的工程师，认为一家公司的技术基础设施好不好，直接决定产品好不好。阿里云在国内做基础设施多年，积累了广泛的产品线、大规模运营能力和深厚的技术底蕴。同时，达摩院提供的模型不是黑盒——而是背靠背一起开发、上线前反复打磨的。再加上自研芯片团队平头哥提供从 CPU 时代就验证过的良好开发体验，阿里云可以端到端地做大模型，从芯片到模型到推理服务，这是一个独特的竞争位置。

具体到在百炼上调千问模型的体验：客户频繁反馈，自己部署的千问模型在效果、质量、速度上都不如百炼。这不只针对千问，开源模型也一样。百炼多年积累的精度体系和稳定性体系的推理服务框架，保证了千问所有模型 model card 上的分数，API 一定可以做到。

于文渊抛出了一个明确的判断：没有任何一个情况需要企业自建模型。 这个判断的本质是——大家低估了这件事的复杂性和增长速度。

六、MaaS vs. 自建：三个理由的逐一击破 (12:51 - 15:11)

企业自建通常出于三个考虑，于文渊逐一拆解了为什么 MaaS 反而能更好地满足这三个需求。

成本可控。 表面上自建意味着固定投入，但折算到单模型的 Portfolio 成本后，企业需要解决推理优化、多模型调度等复杂系统问题。模型变化快、算法迭代快，每家公司养一个推理优化工程师来保证 Token 效率是非常难的。自有 GPU 如何在越来越多的模型之间平衡服务质量和成本，这些都是极其复杂的系统工程。

安全。 云厂商是绝对可信的，这是操守底线——看不到也不会看用户数据。百炼还在推"机密推理"技术：看不到模型文件、看不到所有请求、端到端的密钥在用户手里，这是密码学层面的保障。

灵活性。 今天最大的确定性就是不确定。明天的 AI 需要什么？模型架构会怎么变？推理效率会变成什么样？在这种高速变化面前，MaaS 的灵活性远超自建——你不需要自己去追赶每一次技术迭代。

七、给计算机专业学生的建议：不要让 AI 帮你写太多代码 (15:14 - 17:32)

于文渊建议学弟学妹们继续学计算机。他引用了一个从八十年代延续至今的"truth"：未来人有两种，一种是被计算机使用的人，一种是使用计算机的人。不管 AI 能解决什么问题，最终实现的仍然是物理世界的道理、逻辑、电路门、芯片设计与生产。

但他的核心建议可能有点反直觉：计算机专业的学生一定不要让 AI 帮你写太多代码。 他引用了张文宏关于医生如何使用 AI 的观点——资深医生用 AI 没问题，但如果实习医生从建第一个病号开始就全丢给 AI，他就永远找不到 AI 的问题。没有经验的 build up，没有对好坏、正确与否的判断力，只能信任 AI 的 99% 正确性，那剩下的 1% 错误他永远发现不了。

一定要把自己的能力点立在 AI 做不到的那个点上。

刚入行的人一定要避免自己与 AI 高度重合、没有真正的技能 difference，而要成为能识别出 AI 做不到的那 1% 的人。

八、AI 代码的现实：Vibe Coding 与生产环境的鸿沟 (17:32 - 20:21)

在日常工作中，Code Review 看到 AI 生成的代码时会"很慌"。AI 代码被交进来又铲掉的 case 太多了。Vibe Coding 做原型已经完全没问题，但生产可用的代码，需要知道每一行能完成预期功能，副作用可接受——不会内存泄漏、不会占用过多文件句柄。AI 对上下文和深度理解的程度远远没有达到 Mission Critical 的要求。

所有东西进了生产环境再去铲除，永远是代价极高的事。它不是效率工具，反而会让你陷入无法维护的代码屎山中挣扎。

相比之下，Spec Coding 是更好的方式。去年 FAST（顶级存储会议）有一篇论文，让 AI 写文件系统——当各种 spec 写得够清晰时，32B 的模型就能把文件系统这种底层高质量代码写好。启发是：如果人能用形式化的逻辑把需求描述清楚，AI 就能把填空的事做好。但这对架构师的要求非常高，远不是两三个提示词就能搞定的事。

九、谁最容易被 AI 替代？一个反直觉的答案 (20:33 - 23:33)

将 AI 生成代码比例作为企业目标来追求，于文渊认为这是危险的。人与人之间的合作交流中有大量隐性知识——过程性的、无法靠几句提示词讲清楚的东西。该怎么做可能和创始人风格、产品上下文历史密切相关，这些 AI 干涉不到。

不要低估 AI 的能力，也不要高估 AI 的能力，绝对不要高估 AI 的能力。 AI 应该是效率工具——一个人加上 AI 可以完成原来几个工程师的工作量，但不能完全替代。

关于"过程知识"的重要性，Koji 用了一个生动的比喻：买宜家家具，生产要素（零件）和知识要素（说明书）你都有，但组装就是痛苦。找个师傅来，框框框就装好了——他拥有的和你一样，但过程的熟练度不同。

AI 可能真正能替代的，反而是写最好代码的那些人——写操作系统内核、数据库内核、文件系统的系统工程师。这个判断和多数人的直觉恰恰相反。原因是：系统工程师的代码库质量高、测试用例清晰、结果可以精确定义——就像形式化的数学问题。AI 在数学竞赛和编程竞赛上表现优异，正是因为这类问题够清晰、结果够确定。

而前端工程师和产品工程师，他们的逻辑不靠"背"——需要 knowhow，需要理解怎么让用户满意。什么叫"好的短视频 APP"？这是一个没有清晰定义的开放问题。与人走得越近的东西，越难被取代。

MaaS 系统工程师本身也是一个开放问题——AI 变化太快，技术资源和算力情况都在快速变化。在这种环境下，需要的是一个人的潜力，而不是知识。

十、英伟达断供与算力的石油比喻 (24:00 - 27:02)

英伟达断供对中国 AI 的影响非常大。于文渊对国产算力有信心——中国有聪明的工程师和工业基础，一定能做到自主可控，技术终将世界领先。但问题的本质不是"中国能不能产石油"，而是"每天需要的石油和每天能供给的石油是否匹配"。

油田还没完全开采出来，下游高速公路上的车已经跑起来了。算力供给如果产生缺口，会实实在在影响中国 AI 的发展。很多国家也面临类似问题，有的卡在电力上——电力是工业的血液，一百年前就知道了，但不知为何今天供血不足。

平头哥做得"非常非常好"，于文渊用了最高级的评价。英伟达是事实标准——最早开始做、强大的软硬件团队、大量东西已经落地。平头哥团队非常有远见，使用体验最丝滑。

但归根结底，MaaS 和算力 AI 的发展不取决于产品做得好不好，不取决于石油是轻质还是重质——而是总量供给的问题。给百倍的算力，一定能让市场消耗掉：要么训练出更强的模型，要么让 AI 应用变得更便宜。这种对算力的饥渴是云计算历史上前所未有的状态。

十一、Token 消耗的未来与百炼的核心价值 (27:17 - 28:36)

展望 2026 年底的 Token 消耗场景，于文渊坦言自己的"意想不到"的阈值已经非常高了——现在没什么 AI 做到的事让他觉得意外。Agent 和 AI 生成一定是今年最大的两个 Token 增量来源，至于谁多谁少，每家厂商可能不同，但这两个方向是确定的。

百炼的核心价值在于：谁能做到好的体验、低的成本、好的模型效果和充足的容量——谁能把算力更高效地转换成 Token。千问的 API 就是百炼的 API，这个等式本身就说明了百炼在模型服务链条中的不可替代性。

十二、Neocloud 观察与 MaaS 的终局 (29:09 - 31:47)

百炼不只服务千问——中国的开源模型都有托管部署，国内模型厂商的原厂模型（minimax、Kimi、DeepSeek 等）也能通过百炼 API 调用。

对于 Neocloud 的判断，于文渊区分了两类：直接做资源转售——把英伟达算力相对裸地往上卖的 Neocloud，他并不看好。 更看好的是 AI 原生的、把硬件复杂性屏蔽掉的 MaaS（如 VibeWorks、Together），以及围绕 AI Agent 生态的产品——沙箱托管、云桌面浏览器搜索、Agent 可观测性（类似 DataDog）。围绕 Agent 和 AI 云的创业方向会非常有意思。

谈到 MaaS 的终局，于文渊的判断清晰而坚定：AI 会成为类似水电煤一样的基础设施级 utility——就像手机运营商、电信运营商、交通设施和高速公路。

AI 的终局可能确实不是一个模型，就是电我不分核电水电，我插在它头上就是 220 伏交流电。

未来的基础设施会从"水电煤"变成"水电煤模"——模型将深远地影响日常生活，成为第四种基础设施。在通往这个终局的路上，MaaS 激战未定，但方向已经明确：不是关于某个模型多好，而是关于谁能更高效地将算力转化为智能，让所有人都能像用水电一样稳定地使用 AI。