「1 亿 TOKEN 俱乐部」挤爆了,AI 的燃料不够了|对谈于文渊:阿里云百炼技术负责人 - 主题精读稿

「1 亿 TOKEN 俱乐部」挤爆了,AI 的燃料不够了|对谈于文渊:阿里云百炼技术负责人 - 主题精读稿

前言:算力即石油,Token 即燃料

伴随 Claude Code 和 OpenClaw 的爆炸性流行,全球 Token 消耗正以月翻倍的速度增长,算力短缺成为 AI 行业面临的核心瓶颈。阿里云百炼研发负责人于文渊在本期对话中,从 MaaS 服务商的一线视角出发,拆解了算力供给的真实困境:GPU 不够用、Token 数量有误导性、企业自建模型得不偿失。他还提出了一个反直觉的判断——AI 最可能替代的不是初级程序员,而是写操作系统内核和数据库内核那些代码质量最高的系统工程师。在他看来,AI 的终局是成为水电煤一样的基础设施,而通往这个终局的路上,算力供给的缺口才是最大的变量。

一、Token 爆炸与云计算范式变革 (01:41 - 03:17)

Claude Code 和 OpenClaw 席卷全球,直接的结果是 Token 消耗的迅速飙升。在阿里云百炼,Token 数基本上按月翻倍增长,而且都是高质量的 Token——用户不再把 AI 当聊天机器人,而是融入到生产力场景中去消耗算力。

这仅仅是一个开始。 于文渊判断,AI 正在深刻改变人类使用算力的方式。他无法预测短期内下一个爆发场景是什么,但非常笃定地说:三五年内,大量人力所做的工作一定会被 AI 替代。云计算的数据中心、调度系统、存储网络的使用方式,三五年后会和今天完全不一样。云计算的范式会发生天翻地覆的变化,云厂商的格局也面临重新洗牌。

二、云计算格局重塑:Neocloud 涌现与阿里云的应变 (03:19 - 05:25)

过去很长时间,全球云厂商格局几乎板上钉钉——中美各有几家巨头。但最近 Neocloud 的出现,让这个定局出现了松动。于文渊认为很难判断新玩家能否挤入一线行列,但有一件事是确定的:所有厂商都在迎接变革。阿里云作为中国最大的云计算厂商,需要思考的是——未来的云用户可能不再是人,而是 Agent。Agent 需要什么样的计算、存储、网络和算力,如何去满足,这是所有人都要面对的问题。

在阿里云内部,变化以天为单位发生。千问 3.5 发布后两周,峰值就跃升到历史上所有文本模型从未见过的高度。即便有了最激进的算力投入决策,依然不够用——模型研发要用、客户服务要用、突破性增长在持续发生。OpenClaw 和 Claude Code 在 Agent 场景下带来了绝对的增长加速,但爆炸性增长并非始于此刻:从百炼上线第一天起,增长就没有停下来过。每一次一个模型跨过从 Demo 到真实可用的门槛,都会迅速带来一波增量。

三、GPU 的使命:一秒钟都不能闲 (05:25 - 07:50)

在剧烈变化中追求稳定是极大的挑战。除了安全和稳定性,百炼面临的巨大约束是 GPU 供给的有限——算法团队抢着要 GPU 做训练,客户需要更强的模型、更好的服务质量,系统和工程的挑战前所未有。

我们有一个非常非常重要的使命,就是让每一个 GPU 不要有一秒钟闲下来,让它发挥最大的作用。一千卡,一万卡,十万卡,一百万卡。

百炼的目标是让所有用户感觉自己在调用中国最大的算力集群——极致的弹性,极致的稳定性,只需一个 API。

Token 数量本身有误导性。 一个 0.6B 小模型或 Embedding 模型的 Token,和一个会深度思考的大模型的 Token,在算力、智能和水平上完全不等价。微信群里"一天烧掉一亿 Token 才能进群"的门槛,在百炼看来已经不算高——每天都有数以万计的新增用户在消耗 Token,重度个人用户的一亿 Token 早已不是大门槛。或许该改叫"十亿 Token 俱乐部"了。

四、百炼的关注点与国际化的现实 (07:59 - 09:57)

除了 Token 总量,百炼更关注峰值形态、技术上的削峰填谷调度、GPU 的充分利用,以及首包延时和生成速度这些服务质量指标。

国际化是一个让 GPU 全天候运转的好思路——中国白天中国人用,欧洲白天欧洲人用。于文渊认为 Token 出海非常重要,阿里云也拥抱国际化。但现实是国内外业务发展速度完全不在同一量级,如果慢两个月,国际业务可能只占大盘的个位数百分比。两条线齐头并进在今天非常难,但最终中台一定是国际国内都要用。 这中间还有地缘政治、合规等大量问题需要克服。

在百炼的"上帝视角"下,能看到各赛道、领域、场景的 Token 使用分布。一个有趣的例子是:经销商在微信群里用机器人补货——直接对机器人说"某某饮料多少箱",系统会深入理解这是什么饮料、以前买的什么,直接完成补货。这种用自然语言完成商业操作的方式,就是大模型替代人工的自然延伸。

五、MaaS 的差异化:端到端能力才是护城河 (10:20 - 12:45)

外界看所有云厂商的 MaaS 服务好像长得差不多,但内行视角有本质差异。于文渊作为 hands-on 的工程师,认为一家公司的技术基础设施好不好,直接决定产品好不好。阿里云在国内做基础设施多年,积累了广泛的产品线、大规模运营能力和深厚的技术底蕴。同时,达摩院提供的模型不是黑盒——而是背靠背一起开发、上线前反复打磨的。再加上自研芯片团队平头哥提供从 CPU 时代就验证过的良好开发体验,阿里云可以端到端地做大模型,从芯片到模型到推理服务,这是一个独特的竞争位置。

具体到在百炼上调千问模型的体验:客户频繁反馈,自己部署的千问模型在效果、质量、速度上都不如百炼。这不只针对千问,开源模型也一样。百炼多年积累的精度体系和稳定性体系的推理服务框架,保证了千问所有模型 model card 上的分数,API 一定可以做到。

于文渊抛出了一个明确的判断:没有任何一个情况需要企业自建模型。 这个判断的本质是——大家低估了这件事的复杂性和增长速度。

六、MaaS vs. 自建:三个理由的逐一击破 (12:51 - 15:11)

企业自建通常出于三个考虑,于文渊逐一拆解了为什么 MaaS 反而能更好地满足这三个需求。

成本可控。 表面上自建意味着固定投入,但折算到单模型的 Portfolio 成本后,企业需要解决推理优化、多模型调度等复杂系统问题。模型变化快、算法迭代快,每家公司养一个推理优化工程师来保证 Token 效率是非常难的。自有 GPU 如何在越来越多的模型之间平衡服务质量和成本,这些都是极其复杂的系统工程。

安全。 云厂商是绝对可信的,这是操守底线——看不到也不会看用户数据。百炼还在推"机密推理"技术:看不到模型文件、看不到所有请求、端到端的密钥在用户手里,这是密码学层面的保障。

灵活性。 今天最大的确定性就是不确定。 明天的 AI 需要什么?模型架构会怎么变?推理效率会变成什么样?在这种高速变化面前,MaaS 的灵活性远超自建——你不需要自己去追赶每一次技术迭代。

七、给计算机专业学生的建议:不要让 AI 帮你写太多代码 (15:14 - 17:32)

于文渊建议学弟学妹们继续学计算机。他引用了一个从八十年代延续至今的"truth":未来人有两种,一种是被计算机使用的人,一种是使用计算机的人。不管 AI 能解决什么问题,最终实现的仍然是物理世界的道理、逻辑、电路门、芯片设计与生产。

但他的核心建议可能有点反直觉:计算机专业的学生一定不要让 AI 帮你写太多代码。 他引用了张文宏关于医生如何使用 AI 的观点——资深医生用 AI 没问题,但如果实习医生从建第一个病号开始就全丢给 AI,他就永远找不到 AI 的问题。没有经验的 build up,没有对好坏、正确与否的判断力,只能信任 AI 的 99% 正确性,那剩下的 1% 错误他永远发现不了。

一定要把自己的能力点立在 AI 做不到的那个点上。

刚入行的人一定要避免自己与 AI 高度重合、没有真正的技能 difference,而要成为能识别出 AI 做不到的那 1% 的人。

八、AI 代码的现实:Vibe Coding 与生产环境的鸿沟 (17:32 - 20:21)

在日常工作中,Code Review 看到 AI 生成的代码时会"很慌"。AI 代码被交进来又铲掉的 case 太多了。Vibe Coding 做原型已经完全没问题,但生产可用的代码,需要知道每一行能完成预期功能,副作用可接受——不会内存泄漏、不会占用过多文件句柄。AI 对上下文和深度理解的程度远远没有达到 Mission Critical 的要求。

所有东西进了生产环境再去铲除,永远是代价极高的事。它不是效率工具,反而会让你陷入无法维护的代码屎山中挣扎。

相比之下,Spec Coding 是更好的方式。去年 FAST(顶级存储会议)有一篇论文,让 AI 写文件系统——当各种 spec 写得够清晰时,32B 的模型就能把文件系统这种底层高质量代码写好。启发是:如果人能用形式化的逻辑把需求描述清楚,AI 就能把填空的事做好。但这对架构师的要求非常高,远不是两三个提示词就能搞定的事。

九、谁最容易被 AI 替代?一个反直觉的答案 (20:33 - 23:33)

将 AI 生成代码比例作为企业目标来追求,于文渊认为这是危险的。人与人之间的合作交流中有大量隐性知识——过程性的、无法靠几句提示词讲清楚的东西。该怎么做可能和创始人风格、产品上下文历史密切相关,这些 AI 干涉不到。

不要低估 AI 的能力,也不要高估 AI 的能力,绝对不要高估 AI 的能力。 AI 应该是效率工具——一个人加上 AI 可以完成原来几个工程师的工作量,但不能完全替代。

关于"过程知识"的重要性,Koji 用了一个生动的比喻:买宜家家具,生产要素(零件)和知识要素(说明书)你都有,但组装就是痛苦。找个师傅来,框框框就装好了——他拥有的和你一样,但过程的熟练度不同。

AI 可能真正能替代的,反而是写最好代码的那些人——写操作系统内核、数据库内核、文件系统的系统工程师。 这个判断和多数人的直觉恰恰相反。原因是:系统工程师的代码库质量高、测试用例清晰、结果可以精确定义——就像形式化的数学问题。AI 在数学竞赛和编程竞赛上表现优异,正是因为这类问题够清晰、结果够确定。

而前端工程师和产品工程师,他们的逻辑不靠"背"——需要 knowhow,需要理解怎么让用户满意。什么叫"好的短视频 APP"?这是一个没有清晰定义的开放问题。与人走得越近的东西,越难被取代。

MaaS 系统工程师本身也是一个开放问题——AI 变化太快,技术资源和算力情况都在快速变化。在这种环境下,需要的是一个人的潜力,而不是知识。

十、英伟达断供与算力的石油比喻 (24:00 - 27:02)

英伟达断供对中国 AI 的影响非常大。于文渊对国产算力有信心——中国有聪明的工程师和工业基础,一定能做到自主可控,技术终将世界领先。但问题的本质不是"中国能不能产石油",而是"每天需要的石油和每天能供给的石油是否匹配"。

油田还没完全开采出来,下游高速公路上的车已经跑起来了。算力供给如果产生缺口,会实实在在影响中国 AI 的发展。很多国家也面临类似问题,有的卡在电力上——电力是工业的血液,一百年前就知道了,但不知为何今天供血不足。

平头哥做得"非常非常好",于文渊用了最高级的评价。英伟达是事实标准——最早开始做、强大的软硬件团队、大量东西已经落地。平头哥团队非常有远见,使用体验最丝滑。

但归根结底,MaaS 和算力 AI 的发展不取决于产品做得好不好,不取决于石油是轻质还是重质——而是总量供给的问题。给百倍的算力,一定能让市场消耗掉:要么训练出更强的模型,要么让 AI 应用变得更便宜。这种对算力的饥渴是云计算历史上前所未有的状态。

十一、Token 消耗的未来与百炼的核心价值 (27:17 - 28:36)

展望 2026 年底的 Token 消耗场景,于文渊坦言自己的"意想不到"的阈值已经非常高了——现在没什么 AI 做到的事让他觉得意外。Agent 和 AI 生成一定是今年最大的两个 Token 增量来源,至于谁多谁少,每家厂商可能不同,但这两个方向是确定的。

百炼的核心价值在于:谁能做到好的体验、低的成本、好的模型效果和充足的容量——谁能把算力更高效地转换成 Token。千问的 API 就是百炼的 API,这个等式本身就说明了百炼在模型服务链条中的不可替代性。

十二、Neocloud 观察与 MaaS 的终局 (29:09 - 31:47)

百炼不只服务千问——中国的开源模型都有托管部署,国内模型厂商的原厂模型(minimax、Kimi、DeepSeek 等)也能通过百炼 API 调用。

对于 Neocloud 的判断,于文渊区分了两类:直接做资源转售——把英伟达算力相对裸地往上卖的 Neocloud,他并不看好。 更看好的是 AI 原生的、把硬件复杂性屏蔽掉的 MaaS(如 VibeWorks、Together),以及围绕 AI Agent 生态的产品——沙箱托管、云桌面浏览器搜索、Agent 可观测性(类似 DataDog)。围绕 Agent 和 AI 云的创业方向会非常有意思。

谈到 MaaS 的终局,于文渊的判断清晰而坚定:AI 会成为类似水电煤一样的基础设施级 utility——就像手机运营商、电信运营商、交通设施和高速公路。

AI 的终局可能确实不是一个模型,就是电我不分核电水电,我插在它头上就是 220 伏交流电。

未来的基础设施会从"水电煤"变成"水电煤模"——模型将深远地影响日常生活,成为第四种基础设施。在通往这个终局的路上,MaaS 激战未定,但方向已经明确:不是关于某个模型多好,而是关于谁能更高效地将算力转化为智能,让所有人都能像用水电一样稳定地使用 AI。

目录与工具

从右向左滑动可关闭