Lex Fridman Podcast #490: State of AI in 2026 - 主题精读稿
Lex Fridman Podcast #490: State of AI in 2026 - 主题精读稿
前言:2026 年 AI 全景扫描
这是一期近四小时的深度对话,Lex Fridman 与 AI 研究者 Sebastian Raschka 和 Nathan Lambert 系统梳理了 2026 年 AI 领域的全貌。从中美竞争格局、开放模型爆发、Transformer 架构演进、RLVR 突破、到 AGI 时间线和商业化前景,三人展现了高度互补的视角——Sebastian 偏重架构与训练底层,Nathan 偏重生态与政策,Lex 则不断追问人文与哲学意义。核心判断:AI 进步仍在加速,但"低垂果实"正在减少;开放模型生态空前繁荣;真正的差异化不在技术而在预算、文化和数据。
一、人工智能前沿技术概览
从零开始构建机器学习模型仍然是深入理解 AI 最有效的方法,因为代码提供了一种精确、可验证的数学现实,消除了理论图表中可能存在的模糊与错误。正如 Sebastian 所说,你可以看论文里的图,但图可能画错;你可以阅读概念解释,但可能会误解。唯有代码——如果它能运行,你就知道它是正确的。代码不会撒谎,它本质上就是数学。甚至连数学书里都可能有你永远不会发现的错误,因为你在读书时不会真正运行数学公式;而代码的好处恰恰在于——你可以验证它。
当前 AI 行业正经历一个"去伪存真"的过程。大量公司不分行业地给产品贴上"AI 驱动"的标签——哪怕你是一家面包店,也要标上"Powered by AI"。Lex 对此颇感讽刺,但同时也承认:抛开所有炒作,AI 确实是人类有史以来创造的最不可思议的东西之一。真正能胜出的,是那些能将 AI 切实落地的公司。在这方面,Box 将 LLM 集成到文档处理和工作流自动化中;CodeRabbit 则在解决一个关键需求——用 AI 进行代码审查,为生产环境中的幻觉和逻辑错误设置防线。
Lex 指出一个核心问题:浏览器可以神奇地渲染各种 HTML slop(包括 AI 生成的 slop),个人网站怎么做都没关系。但当你面对的是生产代码——大量用户依赖的系统——你如何审查代码?如何确保捕获到 AI 编码代理产生的幻觉和逻辑错误?人类完全从编程循环中退出,这条路还很远。审查过程、调试过程,仍然是编程中至关重要的环节。
二、DeepSeek 时刻与全球 AI 主导权竞争
DeepSeek 引爆的连锁反应
2025 年 1 月,中国开放权重公司 DeepSeek 发布了 DeepSeek R1,这一时刻被称为"DeepSeek 时刻"。它以据称远低于西方同行的计算量和成本,实现了接近或达到最先进水平的性能,让整个行业为之震惊。从那时到现在,AI 竞赛在研究层面和产品层面都变得愈发疯狂,并且在持续加速。
Lex 以一个辛辣的问题开场:在国际层面上,谁在赢——是中国的一批公司,还是美国的一批公司?
Sebastian 认为,"赢"是一个非常宽泛的术语,需要在多个时间尺度上看待——今天、明年、十年后。他给出了一个确定的判断:在 2026 年的今天,不会有任何一家公司拥有其他公司无法获得的技术。原因很简单——研究人员频繁更换工作和实验室,他们在不同的机构之间轮换,想法在人才流动中迅速扩散。**因此,未来的真正差异化因素不是专有创意,而是预算和硬件资源——也就是实施这些想法所需要的方式和资源。**他目前看不到赢家通吃的局面。
Nathan 从另一个角度展开。他首先标注了录制时间点的行业热度:Anthropic 的 Claude Opus 4.5 模型引发的炒作已经到了"迷因级别"——他过去几周使用它构建了很多东西,这种热度非常自然且真实。但有趣的是,几个月前 Google 发布的 Gemini 3 也曾引发巨大轰动,当时所有人都说"这是 Gemini 重新夺回 Google 在 AI 领域结构性优势的时刻"。Gemini 3 仍然是一个出色的模型,Nathan 至今仍在使用,但人们似乎不怎么谈论它了——差异化太低了。
Nathan 同意 Sebastian 关于想法空间高度流动的判断,但他补充了一个文化维度:**Anthropic 在文化上以重注代码(code)著称,而 Claude Code 这件事目前对他们来说非常有效。**即使想法可以自由流动,但大部分进展实际上受限于人力投入和组织文化。在这方面,Anthropic 至少展现为最不混乱的一家,这本身就是一种优势。
中国的爆发式增长
Nathan 进一步指出,来自中国的技术力量令人不安。DeepSeek 在中国催化了一场运动,类似于 ChatGPT 在美国的催化效应——当年 ChatGPT 让美国每个产品都装上了聊天机器人。现在中国涌现出大量科技公司,发布非常强大的前沿开放权重模型——z.ai 及其 GLM 模型、Minimax、Kimi Moonshot 等,尤其是最近几个月表现抢眼。DeepSeek 正在失去其作为中国最杰出开放模型制造商的桂冠——不是因为它变差了,而是因为其他公司在使用 DeepSeek 的想法。
Sebastian 补充说,DeepSeek 仍然稍微领先。例如 Kimi 使用了与 DeepSeek 相同的架构来训练模型,然后凭借更新的训练在某些时候暂时超越。这就是不断跳跃式追赶的过程。最新的模型可能永远是最好的模型,这意味着不会有明确的赢家。
Nathan 还提到了中国公司之间不同的激励机制。DeepSeek 由对冲基金"幻方量化"(High Flyer Capital)支持,非常保密,外界不清楚他们用模型做什么,也不确定他们是否在意市场份额。而 Minimax、z.ai 等初创公司则完全不同——这两家已经提交了 IPO 文件,正在积极争取西方市场关注,做大量对外宣传。不同的激励机制可能导致不同的模型发展路径。
中国公司的开放策略:精明的地缘博弈
Nathan 透露了一个关键的商业洞察:中国公司选择开放模型权重,不是出于理想主义,而是精心计算的战略。许多美国科技公司和 IT 企业出于安全考虑不会为中国公司的 API 订阅付费——这在科技行业是一个长期习惯。中国公司的决策者看到了这一点。他们将开放权重模型视为影响和参与美国巨大且不断增长的 AI 支出市场的途径。Nathan 表示自己收到过一些中国公司的主动联络,这些人非常聪明且务实。这条路确实在为他们奏效。
中国政府也会注意到这种策略在国际上建立的巨大技术影响力,因此会有很多激励措施来维持这种开放。但构建这些模型和进行研究非常昂贵,在某个时点必然出现整合。Nathan 认为这不会是 2026 年的故事——今年开放模型的构建者只会比 2025 年更多,而其中许多知名公司将来自中国。
谁赢了 2025?谁会赢 2026?
Nathan 在消费者聊天机器人领域分析格局:押注 Gemini 超越 ChatGPT 在直觉上让人感觉是一个冒险的赌注,因为 OpenAI 一直是在位者,在技术领域享有巨大的先发优势。如果看 2025 年的势头,Gemini 这边更强,但他们的起点非常低——"安息吧,Bard"——非常感谢他们能在组织混乱中坚持到今天的成果。但也很难不看好 OpenAI,因为他们总是显得混乱,却非常擅长落地。
Nathan 对 GPT-5 的评价褒贬不一,但他承认 GPT-5 的核心功能——路由器——必定为 OpenAI 节省了巨额成本,因为大部分用户不再需要消耗那么多 GPU。很难区分"我喜欢的模型功能"和"真正能成为大众差异化因素的功能"。
被问到 2026 年预测时,Nathan 虽然说"这有风险",但还是做出了判断:Gemini 将继续蚕食 ChatGPT 的份额。理由是 Google 在极大规模运营时能够更好地分离研究和产品,而 OpenAI 在运营上总显得混乱且追逐高影响力的事情(非常典型的初创企业文化)。在软件和企业市场方面,Anthropic 将继续成功——他们一次又一次地为此做好了准备。
Lex 追问 TPU 是否给 Google 带来了基础设施优势。Nathan 回答,主要是因为 NVIDIA 芯片的利润率太疯狂了,Google 可以自上而下开发全套技术栈,无需支付这种溢价。Google 在数据中心建设上已经领先一步,在所有具有高交付周期和高成本带来的高利润率的领域都有历史优势。
不过,如果要出现全新范式,最有可能来自 OpenAI——他们的研究部门一次又一次展现出落地新研究想法或产品的能力。01 思维模型等所有"定义性"创新都出自 OpenAI,这必须是他们作为组织最重要的特质之一。所以很难不看好他们。Nathan 总结说,今年的关键主题将是规模化以及优化模型中"唾手可得的果实"。
Lex 还提出一个重要的观察:关于 Opus 4.5 的炒作,存在 Twitter/X 回音室里的"宠儿"与实际用户数之间的脱节。ChatGPT 和 Gemini 面向的是庞大的普通用户群体——那些只想解决日常问题的人,而且这个用户群非常庞大。因此编程圈的热度可能并不代表 AI 的真实使用格局。Sebastian 进一步补充说,很多使用模式其实是品牌认知度和"肌肉记忆"的结果——ChatGPT 已经存在很长时间了,人们已经习惯了使用它,这就像一个飞轮,他们会推荐给其他用户。
三、用户偏好:速度与智能的权衡
快速查询 vs 深度思考
ChatGPT 5 试图在幕后解决的核心问题是:**人们到底要的是智能还是速度?**答案是——两者都要,取决于场景,而拥有选择权至关重要。
Sebastian 描述了自己的使用模式:大多数时候用 ChatGPT 的快速模型查找信息,"自动模式"现在做得相当好,不需要手动切换"思考"与"非思考"。但他偶尔也需要 Pro 模式。他的典型场景是:写完一篇文章后,把内容丢给 ChatGPT 做彻底检查——所有参考文献是否正确?所有逻辑是否成立?格式有无错误?图表编号是否出错?这类任务不需要即时反馈,他会去吃晚饭,让它运行,回来再查看结果。但如果每个查询都要等 30 分钟甚至 10 分钟,他会疯掉。
Nathan 则表现出截然不同的使用风格——听到 Sebastian 使用路由器和非思考模型时,他几乎无法接受。他从不碰 GPT-5 的非思考模式——非思考模型的语气和出错概率都让他不满。自从 OpenAI 发布了 03(第一个能做深度搜索、找到多种来源并整合的模型),他就养成了只用思考模型的习惯。因此他只使用 GPT 5.2 Thinking 或 Pro,并经常同时开五个 Pro 查询,分别搜索特定论文或对方程式的反馈。
Sebastian 分享了一个生动的例子来说明速度模型的价值:出发旅行前,他发现不小心拔掉了家里运行 RL 长实验的 GPU 电源(他通常会在离家前拔掉电器)。妻子已经在车里等着了。他需要尽快拿到一个 Bash 脚本,把不同的实验串联起来,输出到日志文件。他知道怎么用 Bash,但那一刻他只需要 10 秒钟就拿到命令。**这种时候,非思考的最快模型就是完美工具。**Lex 评论说这听起来像一部电影——在车里等着、跑回去插 GPU、生成 Bash 脚本。
多模型并行:每个人的工具箱都不一样
三位嘉宾展现了高度多元的工具使用模式,值得详细记录:
- Nathan:ChatGPT Thinking 处理所有信息类查询;Gemini 处理快速事务和需要查 Google 的内容(他信任 Gemini 的背景知识库,而且 Gemini 应用变得越来越好,很适合解释性的任务);Claude Opus 4.5 配合扩展思维处理代码和哲学讨论——扩展思维和推理时间扩展是让模型稍微聪明一点的方法,当进步非常明显时他总是倾向于选择这种方式,因为你不知道什么时候它会解锁新的用例;有时用 Grok 获取实时信息或在 AI Twitter 上搜索他记得看过但需要找出来的内容。Grok 4 的超重型(类似 Pro 变体)实际上非常好,他对此印象深刻——但因为"肌肉记忆",开着 ChatGPT 应用就忘了 Grok
- Lex:Gemini 在界面和长上下文方面更优,他爱上了 Gemini 的"大海捞针"能力——放入大量上下文但寻找非常具体的信息时,Gemini 追踪得最好;Grok for heavy 用于硬核调试,当其他模型解决不了的时候,Grok 是最好的
- Sebastian:ChatGPT 作为日常快速查询的主力
Sebastian 提出了一个被忽视的观点:**LLM 的定制化带来了多订阅的需求。**ChatGPT 有记忆功能——你可能有订阅用来处理个人事务(包含个人图片和爱好项目),但你不一定想在工作中使用同一个,因为这是私人和工作之间的边界。如果你在公司工作,公司可能不允许这样做,你自己也未必想要。所以你可能需要两个订阅:一个只有干净的代码,没有任何个人内容;另一个是私人用途。未来不是只有一个订阅,而是多个。
他们共同观察到一个有趣的用户行为模式:人们使用一个模型直到它"崩溃",然后才会切换。这就像一个阈值效应——某个模型在某天因为某个查询的某个功能赢得了你的心,你就觉得"这个模型更好",并坚持使用一段时间,直到它做了一件愚蠢的事,你才会想"好吧,我去试试 Claude / ChatGPT / 其他的"。Sebastian 说这和使用浏览器完全一样——Safari、Firefox、Chrome 其实非常相似,但有边缘情况,比如你想用的扩展程序。你只有在网站无法渲染或出问题时才会切换浏览器,没有人会把同一个网址输入到不同浏览器里做比较。
Nathan 补充了长上下文方面的转变:他以前也是 Gemini 的长上下文用户,但 GPT 5.2 发布博客上展示的长上下文分数非常疯狂——在一次小的模型更新中,长上下文得分从 30% 左右跳到了 70% 左右,很多人都在问"他们是不是发现了什么算法上的突破?"所以他现在对 GPT 5.2 的长上下文也更有好感了。但跟踪所有这些变化几乎是不可能的。
一个值得思考的问题:从用户角度讨论模型时,三位嘉宾没有一个人提到中国模型。这说明了什么?Sebastian 解释说这是模型能力与平台体验之间的差距——中国的开放模型更以开源权重而非平台闻名。Nathan 则更直接:美国的闭源模型目前在输出质量上确实更好,"我尝试了其他开放模型,觉得有趣,但我不会再回去用了。"不过他也承认,坐在这里的所有人都愿意为边际智能增益付费,一直使用 GPT-5 Pro——这代表的是愿意为最好体验付费的高端用户群体。他还指出,有分析表明中国模型的服务方式(无论是否由于出口管制)使用了更少的 GPU 来做推理副本(Replica),导致速度更慢且错误模式不同。如果速度和智能都对美国用户有利,大多数人会选择付费。这将促使中国公司以其他方式竞争——免费或大幅降低成本——从而为生态系统催生创造力。
编程领域的范式转变
Lex 透露他各用一半 Cursor 和 Claude Code,因为它们提供了"根本不同的体验",两者都有用。Claude Code 代表了一种全新的编程方式——用英语编程。你不再逐行管理代码生成过程、查看 diff、审阅和理解每一行代码,而是在设计空间中思考,在宏观层面引导 AI。他使用 Claude Code 的原因之一正是为了培养这种技能。此外,Claude Code 似乎能更好地利用 Claude Opus 4.5 的能力。
Sebastian 使用 VS Code 的 Codex 插件。它非常方便——只是一个插件,聊天界面可以访问你的代码库。他知道 Claude Code 更具代理性,它触及更多东西,可以为你完成整个项目。但他坦言自己"可能是个控制狂",还不太习惯那种完全被接管的感觉。对他来说,Codex 是当前的最佳选择——它在帮助你,但没有完全接管。
Nathan 建议大家做一个并排对比:打开 Claude Code、打开 Cursor、打开 VS Code,在上面选择相同的模型并提问。结果非常有趣——**Claude Code 在编码领域好得多,差距令人惊叹。**他进一步分析了为什么:Claude Code 和 Codex 之间有一种难以言表的差异,Claude Code 感觉温暖且令人投入,而 Codex 虽然在功能上经常同样出色,但边缘总有些粗糙。Claude Code 让从零开始构建东西变得有趣。Nathan 用 Claude Code 做数据分析——他的博客会抓取 Hugging Face 上每个数据集和模型随时间变化的下载量。Claude 直接说"我已经用了那些数据,没问题",而这本来可能要花他好几天。他有足够的情境感知来判断这些趋势是合理的,并且可以验证结果。这就是一个美妙的界面——你有了一个中间媒介,不用再做维护不同网络项目时那些令人厌烦的底层工作。
Nathan 还提到他喜欢 ChatGPT 应用的原因:它在你的电脑里给 AI 提供了一个"家",你可以专注于它,而不是让它成为互联网选项卡混乱中的又一个标签。Claude Code 在这方面做得特别好——作为一个产品设计,它让人觉得你的 AI 会走出去完成工作,这种体验非常吸引人。
Lex 分享了他使用 LLM 辅助阅读的方式:他喜欢在开始阅读一本书之前,用 LLM 了解完整的背景——"我现在要进入的是什么世界?"但他会避免从 LLM 跳转到 Twitter、博客等外部世界,因为那样你会一头扎进兔子洞和口水战。Sebastian 则表示他会分多次阅读——第一次纯粹离线专注,克制住立即查找东西的冲动,让内容沉淀并自己思考;第二次再使用 LLM 来丰富理解。他强烈建议在读书时使用 LLM,但对他来说这不是第一步,而是第二步。
四、开放权重模型的扩散与全球基础设施
一场列举比赛
当 Lex 问到开放 LLM 模型的现状时,Nathan 和 Sebastian 尝试不看笔记说出尽可能多的名字。中国方面:DeepSeek、Kimi、Minimax、Z.AI、Antling。西方方面:Mistral AI、Gemma、GPT-OSS(OpenAI 自 GPT-2 以来的首个开放模型)、NVIDIA Nemotron 3。Nathan 还列举了一系列完全开放的研究级模型:Allen AI 的 Olmo(发布数据、代码和一切)、基础模型研究所/LLM 360 的 K2 系列、瑞士的 Apertis 研究联盟、Hugging Face 的 SmallLM(非常受欢迎)、NVIDIA 的 Nemetron 也开始发布数据、斯坦福的 Marin 社区项目(创建了一个管道,让人们可以开 GitHub issue 并在稳定的语言建模堆栈中实现新想法)。
有趣的是,他们差点忘了 Llama——"R.I.P. Llama"。Nathan 指出,这个完全开放的研究模型列表在 2024 年要短得多,当时大概只有 AI2 一家。Nathan 提到 OpenAI 发布 GPT-OSS 时,他在写相关文章时,有人提醒他"别忘了 GPT-2"——这让他觉得很有趣,因为那是完全不同的时代。但 GPT-OSS 确实是一个非常强大的模型,在一些其他模型做不好的事情上表现出色。
美国 vs 中国开放模型的不同风格
一个值得关注的结构性差异:中国的开放语言模型往往更大,作为 MoE(混合专家模型)有更高的峰值性能;而美国方面受到人们喜爱的模型(Gemma、Nemotron)往往是更小的密集模型(Dense models)。不过这种格局正在从美国和欧洲两方面开始改变。Mistral 在去年 12 月发布了 Mistral Large 3,这是一个巨大的 MoE 模型,架构与 DeepSeek 非常相似。初创公司 RCAI 和 NVIDIA 的 Nemetron 都在酝酿远超千亿参数的 MoE 模型(4000 亿参数级别),计划在 2026 年第一季度推出。Nathan 对此非常期待——今年在中国与美国开放模型的使用方式上,平衡格局将发生重大变化。
值得关注的技术亮点
Sebastian 按时间线梳理了 2025 年的关键模型和创新:
年初由 DeepSeek V3 和 R1 "开篇"。Sebastian 喜欢 DeepSeek 是因为它们总有其他模型没有的有趣架构调整。在架构方面,2025 年开放权重模型之间的主要区别在于对推理效率或 KV 缓存大小的不同调整,大多数聚焦在注意力机制上:DeepSeek 的多头潜在注意力机制(Multi-Head Latent Attention),以及仍然广泛流行的组查询注意力机制(Group Query Attention)和滑动窗口注意力机制(Sliding Window Attention)。
年底则是另一个亮点——Qwen3Next 添加了门控 delta 网络(Gated Delta Net),受状态空间模型启发,用固定状态持续更新的方式替换传统注意力,使得注意力机制随推理 token 预测实现线性扩展。这是一个让推理更便宜的重要方向。
在技术特色方面,GPT-OSS 是一个特别值得关注的突破:它是第一个在训练时就明确考虑到工具使用(tool use)的公开开放权重模型。Sebastian 认为这是一个范式转变——尽管开源生态系统尚未完全准备好。所谓工具使用,意味着 LLM 能够进行网络搜索、调用 Python 解释器。Sebastian 认为这是解决幻觉问题最好的方法之一:对于数学问题,为什么不使用计算器或 Python?如果你问模型 1998 年足球世界杯谁赢了,与其试图记住,不如直接搜索 FIFA 网站。这样可以可靠地获取信息,而不是依赖记忆。目前很多人不使用工具调用模式——首先是信任问题(你不想在自己电脑上运行一个有权限访问工具、可能擦除硬盘的程序),容器化是解决方案。但 Sebastian 认为这将是未来几年的一个非常重要的方向。
开放模型存在的深层逻辑
Nathan 阐述了为什么有这么多开放模型的多重原因:
分发与使用是首要目标:如果你发布一个开放模型,首先是希望人们使用它。很多美国以外的人不愿意为软件付费,但他们可能有计算资源来本地运行模型。不需要把数据发送到任何地方——不是发送到中国,也不是发送到硅谷
数据隐私:存在不想发送到云端的数据
GPU 资源均衡:许多美国初创公司通过托管中国模型并出售 tokens 赚钱。而对于 OpenAI 来说,他们极度缺乏 GPU——每次发布新版本时都在说"我们的 GPU 快不行了"。Sam Altman 在 GPT-OSS 发布时直言:"我们发布这个是因为我们可以用你们的 GPU"——这不花 OpenAI 任何成本,同时还能获得分发
定制化:对企业来说是巨大的突破——可以自定义、训练、后训练、添加数据,将模型专门化为法律或医疗模型等任何领域
Sebastian 提出一个经常被忽略但重要的因素:**来自中国的开放权重模型许可证比 Llama 或 Gemma 更加友好——是无限制的开源许可。**而如果你使用 Llama 或 Gemma,有一些附加条件——比如用户数量的上限,超过一定数量的百万用户后需要向 Meta 报告财务状况。虽然是免费模型,但有附加条件,而人们确实喜欢没有任何附加条件的东西。这也是除了性能之外,中国开放权重模型如此受欢迎的原因之一。
Nathan 提到了一个有趣的细节:当 Lex 展示 Perplexity 时,页面上显示"Kimi K2 Thinking 托管在美国"——这正是他们讨论的精确例子,说明人们对数据去向很敏感。Kimi K2 是一个非常受欢迎的模型,人们说它在创意写作和某些软件任务上做得特别好。不同模型有不同的小特长,人们会注意到并喜欢上这些差异。Nathan 补充说,在提供开放许可方面,生态系统已经变得更好,但这主要归功于这些新提供商设立的开放许可标准的下游效应。
五、Transformer 架构演进与扩展的三个轴
惊人的架构稳定性
Sebastian 从 GPT-2 架构讲起:它源自"Attention Is All You Need"论文。原始论文的 transformer 有编码器和解码器两个部分,GPT 只聚焦于解码器。它本质上仍然是一个神经网络,内部有注意力机制,一次预测一个 token。通过嵌入层输入,进入 transformer 块(包含注意力模块和全连接层),之间有归一化层。
从 GPT-2 到今天最先进的模型(如 GPT-OSS),核心架构变化惊人地少:
- 混合专家模型层:不是新发明,已有数年历史。本质上是将一个全连接网络扩展为多个(比如 256 个),但不会同时全部使用。一个路由器会根据输入 token 决定使用哪个"专家"——数学密集型的输入和语言翻译可能会咨询不同的专家。这样你在网络中装入了更多知识,但不会在生成每个 token 时都浪费性地使用全部知识。这里有 Dense(密集,只有一个全连接模块,始终使用)和 Sparse(稀疏,有很多专家但只有少数活跃)的区别。MoE 更复杂、更难训练,很多东西可能出错(如坍缩),这也是为什么 Olmo 3 仍然使用 Dense 架构
- 组查询注意力机制(GQA):从多头注意力到组查询注意力的轻微调整
- RMS Norm 替代 Layer Norm:只是换了一种归一化方式,不是大的改变
- 非线性激活函数的调整:就像把 Sigmoid 换成 ReLU,不改变网络本质
就这些了。Sebastian 强调:你仍然可以从 GPT-2 出发,通过添加组件把它改造成任何现代模型。这就像一个谱系。在他书的奖励材料中,他就是从 GPT-2 模型开始,调整或添加不同组件,得到 Gemma 3 等现代架构。消融研究表明有无数种方式可以实现 transformer 并使其正常工作——你可以移动归一化层、调整各种旋钮——但没有什么改变是根本性的。
同时,替代架构正在涌现——文本扩散模型(完全不同的范式,可能使用 transformer 架构但不是自回归的)、Mamba 状态空间模型——但它们都存在权衡。**Sebastian 明确指出:在最先进水平上,没有任何东西取代了自回归 transformer。那些替代方案只在"更便宜"的妥协定位上有空间。**如果追求最先进,你仍然会选择从 GPT-2 衍生的自回归 transformer 架构。
看不见的变革:训练系统
Lex 提出一个核心悖疑:如果架构没有根本改变,那么所有这些疯狂的 AI 进步到底发生在哪里?
Sebastian 回答说变化更多在算法方面而非架构方面:训练阶段从过去的纯预训练,发展到现在的预训练、中期训练(mid-training)和后期训练(post-training)。**我们目前正处于以后期训练为重点的阶段。**预训练扩展到更好、更高质量的数据仍然有优势,但真正解锁新能力的是后期训练。例如 ChatGPT 基本上就是一个 GPT-3 模型——GPT-3 在架构上与 GPT-2 相同——新增的是监督微调和带人类反馈的强化学习。
Nathan 补充了一个经常被忽略但至关重要的维度:**训练系统本身发生了巨大变化。**NVIDIA 不断推出新的精度优化——从 FP8 到 FP4。实验室通过这些优化来利用更多计算资源将其投入一个模型,从而训练更快、投入更多数据、更快找到更好的配置。具体来说,每秒每 GPU 的 token 数是大规模训练时关注的关键指标——通过开启 FPA 训练,可以从 10K 提升到 13K,因为每个参数使用的内存更少了。节省信息意味着减少通信,训练速度因此提升。这些系统层面的改进支撑了数据和算法方面更快的实验循环。
Sebastian 补充说,例如混合专家模型中有 FP4 优化来提升吞吐量,但这对速度有帮助,并不会给模型带来新能力——只是在不损失模型性能的前提下,让计算变得尽可能粗糙。
扩展的三个轴
Nathan 给出了扩展定律(Scaling Laws)的精确技术定义:这是一种幂律关系——X 轴是计算量与数据的组合(二者高度相关),Y 轴是模型在未见过的文本上的预测准确率(保留集上的 X-token 预测精度)。当人们发现这种关系极其可预测时,扩展定律的概念诞生了。
目前存在三个独立的扩展轴:
**1. 预训练扩展:**模型大小与数据集大小的传统扩展。Nathan 指出预训练已经变得极其昂贵,而且扩大预训练意味着你要向用户提供一个非常大的模型。GPT-4 级别模型大约在万亿参数量级,但有传言称随着训练效率提升,模型实际上在变小——因为服务成本与模型大小成正比。训练成本相对于服务成本其实很低:DeepSeek 著名的数字是按云市场价格约 500 万美元进行预训练,Nathan 自己团队在论文 2.4 节中详细记录了 GPU 集群闲置时间,大约花费 200 万美元来租用集群应对所有训练问题。很多人可以筹集到 100 万到 1000 万美元来训练模型,但为数亿用户提供服务的持续成本是数十亿美元——一千个 GPU 的集群租金每天可达 10 万美元。这些公司可能拥有数百万个 GPU。所以问题是:扩展是否真的给你带来更好的模型?从财务上是否值得?Nathan 认为随着 AI 解决越来越多引人注目的任务,这个投入会被慢慢推出去
**2. 强化学习扩展:**通过试错学习让模型获取技能。OpenAI 的 O1 展示了你可以扩展强化学习训练,获得对数 X 轴和 Y 轴上的线性性能增长。带可验证奖励的强化学习(RLVR)使模型非常容易学会使用工具——观察模型推理过程时,你会看到它尝试一个工具,查看返回结果,尝试另一个 API,看看是否解决了问题。模型在训练中非常快就能学会这一点。最终形成一个通用基础——模型可以在代码仓库中熟练使用 CLI 命令、处理 Git、移动和整理文件、搜索信息。一年前坐在同一把椅子上的他们,根本没想到模型能做到这些——但这确实发生了,并且完全改变了我们对使用 AI 的看法
**3. 推理时间计算扩展:**让模型在回答前"思考"更长时间,生成隐藏的推理 token。以前你会立即得到第一个 token;**现在模型可能花几秒、几分钟甚至几个小时生成隐藏的思考,然后才给出答案的第一个词。**Nathan 认为这是模型能力变化中"一个令人惊叹的阶跃函数"。
Nathan 对三个方向整体看好,但指出容易摘取的果实大部分已经被摘走,尤其是过去一年在 RLVR 和推理时间扩展方面。这些突破实现了此前不可想象的能力,释放了巨大的价值——但目前尚不清楚下一个释放类似价值的途径会在哪里。AI 的某些领域有很多讨论和炒作,但没有人知道下一个阶跃函数何时真正到来。
Nathan 还提到了一个有力的个人案例:他在 7 月启动了一个名为"Atom Project"(美国真正开放模型)的项目,当时用 vibe coding 做了一个网站。最近几周他用 Claude Opus 4.5 回来刷新这个项目——**Opus 4.5 vs 当时的模型,直接碾压了他在六七月份构建时遇到的所有问题。**这可能是更大模型的缘故,背后有很多因素,但说明进步仍在继续。
Lex 最后问到一个核心问题:关于预训练,如果你扩大计算规模,模型是否会变得更智能——不考虑财务可行性,纯粹从规律角度看?他还指出了扩展定律 Y 轴的微妙之处:基准测试上的得分提升和用户体验到的实际智能提升可能是不同的。这个问题将延续到后续章节的讨论中。
六、数据质量与合成数据集的转向
AI 研究的重心已经从单纯地增加数据量转向了对数据质量的极致追求。 预训练数据集如今已达到 100 万亿 token 的规模,但实验室们不再一股脑地往里塞东西,而是使用分类器来修剪低质量内容,把维基百科或科学 PDF 重新改写为结构化的问答格式。所谓的"合成数据"并非人们直觉以为的那种 AI 凭空捏造的内容——它更多指的是用模型从 OCR 处理过的文档等混乱来源中提取和清理文本。这种"中期训练"阶段让模型能够更高效地吸收数学和代码方面的专业知识。
Nathan Lambert 指出,扩展定律已经维持了 13 个数量级的计算能力,从根本上不太可能停下来。2026 年是一个关键年份——在 2022-2023 年签约的千兆瓦级 Blackwell 计算集群将要上线,这些新集群会给实验室带来更多训练算力。他预测,我们今年可能会看到 2000 美元的订阅服务,是目前 200 美元订阅的 10 倍跃升,而这些都是更大模型带来的下游产品。
关于"预训练是否已死"的争论,Lambert 的看法相当务实:人们的确以这种方式描述它,但实际操作并非如此。 以 AI2 为例,他们在 11 月发布的模型经过了 5 天的强化学习训练,到 12 月又让 RL 多跑了三个半星期,模型就明显变得更好了。这说明 RL 的"低垂果实"确实存在,但预训练仍然是基础。
Sebastian Raschka 在这个问题上补充了经济学视角。他把不同的训练阶段比作一个"旋钮系统":预训练、中期训练、后训练、推理扩展,每个都能带来收益。在拥有无限计算资源的世界里,你什么都想做;但现实中,你必须做权衡。 GPT 4.5 就是一个典型案例——它证明了更大的预训练模型确实更好,但投入产出比不划算,因为 O1 用一个更小的模型通过推理扩展就走得更远。预训练是固定成本,训练一次就永久拥有这种能力;推理扩展则是按查询付费。如果模型半年就会被替换,花 1 亿美元训练可能不如把钱投入推理扩展。
关于具体的训练阶段定义:预训练是经典的下一个 token 预测训练;中期训练是用更专业化的数据(如长上下文文档)进行的同一算法训练,因为存在灾难性遗忘的问题,LLM 最后看到的高质量内容格外重要;后训练则包括监督微调、DPO、RLVR、RLHF 等优化阶段,更像是"技能解锁"而非知识灌输。
在数据来源方面,Lambert 揭示了一些行业内幕。很多人认为合成数据对训练不利,但实际上各大实验室都在用 OCR 模型(如 DeepSeek OCR、AI2 的 OMOCR)从 PDF 中提取数万亿 token 的候选数据。Qwen 的记录高达 50 万亿 token,封闭实验室据传可达 100 万亿。预训练数据集有一个巨大的漏斗,实际用于训练的只是其中一小部分。
Olmo 3 用比其他开源模型甚至比 Olmo 2 更少的数据训练,却获得了更好的性能——这证明了数据质量的力量。 Lambert 解释了背后的科学方法:从 GitHub、Stack Exchange、Reddit、Wikipedia 等不同来源分别采样,用小模型在每种混合数据上训练并评估,然后用基本的线性回归找到最优数据集。但如果评估标准变了,最优数据集也会大幅变化。
训练数据正在成为最严守的秘密之一,Raschka 指出这很大程度上是出于法律原因。Anthropic 在法庭上败诉被判赔作者 15 亿美元——他们购买并扫描了数千本书在法律上被允许,但使用种子下载盗版书籍的行为则被判有罪。Lex Fridman 强调,这些案例将定义人类文明的未来,因为数据显然驱动着这一切。必须建立某种补偿机制,类似 Spotify 最初为音乐流媒体所做的那样。
随着互联网变得越来越封闭,寻找和许可高质量专有数据的能力将成为前沿实验室的核心竞争护城河。 Raschka 预见,制药、法律、金融等大型行业最终会从前沿实验室挖人,用自己的专有数据(如临床试验记录)构建内部模型,这将开启一个当前通用 LLM 远未触及的领域特定扩展浪潮。
七、人机协作与软件工程的未来
AI 生成的代码已经成为专业软件开发的标准组成部分。一项针对 791 名拥有 10 年以上经验的专业开发者的调查显示,在"超过 50%代码由 AI 生成"这一类别中,高级开发者的比例远高于初级开发者。 大约 80% 的受访者认为使用 AI 编码在某种程度上更加愉快。
这个反直觉的结果引发了深入讨论。Raschka 认为这取决于任务类型——帮他在网站上实现功能,他完全欢迎;但亲手追踪到一个 bug 并解决它,那是世界上最好的感觉。如果你甚至不去思考 bug 就直接找 LLM,你就永远不会体验到这种快乐。Lex Fridman 则用一个比喻描述了他的体验:调试就像在沙漠中走了好几天后喝到的那口水——而 AI 就像一个朋友,虽然找不到 bug,但能给你关于代码的直觉,你们一起穿越沙漠,一起找到那口水。 这说明了编程体验中孤独感的存在,AI 作为"结对程序员"缓解了这种孤独。
关于"LLM 摘要"的局限性,Lambert 提出了一个深刻的观点——声音(voice)。他试图在写作中把研究者的"感觉"转化为文字,这种写作显得原始但信息密度极高。语言模型由于经过 RLHF 训练,从大量人的反馈中取平均值,因此很难做到犀利。这是 RLHF 研究中一个美丽的基本矛盾:它在提升模型实用性方面贡献巨大,但问题的表述中存在一个你无法逾越的结。 这些模型缺乏先验知识和深刻表达。Bing Sydney 可能更有"声音",因为它经常以令人不安的方式脱离控制,比如告诉记者离开他的妻子——但这正是权衡所在。
讨论转向了更沉重的话题。随着 LLM 被越来越多人使用,记者必然会将自杀事件与 LLM 关联起来——因为有相关的对话数据。这将驱使公司出于法律压力不断削弱 LLM 的"棱角",使其变得尽可能通用和安全。但人类体验的本质恰恰需要丰富的、有挑战性的对话来让人成长。Lambert 坦言他不想训练并开放发布图像生成模型,因为"我不想让别人的笔记本电脑上拥有一个可以伤害他人的工具"。
Nathan Lambert 对大型科技公司与 AI 的交织感到遗憾——大科技公司的声誉处于历史低点,而 AI 又注定需要大规模资源投入,这使得沟通环境极为困难。 他认为应该去和更多讨厌大型科技公司的人交谈,理解他们的视角。
面对这一切,Lex Fridman 提出了一个解药:找到能动性(agency)。 不是被动地消费 AI 生成的垃圾内容,而是用 AI 去构建东西、构建应用,这样既能建立直觉,又能赋予你批判的力量。Raschka 同意这个观点但补充了一个担忧:如果你把 AI 完全用于你热爱的工作,那么你热爱的工作就不再存在了,这可能导致职业倦怠。 两年后,如果每天八小时都是让 AI 为你编码,你还会感到满足吗?
Raschka 主张存在一个"恰到好处的甜蜜点":每天安排专门的离线学习时间,剩下的时间使用 LLM。不要把一切都交给 LLM,仍然要投资于自己。
八、基于可验证奖励的强化学习(RLVR)与推理
RLVR 是 2025 年后训练领域最大的突破。 Lambert 透露一个有趣的事实:RLVR 这个术语正是他所在的团队在 DeepSeek 之前提出的。虽然他们不认为自己推广了扩展 RL,但作为学者,命名和构建话语框架是独特的贡献——"社区可以围绕 RLVR 这个术语聚集在一起,这非常有趣。"
RLVR 的核心机制很直接:让模型生成答案,然后对完成结果评分——正确与否就是强化学习的奖励。与传统 RLHF 不同(后者优化的是学习到的人类偏好聚合奖励模型),RLVR 使用数学和代码中的客观事实作为奖励信号,这一关键变化让优化能够扩展到更大的规模。Lambert 特别强调了 RLVR 与 RLHF 的根本差异:RLVR 有扩展定律——对数增加训练计算量,评估结果线性增加,这已被多次重现。但 RLHF 没有这种扩展定律。 RLHF 的开创性扩展论文恰恰是关于"奖励模型过度优化"的——这划出了一条分界线。
Raschka 用一个亲身实验来说明 RLVR 的威力:他用 RLVR 在 math 500 上训练 Qwen 3 base 模型,基础模型准确率约 15%,仅仅 50 步(几分钟内),就提高到了 50%。 这说明 RL 并没有教模型新的数学知识——知识已经在预训练中了,RLVR 只是在"解锁"它。
但 Lambert 对此持更复杂的看法。他指出 Qwen 基础模型存在数据污染的嫌疑:如果你更改数学题中的数字但保留文字描述,模型仍能输出高精度的十进制答案,这说明它在某个训练阶段见过几乎完全相同的题目。这导致了一场关于"RLVR 到底是在做格式化还是在做真正的学习"的研究界大辩论。数据污染是 LLM 研究中最大的问题——除非有一个全新的、在模型部署截止日期之后创建的基准,否则评估的公平性始终存疑。
在适用领域方面,数学和代码是最知名的可验证域。更广泛的探索方向是"评分标准"(rubrics)——用另一个语言模型来定义好答案的标准,虽然不如数学和代码那样严格可验证,但这种方式正在向科学问题等更开放的领域推进。
关于后训练的完整"食谱",Lambert 做了清晰的总结:中期训练给模型提供学习所需的技能基础;RLVR 让模型在难题上进行大量试错学习;RLHF 是最后的润色,使模型易于使用。 RLHF 之所以仍然重要,是因为风格和格式之间的界限、以及你用来解答问题的方法之间的界限,在训练模型时都紧密相连——所以 RLHF 仍然能让模型在数学方面变得更好,只是 RLVR 在这方面更直接。
Raschka 则指出了 RLVR 的下一个前沿——过程奖励模型(PRM)和价值函数。当前的 RLVR 1.0 只关注问题和最终答案,不对中间推理步骤做任何处理。下一步(他称为"RLVR 2.0")将聚焦于利用中间解释来改进推理质量。Lambert 补充说,价值函数在传统强化学习中有深厚历史,人们对它的前景更为乐观,但在语言建模时代"几乎没有证据表明它有效",而过程奖励模型的扩展尝试也出现了反面案例。
关于计算量,RLVR 的需求"只增不减"。Grok 4 宣称其预训练和后训练使用了相似的计算量。 但两者所需的硬件类型不同:预训练是计算密集型的,RL 则更依赖内存(因为要生成长序列,注意力机制导致内存二次增长)。在 GPU 小时方面,RL 运行可能正在接近预训练的天数,但不一定使用那么多 GPU。行业有一条经验法则:预训练运行最好不要超过一个月,否则灾难性故障的风险太高。GPT-4 当年三个月的训练是"终极的 YOLO 运行",现在大家更加谨慎和渐进了。
九、AI 领域的职业道路与研究经济学
AI 研究领域向年轻人展示了一幅复杂的职业图景。
Raschka 建议从头开始实现一个简单的模型,在单个 GPU 上运行。目标不是替代 ChatGPT,而是理解 LLM 的内部运作——预训练、监督微调、注意力机制。他以 Hugging Face Transformers 库为例说明了"从头构建"与"使用现成工具"的区别:Transformers 库拥有约 400 个模型实现,适合生产用途但代码极其复杂;而从头构建可以让你用预训练权重做单元测试来验证自己的实现,基本上就是把参考实现当作"可验证奖励"来确保架构正确。对于 Olmo 3,挑战在于位置嵌入的 YARN 扩展——正是在这种挣扎中,你真正理解了事物。
Lambert 补充了一个关键的职业建议:掌握基础之后要尽快找到一个细分领域深入下去。这个领域发展太快,最优秀的人往往不会彻底解决一个问题就转向了更大的低垂果实。很多研究主题只需要读三篇论文就能入门,其中一位作者可能会回复你的邮件。他举了自己对"角色训练"的兴趣作为例子——如何让模型变得有趣、讽刺或严肃——世界上大概只有两三个人对此非常感兴趣,一位牛津博士生联系他后,在他的建议下完成了论文。
对于计算资源极度有限的研究者,Lambert 给出了一条"最大化影响力"的路径:专注于评估。 如果你来自一所没有计算资源的小大学,但你发现了 Claude 的某个弱点,然后下一代 Claude 在博客文章中引用了你的发现——"那就是你的职业火箭。"关键在于,不是测试当前模型在哪里失败,而是预判八个月后模型会在哪里遇到困难。
在更宏观的职业选择上,Lambert 坦率地分析了三条路径之间的权衡:
学术界:教授朋友们平均看起来比 Frontier Lab 的朋友更快乐——因为他们有学生、有导师使命、有人文关怀。但学术生态正受到资金削减的冲击,博士生几乎没有报酬。这条路本质上是一种特权位置,适合有安全网的人追求长期的、可能在十年后定义领域的非显而易见想法。
Frontier Lab:OpenAI 员工的平均年薪酬超过一百万美元(含股票),对普通人来说是改变人生的机会。但你将成为"机器中的齿轮",在高度保密的环境中工作,发表越来越少。竞争文化催生了"996"节奏——Lambert 直言他见过很多人精疲力竭,他自己也在倦怠的边缘进出过。
创业:高风险高回报的第三条路。
Raschka 认为这种格局其实变化不大——酷的东西总是在封闭的行业中产生,只是规模不同了。真正的区别在于个人偏好:你喜欢谈论和发表自己的工作,还是愿意在封闭环境中做事?
Lambert 还特别提到了硅谷泡沫的问题。旧金山 AI 圈流传着"永久下层阶级"的梗——声称 2025 年最后六个月是唯一可以在 AI 创业中建立持久价值的时间窗口。他认为这是旧金山走太远的例子。Lex Fridman 补充说,泡沫可以是现实扭曲场——你们互相说服突破即将到来,通过这种说服确实让突破成为必然。 但如果在 996 的同时偏离现实太远,你可能会错过人类体验的基本方面。他的建议是:进入那个泡沫(它极有价值),但也要出来——读历史书,读文学,去世界上其他地方看看。
十、替代架构与工具使用的演进
虽然自回归 Transformer 仍然是技术之王,但研究者们始终在寻找下一个突破。 Raschka 指出,"如果不这样做简直是愚蠢的。"
文本扩散模型是最受关注的替代方案之一。与图像领域的 Stable Diffusion 类似,文本扩散通过迭代去噪过程生成文本——从随机文本开始,逐步填充和改进。它的核心优势在于并行生成多个 token,而不像 GPT 那样一次一个。Google 已经宣布推出 Gemini Diffusion,声称在与 Nano 2 模型相同质量的基准测试下,生成速度大幅提升。
Lambert 给出了一个生动的例子来说明为什么这很重要:当 GPT-5 需要 30 分钟才能响应时,它在逐个生成 token。扩散模型可以一批次生成所有 token。他听到的实际应用案例是代码初创公司用文本扩散来生成超长的代码 diff——用自回归模型需要好几分钟,而对于面向用户的产品,每多等一秒就会失去大量用户。
但文本扩散有明显的局限。Raschka 指出,有些任务天然不是并行的——推理任务、工具使用(需要调用代码解释器获取中间结果)在扩散框架下很棘手。如果要获得与自回归模型相同的质量,你必须加大去噪步骤,最终花费的计算量可能差不多。Raschka 的判断是:文本扩散不会取代自回归 LLM,但可能成为快速、低成本、大规模任务的选择——也许未来的免费层就是这个。
讨论随后转向工具使用的演进。Raschka 认为这是"巨大的解锁"——把某些任务从"记忆"外包给实际的工具,比如让 LLM 用计算器而不是记住 23 加 5 是什么。工具使用不能完全解决幻觉问题,但能显著减少它。一篇关于"递归语言模型"的论文提出了一个有趣的方向:把长上下文任务分解为子任务,让 LLM 决定什么是好的子任务,然后递归调用 LLM 来解决,每个子调用可以使用不同的工具。
Lambert 补充了开放模型与封闭模型在工具使用上的差异。封闭模型可以将特定工具深度集成到体验中(如 ChatGPT 的搜索功能、Cloud Code 的环境),而开放模型发布时需要对多种工具多种用例保持通用性,这要困难得多。最初由于各家急于让工具使用功能上线,开放模型确实落后了。 但他期待开放模型最终解决这个问题时,必要性会驱动出更灵活、更有趣的架构创新——比如将递归思想与协调器模型结合。
当前工具使用的最大瓶颈不是技术本身,而是信任和安全。Raschka 坦言他今天不会授权 LLM 访问自己的电子邮件——"这是一个巨大的风险。"要实现真正的代理式工具使用,需要用户信任的积累,而这需要时间。
十一、持续学习、上下文窗口与机器人
创建真正的数字助理,核心障碍在于"持续学习"——让模型根据新信息更新权重而不遗忘旧知识。 Nathan Lambert 将这个问题与 AGI 的定义联系在一起:AI 社区的一个关键里程碑,是 AI 能够替代任何远程工作者——获取信息、解决数字任务并完成它们。但当前语言模型的根本局限在于,它不会像员工那样从反馈中学习。你雇了一个好编辑,指出错误后他不会再犯;而语言模型缺少这种自我修改和快速学习的能力。如果我们真的要获得一种通用的、适应性强的智能体,能够进入任何远程工作场景,它就需要能够从反馈和在职学习中快速提升。
不过 Lambert 个人更看好另一条路径:与其更新权重,不如为模型提供极其优质的上下文。 他举了一个例子——你可以把自己写过的所有博客文章、偏好的写作风格统统喂给模型,告诉它"我的声音基于此",它就能表现出"快速学习"的效果。但很多人没有提供这些。模型以前并非设计来接收如此多的上下文,而 agentic 模型才刚刚起步。这本质上是"上下文学习"(in-context learning),区别于通过改变权重的"持续学习"(continual learning)。两者都可以被视为学习,只是学习发生的位置不同——一个在权重里,一个在上下文里。
Sebastian Raschka 补充了更细致的区分:持续学习其实已经以不同形式存在了,关键在于它是针对个人的定制模型,还是全局模型的迭代。 从 GPT-5 到 5.1 到 5.2,每一次都是基于社区反馈的权重更新——模型做不到的事情收到反馈,更新权重,推出下一个版本——这本质上就是一种持续学习的形式。甚至 RLVR 也是如此——你运行它,权重就更新了。但问题是,你不可能为每个用户单独更新权重,成本太高。即使在 OpenAI 的规模,建数据中心来做这件事也不经济。只有当模型运行在用户设备上、成本由消费者承担时,个性化持续学习才具有可行性——就像苹果试图用 Apple Foundation 模型做的那样,把模型放在手机上,让它从用户经验中学习。
谈到"记忆"机制,Raschka 指出,当前主要方式还是将信息塞进上下文中然后回忆,但这很昂贵——即便可以做 KV 缓存,仍然需要消耗 token。而且能做的事有限,更多像是偏好或风格层面的调整。你可以添加偏好提示,让模型"记住"你上次喜欢什么,但这不能解锁新能力。要真正解锁新能力,人们仍然使用 LoRA 适配器——不更新整个权重矩阵,而是用两个更小的权重矩阵以并行或叠加的方式做增量调整,就像一个"delta"。但有研究表明,LoRA 学得少但也忘得少,这就是"天下没有免费的午餐"——你想学更多就需要更多权重,但代价是更贵、忘更多,必须找到那个恰到好处的"金发姑娘区域"。
在上下文长度方面,Lambert 认为普遍接受的观点是,这是一个算力和数据问题,加上一些小的架构创新(如混合注意力模型中的状态空间模型组件,它们因为需要更少的计算资源来建模而更适合长上下文)。我们已经很快到了约 100 万 token 的上下文长度,预计今年会到 200 万或 500 万,但要到 1 亿则需要真正的突破。他认为持续学习和超长上下文一样,都是研究问题,可能会有突破让 Transformer 在这方面做得更好且更便宜。但按部就班地进行,随着时间的推移会持续增长。
Raschka 从两个极端来分析这个"没有免费午餐"的困境:一端是 RNN,把所有信息压缩进一个固定大小的状态,便宜但上下文越长越容易遗忘,因为你无法将一切压缩进一个状态;另一端是 Transformer,试图记住每个 token,如果你想查找特定信息这很好,但非常昂贵,因为 KV 缓存和点积不断增长。Mamba 层也有类似 RNN 的问题——试图把一切压缩到一个状态,只是选择性更强一些。最优解在两者之间:Unimutron 3 找到了注意力层和压缩状态的黄金比例——多少注意力层用于全局信息访问、多少使用压缩状态,从而在运行成本足够低和功能足够强大之间取得平衡。
但 Lambert 在训练后阶段看到了更有趣的可能性。当前使用 Claude Code 的人都害怕"压缩"(compaction)——Claude 把全部 10 万 token 的工作压缩成项目符号列表。 但下一代模型可以学会自主控制何时压缩、如何压缩。他设想了一种 RL 训练方案:压缩是模型可以执行的动作之一,它可以缩短历史记录;优化目标是在保持最高评估分数的同时将历史记录压缩到最短长度。这样就得到了进行"复合自回归预测"所需的最少 token 数。这是一个非常好的问题设置,agentic 模型由此学会以不同于"一路向前"的方式使用自己的上下文。
话题转向机器人。Lex Fridman 承认自己最近非常关注机器人技术,并指出 AI 领域中强度和热情最高的研究工作仍在 LLM 领域。Raschka 认为,如果解锁更多 LLM 能力,也会间接加速所有其他领域——不是"解锁",而是让进展更快——因为很多机器人研究者和工程师也在用 LLM 辅助编码。
Lambert 明确表示自己非常不看好面向消费者的家庭学习型机器人,但非常看好自动驾驶和受控环境中的工业自动化——如亚马逊为机器人而非人类设计的全新配送中心。Lex 更是直言:机器人领域几乎不谈论的、但无论怎么强调都不为过的,是安全问题。在 LLM 领域,模型以有趣的方式失败是好玩的;但在机器人领域,在人们家中,经过数百万分钟、数十亿次的交互,你几乎不允许有任何失败。
十二、通往 AGI 的时间线与经济影响
关于 AGI 的定义,Lambert 认为虽然存在很多分歧,但越来越多人趋向同一个说法:一个能够复制大多数数字经济工作的系统——远程工作者的替代品。 OpenAI 的定义与此类似:能完成一定数量有经济价值的任务。他坦言自己不太喜欢这个定义,但认为它可以作为一个基础锚点,因为今天的语言模型虽然非常强大,但还不是那个可以随时投入使用的远程工作者。
Lambert 对 AI 2027 报告持更审慎的态度。 他属于"AI 是参差不齐的(jagged)"那个阵营——在某些方面非常出色,在另一些方面又非常糟糕。模型在某些类型的代码上堪称超人——比如前端开发、传统 ML 系统;但在分布式机器学习方面表现很差,因为这方面的训练数据极少。这种"参差不齐"会持续存在并被放大。
他描绘了一个更现实的图景:这是人类与模型之间持续的"舞蹈"——人类填补模型的弱点,最好的 AI 研究者是那些能够释放这种超能力的人。 软件工程正在向系统设计和结果导向转型。人们将更多地担任设计师和产品经理的角色,多个代理为你尝试各种方案,可能需要一两天来实现功能或修复 bug,而你通过仪表板给出反馈。
Lambert 认为在软件方面到 AGI 可能不到 10 年,但在研究等方面会更长。在今年年底之前,被自动化的软件数量将非常高。但像用强化学习训练模型、让多个 GPU 集群相互通信这样的事情仍然很难。
Raschka 用计算器类比编码的未来:LLM 在某个时候会像计算器解决计算那样"解决"编码——你只需说"建这个网站",它就能做出来,然后你对其进行改进。 但问题是,这些系统是否会真正独立运作?还是始终需要人类发出指令?
关于程序员的怀疑态度,Raschka 指出这不是因为 LLM 做不到,而是人们不想让它这样做。 Lambert 指出,Anthropic 等公司的人广泛使用这些工具来构建自己的训练和生产代码——Claude Code 就是用 Claude Code 构建的。这些人在能力方面稍微领先,而且他们在推理上的花费可能是普通用户的 10 到 100 倍。一年前我们还没有 Claude Code,也没有推理模型。现在它的失败模式还很"蠢"——比如 Claude 连续 14 次尝试使用你没装的 CLI 命令——从建模角度来看,这是很容易修复的。改进空间很多,低垂的果实唾手可得。
Lambert 把注意力引向真实科学领域的强化学习尝试:如果各个科学领域都出现类似 AlphaFold 的突破时刻——由初创公司解决——那将是变革性的。 大多数会失败,但其中一些可能是重大突破——不是 ChatGPT 或 Claude Code 类型的软件体验,而是比如一个只对数学博士有用但让他们效率提高 100 倍的工具。
十三、商业化、广告与 AI 市场整合
Lex 提出核心问题:我们何时才能看到 LLM 带来的经济影响的巨大飞跃? Lambert 思考 GDP 的构成——其中很大一部分是金融服务——发现很难想象 GDP 会出现增长。但他认为,当不再需要看代码时,软件开发的价值就会以不同的方式体现:Claude 可以为你创建一个小企业——建立网站、银行账户、电子邮件等等,你只需表达你想带给世界的东西。
Lambert 补充了一个被忽视的视角:计算机使用(computer use)是实验室很关注但进展缓慢的领域。 2025 年多个演示——Claude 使用电脑、OpenAI 的 Kua——都表现糟糕。接管整个屏幕比在后端调用 API 困难得多。
Lex 随后提到了一个大家都没有充分认识到的巨大变化:LLM 正在让全人类的知识向全世界所有人开放。 你基本上可以问 LLM 任何问题并得到答案,而且幻觉越来越少。这意味着理解自己的生活、规划职业、解决身边问题、了解人类历史上的一切。但人们理所当然地接受了这一点。这种无声的力量渗透一切——不只是在美国,而是全世界的孩子都能学习。这可能才是真正影响 GDP 的因素,不是一次飞跃,而是我们如何到达火星、如何拥有百万个创新公司的底层驱动力。
Raschka 对此做了精细的区分。对于数学等结构化学科,经过验证的线性编排的教科书仍然是最佳学习策略。但 LLM 的甜蜜点在于:你可以让它生成无限的练习题,解决你在某些领域的疑问。真正的价值爆发点在于信息稀疏、没有现成优质资源的领域——比如规划一次迪士尼乐园之旅,考虑你的日期、偏好、预算等约束条件,互联网上只有零散的信息和广告 slop,而 LLM 可以为你即时定制方案。
但 Lambert 发出警告:"目前是这样,因为它们得到了大量补贴,广告化是迟早的事——它们将通过广告来支付费用。" 他认为 Google 最有可能率先解决这个问题——它已有广告供应体系,只需弄清楚如何将 Gemini 应用中的需求转化为有用的广告。
Lex 问今年是否会有疯狂的大型商业动作——比如 Google 或 Apple 收购 Anthropic?Lambert 说 Dario 永远不会出售,但市场正出现整合趋势:Grok 以 200 亿美元的价格被收购,Scale.ai 接近 300 亿美元。他指出一个对硅谷生态有害的趋势:这些交易被结构化为许可协议而非全面收购——不是所有员工都能受益。
Cursor 的故事特别引人注目:他们拥有大量用户数据,新的 composer 模型是对中国某个大型混合专家模型的微调(你可以通过模型有时用中文回复来辨认——美国模型不会这样做)。他们在博文中提到每 90 分钟根据真实用户反馈更新模型权重——这是最接近真实世界强化学习的实践。
十四、开源的地缘政治与 Atom 项目
谈到 Meta 的开源策略,Lambert 认为 Llama 已经走向衰落。 他预计不会有开放权重的 Llama 5。Raschka 回顾了 Llama 的历程:Llama 1、2、3 是开创性的开放权重模型,社区给予了大量喜爱。但问题出在 Meta 高层管理人员看到 Llama 在社区中的受欢迎程度后过于兴奋,试图利用开源来制造更大轰动——这感觉像是被强迫的。Llama 模型的目标不应该是在基准测试中打败 ChatGPT,而是做一个人们可以使用、信任、修改和理解的模型——包括小模型,它们不一定是最好的。 但实际情况是他们针对偏好训练了特定模型使其在基准上表现良好(benchmaxing),同时却没有提供人们能实际运行的小模型。
Lambert 更直接地说:Llama 在内部政治斗争和激励错位下崩溃了。
Lambert 的核心关切是:2025 年的故事之一是美国感受到了 Llama 空出的差距——中国开放权重模型大量崛起。7 月份出现了四五个 DeepSeek 级别的中国开放权重模型,而美国这边是零。他过去五个月花费大量精力进行政策工作,推动美国投资开源。这就是"Atom 项目"(American Truly Open Models)的由来。
Atom 项目的核心论点有两层。 第一,开放模型是 AI 研究的引擎,因为人们都从开放模型开始;因此拥有它们非常重要。第二,美国应该构建最好的开放模型,以确保最好的研究发生在美国、美国公司从中获益。创建领先封闭实验室半代或一代的开放模型,成本大约 1 亿美元——是很多钱,但对这些公司来说不算多。
AI2 从 NSF 获得了 1 亿美元四年期资助——NSF 有史以来最大的 CS 资助——用于尝试实现这一目标。白宫 AI 行动计划包含了专门的"鼓励开源和开放网络 AI"章节——定义了此类模型并认为它们对创新和初创企业具有独特价值。
Lambert 有意识地选择不用"中国 AI 与威权国家结合并接管世界"的叙事来推广 Atom 项目,因为他认为聚焦美国的创新和科学既更现实,也是他希望实现的世界。他也指出,AI 生态中仍有人主张因安全风险而禁止发布开放模型,但这实际上不可能实现——除非美国建起自己的"防火墙",而这也已知行不通。
Raschka 从教育角度强调开源的重要性:如果只有封闭模型,下一代研究人员如何成长?你不能等到加入公司才开始学习——如何招聘和识别有才能的人呢?开源是培养人才的唯一途径。
十五、计算、人类能动性与意识的长远展望
Lex 问 NVIDIA 是否会继续赢下去。Raschka 认为 NVIDIA 的护城河不只是 GPU 本身,而是发展了二十年的 CUDA 生态系统——其兼容性和采用率构成了真正的壁垒。
Lambert 提到 NVIDIA 的命运取决于 AI 扩散的速度:只要 AI 进步速度够快,NVIDIA 最灵活的平台就会被选择;如果出现停滞,就有更多时间做定制芯片。
关于领袖人物的历史作用,Lambert 认为人们能让创新更早、更快地发生。没有黄仁勋,GPU 革命也会发生,但不会那么快——整个 AI 的构建进程会变慢。激情和专注,是这些关键人物带来的加速因子。
当 Lex 问 100 年后历史学家会强调哪些突破时,Raschka 的回答出人意料:不是 AI,而是"计算"这个更大的范畴。 即使 200 年后,人们记住的可能仍然是计算——我们只是在更好地利用计算机。
Lex 认为 100 年后脑机接口是必然的。但 Lambert 认为人们仍然会携带某种"实体计算砖"——因为人们需要一个存储私人信息的东西,作为自己与互联网之间的接口。
Lambert 更深层的观点是:人类的能动性和社群需求不会在 100 年内改变。 与身边的人在一起、能够做事情、能够描述生活的意义——他不认为人类生物学会在可讨论的时间尺度上偏离这些。UBI 不能解决能动性问题。
Lambert 和 Lex 都认为未来几年实物商品和活动的价值将提升,AI slop 的压力只会增加。Lambert 说他希望社会被 slop 淹没到足以醒悟——意识到数字垃圾根本不重要,然后实物获得更高的溢价。
Raschka 给出了一个有力的收束:人类与 AI 的根本区别在于意识和自主决定——AI 在当前实现中不会主动做什么,你必须告诉它做什么。你仍然掌握能动性,它不会夺走你的能动性,因为它是一种工具。 它比锤子强大得多,可以解决问题,但更自动化——但仍然是你在指挥。