Dwarkesh and Ilya Sutskever on What Comes After Scaling - 主题精读稿

2026年2月2日

Dwarkesh and Ilya Sutskever on What Comes After Scaling - 主题精读稿

原始播客：The a16z Show / Dwarkesh Podcast 嘉宾：Ilya Sutskever（SSI联合创始人）主持：Dwarkesh Patel 发布时间：2025年12月15日

前言：当规模化遇到瓶颈 (00:00 - 06:10)

Ilya Sutskever开场即抛出一个发人深省的观察：当前AI领域已进入一个奇特的阶段——公司的数量远超想法的数量。硅谷有句老话"想法廉价，执行为王"，但有人在Twitter上反问：如果想法真那么廉价，为什么没人有想法？

这场对话的核心问题是：AI模型在基准测试上表现惊人，为何实际经济影响却大幅滞后？Sutskever认为这种脱节暴露了当前技术路线的根本问题。他预测AI将从"规模化时代"回归"研究时代"——但这次配备了强大的计算资源。

一、AI悖论：惊艳测试vs糟糕表现 (00:00 - 06:10)

Dwarkesh首先提出一个令人困惑的现象：我们正在将GDP的1%投入AI，这本应是一件大事，但缓慢的起飞让一切感觉如此正常。

Sutskever回应说，我们确实很快就习惯了事物。但这也因为目前的影响是抽象的——"某某公司宣布了某某金额"，你在新闻中看到，但并没有在其他方面真正感受到。不过他预测，AI的影响将会被感受到。AI将扩散到整个经济，有非常强大的经济力量推动这一点，影响将会非常强烈。

Dwarkesh追问：模型似乎比其经济影响所暗示的更聪明，你预计这种影响什么时候到来？

Sutskever坦言，这是当前关于模型最令人困惑的事情之一：如何调和它们在评估中表现如此出色的事实，而经济影响却似乎大大落后。他举了一个生动的例子：

你用vibe coding做了一些事情，遇到了一个bug。你告诉模型"请修复这个bug"。模型说："天哪，你说得太对了，我有个bug，让我去修复它。"然后它引入了第二个bug。你告诉它有第二个bug。它说："天哪，我怎么会犯这种错？你又说对了。"然后它恢复了第一个bug。你可以在这些bug之间来回循环。这怎么可能？

对于这种脱节，Sutskever提出两种可能的解释：

第一种解释（比较异想天开）：也许强化学习训练让模型变得过于单一和狭隘，过于迟钝——尽管它在其他方面也让模型变得更敏锐。因此它们无法完成基本的事情。

第二种解释更具系统性：在预训练时代，"用什么数据训练"这个问题的答案是"所有数据"。你不需要考虑是这个数据还是那个数据。但当人们进行强化学习训练时，他们确实需要思考。他们会说："我们希望针对这个东西进行这种RL训练，针对那个东西进行那种RL训练。"

据Sutskever所知，所有公司都有团队专门生产新的RL环境并将其添加到训练组合中。问题是：那些是什么？自由度太多，可以创造出各种各样的RL环境。人们往往无意中从评估测试中获取灵感。你会想："我希望我们的模型在发布时表现出色，我希望评估看起来很棒。什么样的RL训练可以帮助完成这项任务？"

他认为这确实在发生，结合模型泛化能力实际上不足的事实，这可以解释我们所看到的大部分情况——评估性能与实际真实世界性能之间的脱节。

二、竞争性编程的类比：两种学生 (06:10 - 14:05)

Dwarkesh指出：真正的奖励黑客是那些过于关注评估的人类研究者。他提出两种理解方式：

第一种是扩展环境套件——不只测试编码竞赛的最佳表现，还要测试能否为各种事物制作最佳应用。

第二种更根本：为什么在编码竞赛中变得超人并不能自动让你成为更有品味的程序员？也许不应该不断堆叠环境数量和多样性，而是找到一种方法，让模型从一个环境中学习并提高在其他方面的表现。

Sutskever用一个人类类比来说明。假设你有两个学生：

第一个学生决定成为最好的竞争性程序员，于是在这个领域练习10,000小时。他们解决所有问题，记住所有证明技巧，非常擅长快速正确地实施所有算法。通过这样做，他们成为了最好的选手之一。

第二个学生觉得竞争性编程很酷，也许练习了一百小时——少得多。他们也表现得非常好。

哪个学生在以后的职业生涯中会做得更好？

Dwarkesh答：第二个。

Sutskever说这基本上就是正在发生的事情。模型更像第一个学生，但甚至更甚。我们说"模型应该擅长竞争性编程"，于是收集有史以来的每一个竞争性编程问题，然后做数据增强获得更多问题，在此基础上训练。现在你有了一个伟大的竞争性程序员。

通过这个类比，更直观的是：如果训练得这么好，所有不同的算法和证明技巧都触手可及。但也更直观的是，通过这种程度的准备，它不一定能推广到其他事物。

那么第二个学生在进行一百小时微调之前在做什么呢？

Sutskever回答："我觉得是...他们拥有'它'。我认为是那个关键因素（the it factor）。当我是本科生时，我记得有一个这样的学生和我一起学习，所以我知道它存在。"

三、预训练的本质与局限 (08:00 - 14:05)

Dwarkesh提出一个有趣的区分：也许预训练与10,000小时的练习并没有什么不同。只是你可以免费获得那10,000小时的练习，因为它已经在预训练分布中的某个地方了。但也许你在暗示实际上从预训练中并没有那么多泛化，只是预训练中有太多数据。它不一定比RL更好地泛化。

Sutskever明确表示，预训练的主要优势在于：A，数据量非常非常大；B，你不需要费力思考该把什么数据放到预训练中。这是非常自然的数据，包含了很多人们所做的事情——人们的想法，很多特征，就像整个世界被人们投射到文本上。

预训练非常难以推理，因为很难理解模型依赖预训练数据的方式。每当模型出错时，是否因为某些东西偶然没有得到预训练数据的支持？"预训练的支持"可能是一个宽泛的术语。Sutskever表示不确定能补充更有用的信息，但他认为人类没有与预训练类似的东西。

Dwarkesh列举了人们提出的类比：一个人生命中的前15-18年（当时不一定在经济上有生产力，但在做一些让他们更好地理解世界的事情）；或者进化作为一种搜索进行了30亿年，然后产生了一个人类生命实例。

Sutskever认为这两者与预训练有一些相似之处，预训练试图扮演这两种角色。但也存在很大差异：

预训练数据量非常惊人。但人类即使经过15年，只用了极少量的预训练数据，也知道得少得多。然而无论他们知道什么，都以某种方式知道得更深刻。而且，即使在那个年龄，你也不会犯AI所犯的那些错误。

关于进化作为类比，答案是"也许"。但在这种情况下，进化可能实际上具有优势。

Sutskever分享了一个相关案例：一位因中风或事故导致情感处理能力丧失的患者。他不再感受任何情绪——不悲伤、不愤怒、不活跃。他仍然非常善于表达，可以解决逻辑问题，在测试中表现正常。

**但他做任何决定的能力变得极其糟糕。**选双袜子要花几个小时，财务决策屡屡失误。

这说明了什么？我们内置的情感在使我们成为一个可行的主体方面起什么作用？

Sutskever表示，也许如果你足够擅长从预训练中获得一切，你也可以得到那个。但这是一种看起来可能或不可能从预训练中获得的东西。

四、情感作为价值函数 (14:05 - 23:16)

Dwarkesh追问：那是什么？显然不仅仅是直接的情绪。似乎是某种类似价值函数的东西，告诉你应该做出什么决定，任何决定的最终回报应该是什么。你认为这不会隐式地来自预训练吗？

Sutskever说可能会。但他认为没有一个很好的机器学习类比，因为现在价值函数在人们所做的事情中没有发挥非常突出的作用。

他解释了价值函数的概念：当人们进行强化学习时，你有一个神经网络，给它一个问题，告诉模型去解决。模型可能采取成千上万个动作或思考步骤，然后产生一个解决方案。解决方案的得分被用作为每个动作提供训练信号。

这意味着如果你训练的任务需要很长时间才能解决，在你提出解决方案之前，你将不会进行任何学习。这就是强化学习的简单做法，O1、R1表面上也是这么做的。

价值函数的作用是：也许我可以有时（不是总是）告诉你做得好不好。这个概念在某些领域比其他领域更有用。

例如下棋时，你丢了一个棋子，就知道自己搞砸了。不需要下完整盘棋就知道之前的步骤也是错的。价值函数让你不必等到最后才获得反馈。

假设你在做数学或编程，试图探索一个特定的解决方案方向。经过一千步思考后，你得出结论这个方向没有希望。一旦得出这个结论，你立刻可以获得一千步前的奖励信号。当你决定走这条路时，你说："下次在类似情况下我不应该再走这条路。"这远在你实际提出解决方案之前。

Dwarkesh提到DeepSeek R1的论文指出轨迹空间非常大，可能很难学习从中间轨迹到价值的映射。而且在编码中，你会有错误的想法，然后回去改变一些东西。

Sutskever回应说："这听起来像是对深度学习缺乏信心。我的意思是，当然可能很困难，但没有什么深度学习做不到的。"

他的期望是价值函数应该是有用的，并且完全期望它们在未来会被使用（如果还没有的话）。

关于那位情感中心受损的人，他想说的是：人类的价值函数可能受到情感的调节，这种调节方式是由进化硬编码的。也许这对人们在世界上有效行动很重要。

Dwarkesh观察到价值函数的情感方面有一些非常有趣的地方：令人印象深刻的是，它们在仍然很容易理解的情况下，具有如此大的效用。

Sutskever同意：与我们正在学习和讨论的事情相比，情感相对简单。它们甚至可能非常简单，也许可以用人类可以理解的方式来描绘它们。他觉得这样做会很酷。

但就效用而言，存在一种复杂性-稳健性的权衡：复杂的事物可能非常有用，但简单的事物在非常广泛的情况下都非常有用。

我们的情感基本上是从哺乳动物祖先进化而来，然后在成为原始人类时稍微调整了一下。我们确实有很多社交情感，这可能是哺乳动物所缺乏的。但它们不是很复杂。正因为不复杂，所以在这个与我们进化环境截然不同的世界里，它们才能很好地服务我们。

当然，它们也会犯错。例如我们对饥饿的直觉感受，并没有成功地在这个食物丰富的世界中正确引导我们。

五、规模化时代的终结 (17:30 - 23:16)

Dwarkesh问：人们一直在谈论扩展数据、扩展参数、扩展计算。有没有更一般的方法来思考扩展？其他的扩展维度是什么？

Sutskever提供了一个视角：机器学习过去的做法是，人们只是摆弄各种东西，试图获得有趣的结果。然后扩展的洞察力出现了——scaling laws、GPT-3。突然每个人都意识到应该扩展。

"Scaling"只是一个词，但它是一个非常强大的词，因为它告诉人们该怎么做。

预训练就是一种可以扩展的东西，一种特殊的扩展配方。预训练的重大突破在于意识到这个配方是好的：如果你把一些计算和一些数据混合到一个特定大小的神经网络中，你会得到结果，而且你会知道如果按比例放大这个配方，你会做得更好。

**公司喜欢这样做，因为它为你提供了一种非常低风险的投资资源方式。**将资源投入研究要困难得多。相比之下，如果你做研究，你需要让研究人员前进并提出一些东西；而获取更多数据、更多计算，你就能从预训练中得到一些东西。

基于人们在Twitter上说的各种事情，看起来Gemini似乎已经找到了一种从预训练中获得更多收益的方法。但在某个时候，预训练将会耗尽数据。数据显然是有限的。那么接下来该怎么办？要么做某种加强型的预训练（采用与之前不同的配方），要么做RL，或者其他什么。

但现在计算量很大，计算机非常大。从某种意义上说，我们又回到了研究时代。

也许这是另一种表达方式：

2012年到2020年之前：研究时代
2020年到2025年：规模化时代
现在：回到研究时代，只是有了大型计算机

因为人们说"这太棒了，你必须更多地扩展，继续扩展"——这一个词"scaling"。但现在规模太大了，人们真的相信如果有100倍以上的规模，一切都会变得如此不同吗？肯定会有所不同。但人们是否相信如果只是将规模扩大100倍，一切都会改变？Sutskever不认为这是真的。

六、泛化：最根本的问题 (23:16 - 33:33)

Dwarkesh追问：如果我们回到研究时代，需要最关注配方的哪个部分？当你说价值函数时，人们已经在尝试当前的配方，然后让LLM作为评判等等。你可以说那是价值函数，但听起来你心里有更根本的东西。我们甚至应该重新思考预训练吗，而不仅仅是在过程最后添加更多步骤？

Sutskever说关于价值函数的讨论很有趣。他想强调，价值函数会使RL更有效率，这有所不同。但任何用价值函数能做的事，不用它也能完成，只是更慢。

他认为最根本的是：这些模型的泛化能力比人类差太多了，这非常明显。这似乎是一个非常根本的问题。

Dwarkesh分解出几个子问题：

关于样本效率：为什么这些模型学习需要比人类更多的数据？

另一个问题甚至与数据量无关：为什么教模型我们想要的东西比教人类更难？对人类来说，我们不一定需要一个可验证的奖励。你现在可能正在指导一群研究人员，和他们交流，向他们展示你的代码和你的思考方式。他们从中学习你的思维方式和应该如何做研究。你不必为他们设置可验证的奖励，不需要那种繁琐的定制过程。

或许这两个问题实际上在某种程度上是相关的。

Sutskever指出，人类样本效率的一个可能解释是进化。进化赋予了我们少量但最有用的信息。对于视觉、听觉和运动等，有很强的证据表明进化实际上给了我们很多。

例如，人类的灵巧性远远超过机器人。如果对机器人进行大量的训练和模拟，它们也能变得灵巧。但是在现实世界中训练机器人像人一样快速掌握新技能，似乎遥不可及。

对此可以说，运动是我们祖先数亿年来都需要的能力，进化赋予了我们强大的先验知识。视觉也可以同样论证。Yann LeCun提出过，孩子们经过10-16小时的练习就学会了开车。但我们的视觉太好了。Sutskever回忆自己五岁时对汽车非常着迷，那时的汽车识别能力已经足以进行自动驾驶了。五岁时看不到那么多数据，大部分时间在父母家里度过，数据多样性非常低。但也许这也是进化。

但在语言、数学和编码方面，可能不是。

Dwarkesh说，模型在语言和数学编码方面确实比普通人更好，但它们在学习方面比普通人更好吗？

Sutskever强调：他想说的是，语言、数学编码，尤其是数学编码，表明让人擅长学习的因素可能不是复杂的先验知识，而是某种更根本的东西。

考虑一下一项技能。如果这项技能在数百万年、数亿年前对我们的祖先非常有用，你可以认为人类擅长它是因为进化，因为我们有一个进化先验。但如果人们在一个直到最近才存在的领域表现出强大的能力、可靠性、鲁棒性和学习能力，那么这更能表明人们可能拥有更好的机器学习算法本身。

Dwarkesh想探讨：人类似乎有一些解决方案。他们是怎么做到的？为什么这么难？我们需要如何重新概念化训练模型的方式，才能使这样的事情成为可能？

Sutskever坦言这是一个很棒的问题，他对此有很多看法。但不幸的是，我们生活在一个并非所有机器学习想法都可以自由讨论的世界里，这就是其中之一。可能有一种方法可以做到。他认为可以做到，人类就是这样的事实证明了它可以做到。

不过可能还有另一个阻碍：人类神经元的计算能力可能比我们认为的更强。如果这是真的，并且很重要，那么事情可能会更棘手。但无论如何，这确实指向了某种存在。

七、研究时代的回归 (33:33 - 42:33)

Dwarkesh问：你从2012年到2020年都在那里。如果我们回到研究时代，现在的氛围会是什么样？即使在AlexNet之后，用于运行实验的计算量一直在增加，前沿系统的规模也在不断扩大。你认为现在的研究时代仍然需要大量的计算吗？需要回到档案馆阅读旧论文吗？

Sutskever回应说，规模化时代的一个后果是它"吸走了房间里所有的空气"。因为规模化吸走了所有空气，每个人都开始做同样的事情。我们已经到了公司比想法多得多的地步。

如果从瓶颈的角度来考虑研究进展，会发现有几个瓶颈：一个是想法，另一个是将想法变为现实的能力（可能需要计算，也需要工程）。

如果回到90年代，有些人有相当不错的想法，如果他们有更大的计算机，也许能证明想法可行，但他们没有。他们只能进行非常小的演示，无法说服任何人。所以瓶颈是计算。

然后在规模化时代，计算机的能力大大提高。当然需要多少计算是一个问题，但计算量确实很大。大到不一定需要那么多计算来证明某个想法。

Sutskever举例：AlexNet只用了两块GPU。Transformer ResNet是在8块或64块GPU上构建的。没有一篇transformer论文的实验使用了超过64块2017年的GPU——相当于今天的两块GPU。ResNet，甚至可以说O1推理并不是世界上计算量最大的事情。

**对于研究，你肯定需要一些计算量，但远非需要绝对最大的计算量。**如果你想构建绝对最好的系统，拥有更多计算能力会有所帮助。特别是如果每个人都在同一范式中，计算就成为主要的区别因素之一。

Dwarkesh问：如果SSI有50个不同的想法，如何知道哪一个是下一个transformer，哪一个是脆弱的，如果没有其他前沿实验室那样的计算能力？

Sutskever澄清：SSI用于研究的计算量实际上并不小。一个简单的数学可以解释为什么他们拥有的计算量实际上更具可比性。

SSI已经筹集了30亿美元，这不算少。但你可能会说其他公司筹集了更多。然而他们的很大一部分计算都用于推理。这些大数字、大贷款，都是专门用于推理的。这是第一点。

第二点，如果你想拥有一个可以进行推理的产品，你需要一个庞大的工程师、销售人员团队。很多研究都需要专门用于生产各种与产品相关的功能。当你看真正用于研究的部分时，差异就变得小得多了。

另外，如果你做的是不同的事情，真的需要绝对最大的规模来证明它吗？Sutskever不认为这是真的。在他们的情况下，有足够的计算能力来证明并说服自己和任何其他人，所做的是正确的。

Dwarkesh指出，公开估计表明像OpenAI这样的公司每年花费50-60亿美元在实验上，这与推理费用是分开的。似乎他们每年在研究实验上花费的资金比SSI的总资金还要多。

Sutskever回应说，这是一个关于你用它做什么的问题。他认为在其他公司的情况下，对训练计算的需求更大，有更多不同的工作流程，不同的模式，更多的事情。所以它变得分散了。

八、直奔超级智能vs渐进发布 (42:33 - 50:24)

Dwarkesh问：SSI将如何赚钱？

Sutskever的回答是：现在只专注于研究，然后这个问题的答案就会自己揭晓。他认为会有很多可能的答案。

关于SSI"直奔超级智能"的计划，Sutskever认为这有其价值——不受日常市场竞争的影响非常好。但有两个原因可能会导致改变计划：一是务实考虑，如果时间线变得很长；二是最好和最强大的AI对世界产生影响，这本身是非常有价值的事情。

Dwarkesh追问：为什么默认计划是直奔超级智能？OpenAI、Anthropic等公司的明确想法是：有越来越弱的智能让公众可以逐渐适应并做好准备。为什么直接构建超级智能可能更好？

Sutskever分析了支持和反对的理由：

支持的理由是：人们在市场中面临的最大挑战是必须参与激烈的竞争。这种竞争非常困难，会让你面临艰难的权衡。如果说可以把自己与这一切隔离开来，只专注于研究，在准备好之后再出现，这当然很好。

但反对的观点也有道理。让世界看到强大的AI是有用的，因为这是传达AI的唯一方式。

假设你读了一篇关于AI的文章。文章说AI将会这样，AI将会那样。你读后觉得这是一篇有趣的文章。现在假设你亲眼看到一个AI在做这个，一个AI在做那个。这是无法比拟的。基本上，AI公开化有很大的好处，这将是SSI不走直线的原因。

Dwarkesh补充说，他想不出在人类工程和研究中，还有哪个学科的最终成果主要是通过思考如何使其安全来实现的。为什么现在飞机每英里的坠机事故率远低于几十年前？为什么现在在Linux中找bug比几十年前更难？主要是因为这些系统已经部署到世界各地。你注意到了失败，这些失败得到了纠正，系统变得更加健壮。

他不确定AGI和超人智能为什么会有什么不同。超级智能的危害不仅仅是出现一些恶意的回形针制造者，而是这是一个非常强大的东西，我们甚至不知道该如何构想人们如何与它互动，人们会用它做什么。逐渐接触它似乎是更好地分散其影响并帮助人们做好准备的方法。

Sutskever认为，即使在直线场景中，你仍然会逐步发布它。渐进主义应该是任何计划的内在组成部分。问题仅仅在于你首先推出的是什么。

九、重新定义AGI：持续学习者 (45:00 - 50:24)

Sutskever提出了一个关于语言如何影响思维的洞察。在这个例子中是两个词："AGI"和"预训练"。

**为什么"AGI"这个术语会存在？**它是对另一个术语的反应——"狭义AI"。回顾AI游戏的历史，象棋AI、跳棋AI、电脑游戏AI，每个人都会说"看看这种狭隘的智能，象棋AI可以击败卡斯帕罗夫但什么也做不了"。于是有人说"我们需要的是通用AI，一种可以做所有事情的AI"。

预训练强化了这种思维。你进行更多的预训练，模型在所有方面的表现都会或多或少一致地提高。通用AI。预训练带来AGI。

但问题在于：AGI和预训练在某种意义上"过度偏离了目标"。

因为如果你思考AGI这个术语，尤其是在预训练的背景下，你会意识到人类不是AGI。人类缺乏大量的知识。相反，我们依赖的是持续学习。

那么当你思考成功实现某种安全的超级智能时，问题是：你如何定义它？它将处于持续学习曲线的哪个位置？

想象培养了一个非常渴望学习的超级智能15岁少年。他们根本不知道很多东西。伟大的学生，非常渴望。你去当程序员，你去当医生，去学习。

所以可以想象，部署本身将涉及某种学习、试验和错误时期。这是一个过程，而不是放下一个成品。

Dwarkesh总结理解：所以你用超级智能指的不是某种已经完成的、知道如何完成经济中所有工作的智能（OpenAI章程对AGI的定义是能做人类可以做的每一件事）。你提出的是一个能学会做任何工作的智能。那就是超级智能。一旦你有了学习算法，它就会像人类劳动力加入组织一样被部署到世界上。

这似乎可能发生两种情况之一（也许两种都不会发生）：

第一种：这个超高效的学习算法变得像你一样优秀，甚至在ML研究方面做得更好。结果是算法本身变得越来越超人。

第二种：即使递归自我改进没有发生，如果你有一个模型或模型的实例被部署到经济中，从事不同的工作，学习如何做这些工作，不断学习，掌握任何人类可以掌握的所有技能，但实际上同时掌握所有这些技能并整合学习成果。

你基本上就有了一个在功能上变得超级智能的模型，即使没有任何软件方面的递归自我改进。因为你现在有了一个可以胜任经济中所有工作的模型，而人类无法以同样的方式融合思想。

十、快速经济增长的可能性 (50:24 - 63:11)

Dwarkesh问：你是否预期广泛部署会引发某种形式的智能爆发？

Sutskever认为很可能会迎来快速经济增长。关于广泛应用，可以提出两种相互矛盾的论点：

一旦你拥有一个可以快速学习做事的AI，并且有很多这样的AI，就会有一种强大的力量将它们部署到经济中——除非有某种法规阻止它（可能会有）。但通过广泛部署在一段时间内实现非常快速的经济增长是可能的。

问题是增长速度会有多快。一方面有非常高效的劳动力，另一方面世界真的很大，有很多东西，这些东西以不同的速度移动。会看到各种各样的事情，不同国家有不同的规则，规则更友好的国家经济增长会更快。难以预测。

Dwarkesh指出这是一个非常不稳定的局面。在极限情况下，我们知道这是可能的：一个学习能力媲美人类、却能以人类无法做到的方式融合多个实例的系统。人类存在，数字计算机存在，只需将两者结合就可以产生这个东西。而且这种东西极其强大。经济增长是一种表述方式——戴森球也是一种经济增长。

另一种表达方式是：时间可能非常短。你雇佣人们六个月后才有净产出，人类学习很快。这东西会变得越来越聪明，而且速度非常快。如何才能让事情进展顺利？为什么SSI能够很好地做到这一点？

Sutskever的思想在过去一年发生了变化：他现在更加重视AI的增量和提前部署。

关于AI最困难的一件事是我们正在讨论尚未存在的系统。很难想象它们。在实践中，很难感受到AGI。我们可以讨论，但这就像谈论遥远的未来——想象变老体衰是什么感觉，你可以尝试想象，但很难，然后你回到现实。

围绕AGI及其未来力量的许多问题都源于它很难被想象。未来的AI将会与众不同，非常强大。**整个问题是什么？AI和AGI的问题是什么？整个问题在于力量。**当力量变得非常大时，会发生什么？

如果很难想象，该怎么办？你必须展示出来。你必须展示出来。

Sutskever认为，大多数从事AI研究的人也无法想象它，因为它与人们日常所见的东西太不一样了。

他做出一个预测：随着AI变得更强大，人们会改变他们的行为。我们将会看到各种前所未有的事情，这些事情现在并没有发生。

例如：激烈的竞争对手开始在AI安全方面进行合作。OpenAI和Anthropic已经迈出了第一小步，以前从未有过。这是他在大约三年前的一次演讲中预测过的。他还认为，随着AI继续变得更强大、更明显强大，政府和公众也会有采取行动的愿望。这就是展示AI的重要力量。

现在从事AI研究的人并没有感受到AI的强大，因为它总是犯错。但在某个时候，AI会开始让人感到强大。当这种情况发生时，所有AI公司对安全的态度都会发生巨大变化。他们会变得更加谨慎。他将此作为预测。

当前发生的一切，都是因为人们看着今天的AI，很难想象未来的AI。

十一、关心有知觉生命的AI (55:00 - 63:11)

Sutskever提出：公司应该渴望构建什么？有一个大想法是每个人都锁定的——自我改进的AI。为什么会这样？因为想法比公司少。

但他认为有更好的东西可以构建，每个人实际上都会想要它：一个与关心有知觉生命保持良好对齐的AI。

特别是，有理由认为构建一个关心有知觉生命的AI，比构建一个只关心人类生命的AI更容易，因为AI本身将是有知觉的。考虑到镜像神经元和人类对动物的同情心——虽然可能不够大，但它确实存在。他认为这是一个涌现的属性，因为我们用与建模自己相同的电路来建模他人，因为这是最有效的事情。

Dwarkesh质疑：即使让AI关心有知觉存在，大多数有知觉存在仍然会是AI——数万亿、最终数千万亿个AI，人类只占有知觉存在中很小的一部分。如果目标是人类对未来文明的某种控制，这可能不是最好的标准。

Sutskever承认可能不是最好的标准。但他说两件事：

第一，关心有知觉生命是有价值的，应该考虑。如果有一个想法的简短列表，当公司处于这种情况时可以使用，这将非常有帮助。

第二，如果最强大的超级智能的力量在某种程度上受到限制，那将非常有帮助。因为它可以解决许多担忧。如何做到这一点还不确定，但当谈论非常强大的系统时，这将是有帮助的。

Dwarkesh问：如何看待超级智能？使用学习效率的想法，也许它只是非常快速地学习新技能或新知识。它是否只是拥有更大的策略库？是否有一个单一的、有凝聚力的"它"在中心更强大或更大？与人类文明的其余部分相比，它会像神一样吗？还是只是感觉像另一个智能体或另一个智能体集群？

Sutskever表示，不同的人有不同的直觉。他认为它肯定会非常强大。最有可能发生的是大致在同一时间会创建多个这样的AI。如果集群足够大——如果集群的规模确实像一个大陆——那个东西确实会非常强大。

如果你说的是极其强大的AI，真正非常强大的AI，那么如果它们能在某种程度上受到限制，或者存在某种协议，那就太好了。

十二、对齐难题与人类价值观的奥秘 (63:11 - 73:36)

Sutskever深入探讨超级智能的担忧：如果想象一个足够强大的系统，你说"需要做一些明智的事情，比如关心有知觉的生命"——但以一种非常专注的方式，我们可能不喜欢这样的结果。这就是问题的实质。

也许答案是你不要以通常的意义构建一个RL智能体。他指出人类是一个半RL智能体——我们追求奖励，然后情绪或其他因素让我们厌倦这种奖励。我们追求不同的奖励。市场就像一个目光短浅的智能体，进化也是如此——在某些方面非常智能，但在另一些方面却非常愚蠢。政府被设计成三个部分之间永无休止的斗争，这会产生影响。

使讨论变得困难的另一点是：你们在讨论不存在的、我们不知道如何构建的系统。这是他的看法：人们现在所做的会有一定的进展，然后逐渐消失。它会继续改进，但也不会是最终答案。所以"最终答案"，我们不知道如何构建。

很多事情都取决于理解可靠的泛化。导致对齐变得困难的原因是：学习人类价值观的能力是脆弱的，优化它们的能力也是脆弱的。你实际上学会了优化它们。**这些不都是不可靠泛化的例子吗？**为什么人类的泛化能力似乎要好得多？如果泛化能力好得多会怎样？这些问题目前仍然无法回答。

Dwarkesh问：人们应该如何看待AI良好发展的样子？可能会有许多大陆计算规模的智能体四处活动。那有多危险？我们如何降低这种危险？如何以一种保护平衡的方式做到这一点——因为可能存在未对齐的AI和不良行为者？

Sutskever说他喜欢关心有知觉生命的AI的原因是：如果这些引人注目的系统中的前N个实际上关心、热爱人类或关心有知觉的生命（这需要实现），那么他可以看到它进展顺利，至少在相当长的一段时间内是这样。

然后就出现了长期会发生什么的问题。如何实现长期的平衡？

在长远来看，如果有一个强大AI存在的世界，短期内可以说有全民高收入，大家都过得很好。但佛教徒怎么说？变化是唯一不变的。事情会改变。存在某种政府政治结构，它会发生变化，因为这些东西都有保质期。

对于长期平衡，一种方法是也许每个人都会拥有一个AI来听从他们的命令。如果可以无限期维持，那很好。但缺点是：AI为人赚钱，在政治领域倡导他们的需求，然后写一份小报告说"这是我所做的事情，这是目前的情况"。人说"太好了，继续保持"。但人不再是参与者。这是一个不稳定的状态。

他提出一个他不喜欢的解决方案，但需要考虑：如果人们通过某种Neuralink++成为部分AI。因为这样做的结果是，现在AI理解了一些东西，我们也理解了它，因为这种理解是整体传递的。如果AI处于某种情况下，现在就像你自己完全参与到这种情况中一样。他认为这是平衡的答案。

十三、进化如何编码高层欲望 (67:00 - 73:36)

Dwarkesh提出一个有趣的观点：数百万甚至数十亿年前在完全不同环境中发展起来的情绪，仍然如此强烈地指导我们的行为，这是否是对齐成功的例子？

脑干有一个指令：与更成功的人交配。皮层是理解在现代背景下成功意味着什么的部分。但脑干能够与皮层对齐：无论你认为成功是什么，我都不够聪明理解那是什么，你仍然会遵循这个指令。

Sutskever认为这是一个更普遍的观点：大脑如何编码高层欲望，或者说进化如何编码高层欲望，实际上非常神秘。

很容易理解进化如何赋予我们对闻起来好的食物的渴望——气味是化学物质，追求那种化学物质即可。很容易想象进化会这样做。

但进化也赋予了我们所有这些社会欲望。我们极度在意被社会正面看待，在意地位。所有这些社会直觉，他强烈感到它们是与生俱来的。

他不知道进化是如何做到的，因为这是一个很高级的概念。它存在于大脑中。不像嗅觉那样的低级信号，不是那种有传感器可以感知的。大脑需要进行大量的处理，将大量的信息拼凑在一起，才能理解社会上正在发生的事情。不知何故，进化决定了"你应该关心这些"。

而且它完成的速度也很快，因为所有这些复杂的社会事物都是最近才进化出来的。

他曾有一个推测：也许进化硬编码了大脑上的一个位置（特定GPS坐标激活时对应特定欲望）。因为这将在进化的工具包之内。

但Dwarkesh指出有反例：天生失明的人，大脑皮层区域被其他功能采用。如果需要视觉信号的欲望或奖励功能不再起作用，他会感到惊讶。

Sutskever完全同意，而且有一个更强的反驳：如果你想到有些人在童年时期切除了一半大脑，他们仍然拥有所有大脑区域，但都移动到了一个半球。这表明大脑区域的位置不是固定的。所以那个理论是不成立的。

这仍是一个谜，但有趣的是：进化确实极其可靠地让我们关心社交——甚至有各种心理问题的人也倾向于关心这些。

十四、SSI的技术路径与5-20年预测 (73:36 - 85:00)

Dwarkesh问SSI计划采取哪些不同做法。Sutskever直言：主要区别在于技术方法。他们有一些认为有希望的想法，正在研究验证它们是否确实有希望。这是一次尝试——尝试成为一个声音和参与者。

如果这些关于理解泛化的想法被证明是正确的，他们将拥有一些有价值的东西。会被证明是正确的吗？他们在做研究，是一家纯粹的研究公司。过去一年取得了相当不错的进展，但需要继续取得更多进展。

关于前CEO离职加入Meta的问题，Sutskever提供背景：当时SSI正以320亿估值融资，Meta提出要收购。他拒绝了，但前联合创始人"在某种意义上说了是"，因此获得了大量近期流动性。这是唯一加入Meta的SSI成员。

被问及SSI使超级智能良好发展的独特之处，Sutskever说区分SSI的主要因素是技术方法。他们有一种他认为有价值的不同技术方法，正在追求它。

他坚持认为最终各种策略会趋同。在某种程度上，随着AI变得越来越强大，每个人都会逐渐清楚策略应该是什么。应该是类似于：找到相互沟通的方式，让第一个真正的超级智能AI能够保持一致、关爱有知觉的生命、关爱人类、具有民主性——或这些的某种组合。

这是每个人都应该努力达成的状态，也是SSI正在努力实现的目标。即使现在还没有，其他所有公司都会意识到他们在朝着同一目标努力。随着AI变得越来越强大，世界将会发生真正的改变。很多预测会...情况会非常不同，人们的行为也会非常不同。

关于时间线预测，Sutskever给出5-20年——这是达到能像人类一样学习、进而变得超人的系统的时间框架。

Dwarkesh追问：他的模型意味着还有几年时间，其他公司继续使用当前方法，但停滞不前。停滞不前意味着什么？

Sutskever认为可能会停滞，所有公司之间看起来会非常相似。但即使停滞，这些公司也能获得惊人的收入——也许没有利润，因为需要努力差异化，但收入肯定是有的。

Dwarkesh想更好地理解未来的发展。目前有这些不同的公司，他预期它们的方法会继续产生收入，但不会达到类人的学习者。现在有不同的公司分支——SSI、Thinking Machines，还有很多其他实验室。也许其中一个找到了正确的方法。

Sutskever认为不会清楚该怎么做，但会清楚不同的事情是可能的。那就是信息。人们会试图弄清楚那是如何运作的。

随着AI能力的每一次提升，会发生一些变化，但他不知道具体是哪些。这会很重要，但他无法确切说出那是什么。

关于为什么利益会被广泛分配而不是集中在第一个启动持续学习循环的公司，Sutskever认为根据经验，会发生类似的事情：一家公司取得进步，其他公司争先恐后地在一段时间后推出类似成果，开始在市场上竞争并压低价格。

即使有人先获得了那个模型——这是在讨论美好世界的情况下。我们有这些强大的人类般的学习者。另一个值得考虑的方面是让它变得狭隘——可以同时具有实用性和狭隘性，拥有很多狭隘的超级智能AI。

假设你有很多这样的AI，一家公司从中获得大量利润，另一家公司加入并开始竞争。竞争的方式是通过专业化。竞争热爱专业化，在市场和进化中都能看到。会有很多不同的细分市场，很多不同的公司占据着不同的细分市场。一家AI公司在某个复杂经济活动领域做得更好，另一家在另一个领域做得更好，第三家非常擅长诉讼。

Dwarkesh质疑这是否与人类学习的含义相矛盾——它可以学习任何东西。

Sutskever说它可以，但你积累了学习，有很大的投资。你花费了大量的计算资源才在某个方面变得非常出色。其他人花费了大量资源和经验才在其他方面变得非常出色。你应用了大量的人类学习才能达到那里。但现在你处于一个高峰，别人会说"我不想从头开始学习你学过的东西"。

Dwarkesh指出这需要许多不同的公司同时开始研究类人的持续学习智能体，这样才能在不同分支开始不同的研究。但如果一家公司先获得了学习者，只需要考虑经济中的每一个工作，每一种在几年内似乎都容易解决。

Sutskever承认这是一个有效的论点，但他强烈的直觉是事情不会那样发展。虽然表面上看来会那样发展，但他认为这将是"理论上理论和实践之间没有区别"的其中一个例子。

十五、并行化、多样性与自博弈 (85:00 - 91:00)

很多人对递归自我改进的理解是"在服务器里放一百万个Ilya"来产生不同想法。Sutskever不知道具体会怎样，但认为肯定会有收益递减——你想要的是想法不同的人，而非想法相同的人。如果都是自己的复制品，不确定能获得多少增量价值。你想要的是想法不同的人。

Dwarkesh观察到，不同的模型即使是完全不同的公司发布的、在可能不重叠的数据集上训练的，LLM彼此之间惊人地相似。

Sutskever回应：也许数据集的重叠程度比看起来的要高。

有一种感觉是，即使单个人的生产力可能不如未来的AI，人类团队可能比AI团队拥有更多的多样性。但如何引发AI之间有意义的多样性呢？仅仅提高温度只会导致胡言乱语。你想要的是不同的科学家有不同的偏见或不同的想法。

Sutskever认为没有多样性的原因是预训练。所有预训练的模型基本相同，因为使用相同的数据进行训练。RL和后训练阶段才开始出现差异，因为不同的人会提出不同的RL训练方法。

Dwarkesh问到自博弈作为获取数据或将智能体与同等智能的智能体匹配以启动学习的方法。

Sutskever说他认为自博弈有趣的原因是它提供了一种仅使用计算而不使用数据来创建模型的方法。如果你认为数据是最终的瓶颈，那么仅使用计算就非常有趣。

但自博弈（至少过去的做法，有彼此竞争的智能体）只擅长培养某些技能——谈判、冲突、某些社交技能、策略制定等。它太窄了。

不过自博弈确实找到了归宿，只是以不同的形式：辩论、证明验证器、以LLM作为评判者并被激励去发现你工作中错误的对抗性设置。实际上，自博弈是智能体之间竞争的一个特例。对竞争的自然反应是尝试变得与众不同。

如果你放入多个智能体，告诉他们都需要解决某个问题。你作为一个智能体，检查其他人在做什么，你会说"如果他们已经在用这种方法了，我显然不应该再尝试，我应该追求一些与众不同的东西"。这能激励方法的多样性。

十六、研究品味的本质 (91:00 - 结尾)

最后一个问题：什么是研究品味？Sutskever是世界上公认在AI研究方面最有品味的人，是许多最重大成果的合著者——从AlexNet到GPT-3等等。

Sutskever回答说，他可以就自己个人而言发表看法，不同的人做法不同。

对他个人而言，指导原则是一种AI应该如何的美学——通过思考人们是如何思考的，但要正确地思考。很容易错误地类比人类，但正确地思考人类意味着什么呢？

他举例说明正确类比的例子：人工神经元直接受大脑启发。为什么是个好主意？大脑有各种器官和褶皱，但褶皱可能不重要。为什么我们认为神经元重要？因为有很多神经元，感觉上是对的。

你想要神经元，想要某种局部学习规则来改变神经元之间的连接。大脑这样做似乎是合理的。

分布式表征的思想。大脑会根据经验做出反应。神经网络应该从经验中学习。你会问自己：什么是根本的，什么不是根本的？事情应该是怎样的？

这一直在很大程度上指导他，从多个角度思考，寻找近乎完美的东西——美、简洁、优雅，来自大脑的正确灵感。没有丑陋的容身之地。只有美、简洁、优雅，以及来自大脑的正确灵感。

所有这些东西都需要同时存在。它们存在的越多，对自上而下的信念的信心就越强。

自上而下的信念至关重要——它支撑你度过实验与预期矛盾的时刻。如果你总是相信数据，那么有时你可能在做正确的事情，但存在一个bug。你不知道存在bug。你怎么知道是应该继续调试，还是断定方向错了？

靠的是自上而下的信念。你应该说"事情必须是这样的，类似的东西必须有效，所以我们必须继续"。这就是自上而下。它基于这种多方面的美，以及来自大脑的灵感。

结语

这场对话揭示了AI发展的核心张力：规模化带来了确定性的进步，却也"吸走了房间里所有的空气"，让所有人都在做同样的事情。Sutskever呼吁回归研究本质——不是放弃计算资源，而是带着强大的计算机重新探索根本问题：为什么AI的泛化能力远逊于人类？

他给出的时间线是5-20年，但更重要的是他的预测：随着AI变得更强大，世界将真正改变，策略将趋同，对安全的态度将急剧转变。问题不是技术能否实现超级智能，而是我们能否在它到来时做好准备。

最深刻的洞察或许是关于研究品味的：在追求美、简洁、优雅的过程中，你需要自上而下的信念来支撑度过数据与预期矛盾的时刻。这既是研究AI的方法论，也是面对AI未来的态度——在不确定中坚持方向，在变化中寻找不变。