AI Eats the World: Benedict Evans on the Next Platform Shift - 主题精读稿

AI Eats the World: Benedict Evans on the Next Platform Shift - 主题精读稿

前言:AI 是否代表又一次平台转变 (00:00 - 04:46)

Benedict Evans 是技术分析师和前 a16z 合伙人,他花费多年时间研究 PC、互联网和移动设备等技术浪潮。这次对话探讨了 AI 作为平台转变的潜力,分析其与历史上技术浪潮的异同,以及对科技行业内外的深远影响。核心问题是:AI 究竟只是又一个行业周期,还是一次更根本的变革?


一、平台转变的历史规律与 AI 的特殊性 (04:46 - 15:25)

1.1 平台转变的共性模式

平台转变往往带来以下几种典型现象:首先是泡沫,其次是科技行业内部的剧烈变革——曾经占主导地位的公司变得无关紧要,同时新的万亿级公司诞生。但科技之外的影响因行业而异:报业在过去 30 年被彻底颠覆,而水泥业仅仅把互联网当作有用的工具。

关于移动设备的影响,需要避免简单化的框架。移动将我们从 Web 转移到 App,给世界上每个人一台掌上电脑——目前地球上消费级 PC 不到 10 亿台,而智能手机有 50 到 60 亿部。TikTok、在线约会等新现象都因移动设备成为可能。如果没有移动设备,Meta 会是一家小得多的公司。但并非所有平台转变都一样,这些框架有用但不具预测性。

1.2 AI 与历史平台转变的根本差异

AI 与之前平台转变的核心区别在于:我们不知道这项技术的物理极限

1995 年,我们知道电信公司不会在第二年给每个人提供千兆光纤;我们知道 iPhone 不会有一年的电池续航或投影功能。但对于 AI,我们缺乏对其工作原理的理论理解,也缺乏对人类智能的理论理解,因此无法预测它能变得多好。

这导致了"基于感觉的预测"——Geoff Hinton 说"我觉得...",Demis Hassabis 说"我觉得...",Karpathy 说可能还要十年——但没人真正知道。

1.3 AI 对话中的精神分裂

科技行业存在一种有趣的脱节。OpenAI 的直播前 20 分钟讨论如何实现人类水平的 AI,后半段却说"这是我们的 API 堆栈,将像 Windows 一样支持成千上万的软件开发者",甚至直接引用比尔·盖茨。

这两种情况不可能同时成立。要么我有一个博士水平的 AI 研究员(意味着也能做博士水平的注册会计师),要么我只有一个能帮我报税的新软件。如果相信模型会持续扩展,为什么还要投资软件公司?人们只需要一个"能做一切的黄金盒子"。


二、泡沫、投资与计算需求的不确定性 (15:25 - 22:27)

2.1 泡沫的必然性

非常新、非常大、非常令人兴奋、改变世界的事物往往会导致泡沫。泡沫的特征是:当一切上涨时,所有东西同时上涨,每个人看起来都像天才,每个人都在利用杠杆和交叉杠杆,进行循环收入——这很好,直到不再好为止。如果我们现在不在泡沫中,我们将来也会在。

Mark Andreessen 曾说 1997 年不是泡沫,1998 年不是泡沫,1999 年是泡沫。我们现在处于哪个阶段?无人能知。

2.2 预测计算需求如同预测 90 年代的带宽消耗

预测 AI 的计算需求就像预测 90 年代后期的带宽使用——你可以建立电子表格,输入用户数量、网页带宽、视频比特率等参数,但得到的数字可能有百倍的误差范围。

目前所有超大规模企业都表示"不投资的坏处大于过度投资的坏处"。Mark Zuckerberg 曾说如果投资过度可以转售容量,但这忽略了一个事实:如果你无法使用你的容量,其他人也会有大量剩余容量

2.3 模型演进的双重效应

模型在持续进化,可能只需当前百分之一的算力就能获得相同结果,而且这个数字每年可能下降 20-40 倍。但与此同时,使用量也在上涨。参数太多,无法得出有用的预测。我们需要退后一步问:这个"互联网"东西到底有没有用?


三、AI 采用的分化:为什么很多人不知道该用它做什么 (22:27 - 34:45)

3.1 用户数据揭示的分化现象

ChatGPT 有 8 到 9 亿周活跃用户,但只有 5% 付费。调查数据显示,发达国家约 10-15% 的人每天使用 AI,另外 20-30% 每周使用。如果你每天花几个小时使用 AI,问问自己:为什么五倍以上的人拥有账户、知道如何使用,却想不出用它来做什么?

这不仅仅是"早期采用"的问题。部分原因是错误率,部分是需要将 AI 映射到日常任务中。

3.2 会计师与律师的类比

想象一个会计师第一次看到电子表格软件——这个东西能在 10 分钟内完成一个月的工作量。重新计算一个 10 年的 DCF 模型换个贴现率?"我在你还没说完之前就完成了",而过去可能需要一两天甚至三天。

但如果你是律师,你会想:"我的会计应该看看这个。也许下周我做计费小时表时会用到,但这不是我每天做的事。" Excel 不能做律师每天需要做的事

3.3 产品化的必要性

很多人需要 AI 被包装成产品、工作流程、工具和 UX,并且需要有人说:"你有没有意识到可以用它来做这件事?"

每个进入 a16z 的创业公司,你都可以说"那基本上就是一个数据库"或"那基本上就是 CRM"或"那基本上就是 Oracle 或 Google Docs"。但他们意识到某个行业内部存在问题或工作流程,然后用 5-20 年前的概念为该行业的人解决问题。

现在美国的大公司通常有 400 到 500 个 SaaS 应用,它们基本上都在做你可以在 Oracle、Excel 或邮件中做的事情。AI 软件公司正在做的,就是拆分 ChatGPT,就像 10 年前的企业软件公司拆分 Oracle 或 Excel 一样。

3.4 验证问题的核心挑战

AI 仍然会出错,但硅谷的人通常对此一笑置之。关键是:对于需要正确答案的问题,你能机械地验证它吗?如果不能,用人来验证是否有效率?

营销用例:让机器生成 200 张图片,然后人工筛选出 10 张好的,比人工制作 10 张好图效率高得多。

数据录入用例:如果让机器从 200 个 PDF 中复制 200 个数字,然后必须检查所有 200 个数字,还不如自己做。

OpenAI 的 Deep Research 产品以收集移动市场数据为营销案例,但数字都是错的——有些是转录错误,有些是使用了不应该使用的来源。

3.5 平台转变的真正意义:做以前不可能做的事

看 ChatGPT 说"这没用因为它会犯错",就像 70 年代末看 Apple 2 问"能用它运营银行吗"——答案是否定的,但这是错误的问题。

新事物通常不擅长对旧事物重要的事情,但它做了别的事情。移动设备能取代五屏专业编程设备吗?不能。因此不能取代 PC?但 50 亿人有智能手机,而只有 7-8 亿人有家用 PC。移动设备做了不同的事。

问题是:有哪些以前从未做过、但 AI 非常擅长的事情?这些事情有多少是用户面对通用聊天机器人自己想到的?有多少是创业者说"我刚意识到可以做一些以前做不到的事,这是产品,按这个按钮就行"?


四、GUI 的价值与原始提示的问题 (29:20 - 34:45)

4.1 GUI 不只是让你找到功能

GUI 显而易见的作用是让 Office 拥有 500 个功能而不需要记忆键盘命令。但另一方面,当你在 Workday 或 Salesforce 的某个屏幕中,屏幕上只有 7 个按钮而不是 600 个——因为公司里的人坐下来认真思考过,在流程的这个阶段应该向用户提出什么问题、给出什么选择

这反映了大量的机构知识、学习、测试和对如何运作的认真思考。

4.2 原始提示要求从第一性原理思考一切

打开空白聊天机器人,它实际上在问你所有问题——不仅仅是一个问题,而是关于你想要什么以及如何完成的所有问题。

把机器学习比作拥有无限的实习生。想象你有一个任务和一个实习生,但实习生不知道风险投资是什么,不知道公司发布季度报告,不知道我们有彭博账户可以查找倍数,不知道应该用 PitchBook 而不是 Google 获取这类数据。

你想从头开始解决问题,还是想要一群了解这些知识的人花五年时间研究屏幕上应该有哪些选项供你点击?


五、OpenAI 的脆弱性与产品战略 (34:45 - 42:52)

5.1 基准分数相同但使用量不同

通用基准上各模型基本相同。如果你每天花几小时使用,你可能觉得"Claude 的语气比 GPT 好"或"GPT 5.1 比 4.9 好",但每周只使用一次的人根本不会注意这些差异。

然而使用情况完全不同:Claude 几乎没有消费者使用(尽管基准分数相同),ChatGPT 遥遥领先,Meta 和 Google 在图表中间。

5.2 800-900 百万用户的脆弱性

OpenAI 的用户基础感觉非常脆弱,因为他们真正拥有的只是默认设置和品牌的力量。没有网络效应,没有真正的功能锁定,没有更广泛的生态系统。Memory 这样的功能是粘性而非网络效应,可以被复制。

更关键的是,他们没有自己的基础设施,无法控制成本基础,没有成本优势——每月都收到 Satya 的账单。

5.3 需要同时在两个方向疯狂奔跑

OpenAI 必须尽可能快地朝两个方向努力:

产品方向:基于模型之上构建各种东西——浏览器、社交视频应用、应用平台……"就像那个地图上有很多线的家伙的梗一样",所有这些东西都要昨天就构建完成。

基础设施方向:与 NVIDIA、Broadcom、AMD、Oracle 以及石油美元打交道。

目标是从惊人的技术突破和 8-9 亿用户出发,获得真正具有粘性、防御性和可持续的商业价值和产品价值。


六、超大规模企业的竞争格局 (42:52 - 57:38)

6.1 Google:移动搜索只是搜索

对于 Google,移动搜索仍然是搜索——Web 搜索只意味着更多人在更多时间进行更多搜索。现在的默认观点是 Gemini 和任何前沿模型一样好。

建立前沿模型的成本?每年 1000-2500 亿美元。Google 付得起,因为有其他业务的现金流。然后优化搜索、优化广告业务、创造新体验。也许发明 AI 领域的 iPhone,也许不会有这样的产品,也许别人做出来 Google 就做个 Android 复制它。

6.2 Meta:AI 对内容和社交的影响更大

对于 Meta,问题更大:AI 对搜索、内容、社交、体验和推荐意味着什么?这使得他们像 Google 一样更迫切地需要拥有自己的模型。

6.3 Amazon:能否终于做好大规模推荐?

Amazon 擅长给你提供 SKU,但不擅长告诉你想要哪个 SKU。

LLM 是否意味着 Amazon 终于可以在大规模推荐、发现和建议方面做得非常好——以过去因纯商品零售模式而无法做到的方式?

典型的第一步是:你买了灯泡,所以买了气泡膜,所以推荐包装胶带。但 Amazon 实际应该做的是:"这个人要搬家,给他展示房屋保险广告"——这是相关性系统无法从购买数据中获得的。

6.4 Apple:最有趣的智力问题

Apple 两年前展示了 Siri 应该是什么样子的愿景——多模态、即时、设备端、工具使用、代理、多平台电商、实时、无提示注入问题、零错误率。听起来很好,但有人实现了吗?没有,Google 和 OpenAI 也无法可靠地实现那个演示

Craig Federighi 说:"我们没有自己的聊天机器人,但我们也没有 YouTube 或 Uber。解释一下为什么这不一样?"——这比听起来更难回答。

答案是:如果 AI 从根本上改变了计算的本质,那就是问题;如果它只是像 Google 一样的服务,那就不是问题。

回顾 2000 年代的微软:整个开发环境远离他们,2001 年后没人开发 Windows 应用。但你需要 PC 来使用互联网,而 Apple 当时不算玩家,Linux 对普通人不是选择。结果微软输掉了平台之战,却卖出了更多数量级的 Windows PC。直到移动时代,他们才同时失去了设备和开发环境。

如果所有新东西都基于 AI 构建,但我通过从 App Store 下载的应用访问它,这对 Apple 在多大程度上是问题?即使软件的性质完全改变、不再有应用,你用什么设备问 LLM 问题?可能有漂亮的大彩色屏幕、一天的电池续航、麦克风和好摄像头——听起来像 iPhone


七、问题的演变:从 GPT-3 到现在 (50:20 - 57:38)

7.1 两年半来问题几乎没变

2023 年春天可以列出半打问题:开源、中国、NVIDIA、规模是否会继续扩大、图像会发生什么、OpenAI 的领先地位能保持多久。这些问题在 23-24 年基本没变。

"会有多少模型?"的答案很明显:任何能拿出几十亿美元的人都可以拥有前沿模型。大模型和小模型?设备端运行小模型?不会,因为小模型能力提升太快,无法缩小到设备上。

7.2 现在有了更多产品战略问题

随着真正的消费者采用出现,以及 OpenAI、Google、Amazon、Apple 朝不同方向发展,感觉行业里发生的事情不仅仅是"再建一个模型,花更多钱"。

科技之外也有更多问题——特别是零售媒体方面:除了简单自动化,新收入来源是什么?会构建什么新东西?这会如何重新定义市场?

7.3 LLM 正在澄清"真正要做的工作是什么"

LLM 让人开始思考一个根本问题:我到底想做什么? 我只是想要计算机现在可以回答的东西吗?还是想要别的?

  • 我想要博洛尼亚肉酱食谱,还是想听 Stanley Tucci 谈论在意大利烹饪?
  • 我想要那个 SKU,还是想弄清楚应该买哪个产品?
  • 我只想要幻灯片,还是想花一周时间和 Bain 的合伙人讨论如何思考这件事?
  • 我只想要钱,还是想和 a16z 合作、利用他们的运营团队?

7.4 报纸的教训:你不知道自己真正是什么

关于报纸的观察是:报纸关注互联网时,他们谈论专业知识、内容策划、新闻业,但没有真正意识到"我们是一家轻工业制造公司和本地分销运输公司"——那才是问题的关键。在互联网出现之前,你不会考虑这个问题。

LLM 可能揭示以前未被认识到的防御能力或盈利基础。美国医疗保险的盈利基础可能是让事情变得枯燥、困难和耗时——而 LLM 可以消除枯燥、耗时、令人麻木的任务。哪些行业受此保护而不自知?


八、定义一个比互联网更大的未来 (57:38 - 结束)

8.1 不要忘记互联网和 iPhone 有多巨大

我们忘记了 iPhone 和互联网有多么巨大。你仍然可以在科技界找到声称智能手机没什么大不了的人——这正是人们抱怨 Evans 的原因:"这个白痴认为生成式 AI 和那些愚蠢的手机一样重要。"

8.2 什么样的突破才能让 AI 超越互联网?

我们现在拥有的东西,在非常狭窄和严格的约束条件之外,并不能替代一个真实的人——这就是 Demis Hassabis 说"声称我们现在拥有博士级别能力是荒谬的"的原因。

要让 AI 被认为比互联网更大,我们需要看到真正改变我们对其能力认知的东西,使它实际上成为一个人,而不是"有时能很好地做类似人的事情,有时又不行"

这是一个棘手的概念问题。什么时候才能知道这是 AGI?Larry Tesler 说:"AI 是任何尚未奏效的东西"——一旦人们说它有效,就会说"那不是 AI,那只是软件"。

我只能给出一个具体答案:我们现在拥有的不是那样的东西。它会成长到那样吗?我们不知道。你可能认为会。我不能说你是错的。我们只能拭目以待。

目录与工具

从右向左滑动可关闭