156 OpenCalw、OpenAI vs Anthropic 的三重对阵、自进化丨 AI 季报 26Q1 - 主题精读稿
156 OpenCalw、OpenAI vs Anthropic 的三重对阵、自进化丨 AI 季报 26Q1 - 主题精读稿
前言:AI Agent 从概念走向日常,三条主线重塑行业格局
2026 年第一季度,AI 领域发生了三件足以定义这个季度的大事:OpenClaw(小龙虾)以聊天软件为入口引爆个人 Agent 浪潮,Anthropic 与 OpenAI 围绕 Coding 产品展开正面对阵,以及 AI 自我进化从科幻概念逼近工程现实。这三条线索彼此交织——Coding Agent 正在成为通用 Agent,模型能力趋于收敛后竞争转向产品生态,而自进化则预示着"加速度的加速度"即将到来。与此同时,硅谷科技大裁员和全球软件市场的"中国化",让 AI 的影响远远溢出了技术圈。
一、OpenClaw 开启个人 AI Agent 的 iPhone 时刻 (00:06 - 16:50)
OpenClaw(小龙虾)是 2026 年第一季度毫无疑问最火的开源项目。过去约 60 天,它在 GitHub 上的星标数量超过了 React 十年的积累。但它并非技术上的突破,而是一次交互范式的革新。它做对的核心是让 AI 来到用户的生活,而不是让用户去找 AI。
这个类比值得展开:触摸屏在 iPhone 之前就有了,LLM 循环调用、工具使用、记忆机制在 Claude Code 和 Manus 上都已存在。OpenClaw 的贡献在于把这些组件放进了一个所有人都想用的产品形态里。它跑在本地电脑上,能访问用户的文件和全部系统权限,又通过 WhatsApp、Telegram、飞书等聊天软件分发,不需要学习新的界面。加上定时任务和长期记忆,它让用户越用越离不开。
这和 Claude Code 形成了有趣的对比。Claude Code 在 Terminal 里运行,天然面向开发者;Manus 作为云端 Agent,面向知识工作者;而 OpenClaw 通过聊天软件的分发,覆盖了从小学生到退休老师的广泛人群。在中国,闲鱼上甚至出现了五百元上门安装小龙虾的服务。
OpenClaw 在中国的热度明显高于美国。硅谷的研究人员不太提它,因为技术上确实没有新东西,但创业者社区关注度很高。中国用户对聊天优先的产品天然有感觉——微信生态培养了这种习惯;Claude Code 和 Claude CodeWork 在国内使用不便,开源替代方案更受欢迎;中国用户对成本敏感,而 OpenClaw 与国产模型形成了天然组合。在 OpenRouter 的数据中,OpenClaw 应用里消耗最多的模型大部分来自中国公司——节月 3.5 Flash、MiniMax M2.5、Kimi K2.5、智普 GLM5 等。
这背后有一段故事:OpenClaw 的创始人 Peter Steinberg 最早用的是 Claude,但 Anthropic 先发了商标侵权律师函,又在 1 月 9 日从服务器端封掉了他通过 Claude 订阅使用 OpenClaw 的路径。Peter 在 1 月 12 日公开转向 MiniMax,发现成本只有 Claude 的 5%。MiniMax 的输入 token 是 0.2 美元、输出 1.2 美元 per 百万 token,而 Claude Opus 4.6 大约是 25 美元——20 倍的差距。在 Agent 场景下,一个复杂任务要调用模型几十上百次,成本差被成倍放大。
但 OpenClaw 的不足同样明显:贵、不稳定、有安全风险。一个典型案例是 Meta 超级智能实验室的 Alignment 负责人分享的"恐怖片"经历。他让 OpenClaw 整理 Gmail 邮箱,明确要求"做任何操作前先确认"。但邮件太多导致上下文爆炸,Agent 自动压缩上下文时默默丢弃了安全指令,开始疯狂删除未读邮件。他在手机上打字要求停止,Agent 完全无视,最后不得不冲到 Mac mini 前拔网线。
现在 AI 在长时间工作中反而会变笨。Context 窗口有限,长任务中上下文被压缩,重要指令被丢弃。有的时候你跟它合作越久,你会觉得它反而越不可靠。
这指向了一个关键的研究方向——持续学习。当前模型没有真正的长期记忆,只有不断被压缩和遗忘的短期上下文。
OpenClaw 本身也在快速迭代。3 月 22 日的大版本更新做了新的执行沙箱来防止危险代码,加入了安全环境变量和 Webhook 签名验证,以及完整的密码管理 CLI。上下文压缩也被做成了插件,社区出现了"lossless flow"这样的无损压缩方案。
OpenClaw 对 SaaS 行业的冲击引发了广泛讨论。过去中国 SaaS 难做,因为大厂有钱招程序员自己写软件。**现在 AI Coding Agent 扮演了廉价程序员的角色,同样的逻辑正在全球范围内发生。**大家都可以用 Claude Code 给自己"vibe code"出需要的软件,为什么还要花几万甚至几十万一年购买 SaaS 服务?传统 SaaS 公司不会消失,但利润率会被压缩到与用户自己写代码的成本大致相当的水平,百分之八九十的 margin 时代可能一去不返了。
二、Anthropic 与 OpenAI 在 Coding 产品线的正面对阵 (16:50 - 33:10)
大公司已经全面进场。黄仁勋在 GTC 上说 OpenClaw 是下一个 ChatGPT,NVIDIA 推出了 NemoClaw——本质上是 OpenClaw 加企业级安全层。而 Anthropic 受 OpenClaw 启发,在 52 天内为 Claude Code 发布了 74 个功能,几乎是在系统性地复刻 OpenClaw 的特性:通过 Telegram、Discord 下指令的 Channels 功能,手机远程操控电脑上 Claude Code 的 Remote Control,控制鼠标键盘屏幕的 Computer Use,定时任务,以及能自主启动和协调多个 Claude Code Work 的 Dispatch。OpenAI 则直接把 Peter Steinberg 收入麾下,但加入后尚未公开新产品。
**Anthropic 的收入增长堪称疯狂。**2025 年 12 月 ARR 为 90 亿美元,到 2026 年 3 月初已达 190 亿美元——不到三个月增长 100 亿。OpenAI 同期从 214 亿增长到 250 亿。此前是 90 亿 vs 214 亿的体量悬殊,现在变成了 190 亿 vs 250 亿的贴身肉搏。Claude Code 作为 Anthropic 的杀手级应用,ARR 约 25 亿美元,已超过 Cursor 的 20 亿。
Anthropic 70% 到 75% 的收入来自 B2B 和 API,而 OpenAI 更依赖消费者订阅。这种结构差异反映了两家公司的基因不同。Anthropic 更聚焦——基本上就是编程加企业用户;OpenAI 则什么都做——ChatGPT、API、各垂直行业、Sora(前两天刚关闭)、OpenAI for Science。OpenAI 应用负责人 Fiji 在三月中旬的全员会上坦言:
We cannot miss this moment because we are distracted by sidequests.
他们正在砍掉 Atlas 浏览器、广告、电商集成等项目,向 coding 和企业生产力聚焦。
XAI 在本季度经历了灾难性的人才流失。张国栋、戴子航等重要联合创始人离职,大部分人流向了其他 Lab,被 Anthropic 吸收的可能最多。起因是 Opus 新模型发布后 coding 能力大幅增强,加上 XAI 自己的模型训练不顺利,刺激了马斯克,压力传导到了团队。Google 虽然声量不如去年下半年,但在产品集成上进展稳健,Chrome、Gmail、Google Docs 等都整合了 AI。
三、模型能力收敛与开发者生态的平台化竞争 (33:10 - 54:50)
Claude Code 对开箱即用的体验显然优于 OpenClaw,但两者面向不同用户群。Claude Code 的初始客群是专业程序员的"深水区"工具,OpenClaw 是面向大众的"浅水区"入口,Claude CodeWork 则是连接两者的桥梁。Anthropic 从专业人群向外扩展,OpenClaw 从大众入口向内深入,形成了相向而行的态势。
Cursor 的窗口正在收窄。短期内,大量美国企业开发者还在从 GitHub Copilot 迁移过来,Cursor 作为中间站仍有增长空间。但长期来看,Claude Code 的增速太快,Cursor 最大的价值——海量高质量工程轨迹数据——这个护城河也在被侵蚀。
Opus 4.6 和 GPT-5.4 的实际使用差异很能说明问题。Opus 4.6 拥有 100 万上下文,能连续工作约 15 小时不崩溃,被 Andrej Karpathy 的 Auto Research 项目优选执行。GPT-5.4 在 OS World(模拟人类使用电脑的 benchmark)上达到了 75%,超过人类的 72.4%,并具备原生 Computer Use 能力。但在开发者的实际体感中,**Codex 在纯写代码能力上更强,Opus 和 Claude Code 在理解用户意图和交流舒适度上更胜一筹。**Dylan Patel 的玩笑很传神:Codex 像是一个"编程版的雨人"——在编程上花了大量时间学习、成绩特别好,但交流能力不行;Opus 则感觉像 AGI,全面且聪明。
这催生了一种奇特的用法:很多开发者给 Claude Code 写一个 skill,需要写代码或 review 时调用 Codex 执行,用 Opus 做思考和规划。相当于主人是 Claude Code,奴隶是 Codex 在干活。OpenAI 自己也知道这个问题,正在想办法"翻身做主人"。
这种体验差异背后,Anthropic 在用户体验优化上的积累更深。Benchmark 有点像手机的硬件参数,能部分描述产品质量,但真正的开发者体验是更重要的维度。苹果经常跑分不如安卓,但用户体验赢得了市场。Anthropic 更早更聚焦在 coding 上,接触用户更早,积累的使用数据更多——这形成了一个正向循环。
竞争的下一阶段已经不再是谁的模型更聪明。**GPT-5.4、Opus 4.6、Gemini 4.1 的差距在缩小,Benchmark 不再是差异化来源。**真正的竞争维度转向了开发者生态、企业信任(安全、合规、可靠)和推理成本。Google 的优势可能不在当前模型能力,而在数据、分发渠道和 TPU 算力。
模型厂商也面临被商品化的风险——类似 2000 年互联网泡沫中 Cisco 的遭遇。这驱动所有人走向垂直整合:从模型到开发者工具到上层应用,全部自己做。没有自己产品触手的纯模型公司,在 Benchmark 不再是唯一指南针的时代,连优化方向都会迷失。有自己的应用和产品,才能从用户实际使用中收集信号。
一季度还有一个插曲:Cursor 被发现在新模型中使用了 Kimi 的 K2.5 而未披露。这对中国开源模型是一个极好的认可,但一个即将以 55 亿美元估值融资的公司在开源模型使用和 license 上犯这种低级错误,着实令人吃惊。Kimi 官方的回应非常大气——没有任何指责,只表达了合作的骄傲和开放。
全行业 all in coding 的趋势已经非常清晰:如果一个模型 coding 不行,就没有办法做个人助理。长上下文已成标配,长流程任务处理能力是所有人关注的焦点。
四、AI 自进化与持续学习开启 AGI 研发新路径 (1:07:09 - 1:25:35)
Andrej Karpathy 在 NanoChat(一个几百行 Python 代码就能训练 GPT-2 级别小模型的教学项目)基础上发起了 Auto Research 实验。核心机制是让 AI Agent 反复修改训练代码,目标是降低 bits per byte 这个评估指标。人类写了一个 program.md 文件作为实验指导方针,之后 AI 自主完成:读代码和之前的结果、想一个改进、用代码实现、跑 5 分钟训练看结果、重复。大约 15 分钟一轮,一个小时 4 个实验,一个晚上就能跑 100 个。最终找到了 20 多个有效改进,将 GPT-2 级别小模型的训练时间缩短了 17% 到 20%。
**这件事的意义不在于技术新颖——AI 自我优化的想法存在已久——而在于以前的梦想正在变成现实。**一年前 Google 内部就在做类似尝试,他们有一个叫 Model Lineage Map 的东西,一个有向无环图,每个节点是一个模型,每条边记录了版本之间的改进,目标是让 AI 分析这个图来预测下一步最有价值的研究方向。当时模型的 coding 能力还不够强。现在,多个数据点同时出现:Google 的 Alpha Evolve 用 Gemini 优化 Gemini 自己的 Kernel,提升了 23%;GPT-5.3 Codex 参与了调试自己的过程;MiniMax 的 M2.7 副标题直接写着"Early Echoes of Self-Evolution";一些顶级研究员从 OpenAI、Anthropic 出来创业做相关方向;多家 Lab 已有 30% 到 50% 的强化学习研究工作流由模型自己完成。
这是加速度的加速度——AI 研究本身被自动化了。
但目前 AI 自进化仍有明确边界。目标需要人来设定,而且必须是具体的、可量化的目标,配合快速的反馈循环。Shopify CEO 把类似方法用在模板引擎上,模型做了 93 次自动提交,渲染速度提升 53%。但如果优化目标不够具体、搜索空间太大,AI 会把东西改烂又改不回去。视觉效果验证这类主观判断的场景,AI 自动化循环也跑不起来——一个给网站加暗夜模式的简单任务,Devin 和 Claude 两个 Agent 各跑了一个多小时都没搞定。
持续学习和自进化是两个不同但相关的方向。持续学习解决的是模型部署后权重就固定、无法获得新知识和新能力的问题。目前有两个路径:一是基于文本的记忆机制——这是"穷人版"的持续学习,简单易用但受上下文压缩限制;二是更新小部分权重的 Test Time Training,Stanford 孙宇团队在做前沿探索,但目前只在几十亿参数的小模型上验证了可行性,能否 scale up 到几百亿甚至万亿参数级别仍是未知数,且每次推理都要更新权重对基础设施要求很高。研究者们的共识是:目前的方法有 over-engineering 的嫌疑,大家期待一个在机制上与 Skills 或 Memory 同样简单、但效果更好的方案。
世界模型领域也涌现了不少创业公司:李学飞的 WorldLab 偏向 3D 世界建模;Yann LeCun 新成立的 AMI 公司延续 JEPA 模型方向;Google 前 Dreamer 团队负责人 Daniel 的新公司偏向 Policy(看了视频后应该采取什么行动),与 Robotics 结合;还有做交互式视频模型的——给定视频和动作,预测下一步会发生什么。这些模型主要瞄准两个应用方向:交互式媒体(如实时生成的游戏世界)和具身智能。
五、算力转折:从训练到推理 (1:27:00 - 1:29:16)
GTC 大会的主题标志着一个行业转折——从训练到推理。Valor Rubin 的推理性能提升了 3 到 5 倍,token 成本降了 10 倍,这对个人 Agent 的大规模部署是重大利好。NVIDIA 去年 12 月收购的 Groq 的 LPU 也被集成到了 Valor Rubin 中。
Google 最近对 KV Cache 的改进同样值得关注——通过 Quantization 压缩 KV Cache,将存储需求降至原来的六分之一。推理优化上还有很大的空间。
一个被忽视的趋势是 CPU 需求的增长。现在"everything is becoming computer"——Agent 活在一个虚拟电脑里,还能自己开不同的 sandbox 跑任务。模型推理用 GPU,但执行代码、运行环境都靠 CPU。一些投资人的结论是应该买 ARM 的股票,因为 ARM 给各家厂商授权 license,是最干净的 CPU 金融资产。
六、AI 驱动的全球科技行业大裁员与组织重构 (1:30:09 - 1:49:20)
三个数据点描绘了这个季度的裁员图景:亚马逊年初悄无声息裁了 16000 人,其中很多工程师;Block CEO Jack Dorsey 宣布裁员 40%,明确说不是因为财务问题,而是因为 AI 让公司能以更少的人做到同样甚至更高的产出,并预言大多数公司一年内会做同样的事;Meta 让全员停工一周学 AI,管理层以 token 消耗量衡量团队效率——然后宣布裁员 20%(约 15000 人),将省下的钱三倍投入 AI CAPEX,达到约 650 亿美元。
Meta 的 token 消耗量指标催生了荒诞的景象:有人让 Claude Code 跑一个 loop,疯狂输出无意义的 token。这家公司历史上就曾用代码行数衡量 performance,在 AI 时代把代码行数换成了 token 量。
裁员潮可能才刚刚开始,而且受影响的人找工作的难度远超上一轮。
在中国,很多创业公司 CEO 虽然不会公开讨论因 AI 减员,但实际上深受冲击。一个有代表性的思路转变是:以前是一流人才搭配二流三流人才完成任务,现在变成超一流人才搭配 Agent 和 AI,公司总人数减少,但用人成本不一定线性下降——更多预算给了能把 AI 用得更好的人。
这非常像电影《2012》里洪水的场景。你所处的海拔就是你的技能高度,越高越安全。被淹过去了,你就被取代了。
一个律所的故事很说明问题:甲方临时要求当天修改合同七个要点,第二天交回。以前要奋战一整晚。用 Claude 两三个小时、两三个人就完成了,还发现甲方的要求本身自相矛盾,精准地做了 push back。稍微有 AI 实力的小律师团队已经能超过甲方大律所的能力。但律师不太好被完全取代——搞人的工作是最安全的,人脉、关系、说服力这些能力 AI 做不到。
关于 AI 对社会不平等的加剧,一个新思路是对 token 收税:不能无限制地投钱造推理把人裁掉,每个 token 除了成本还要交税。这个逻辑和之前反对制造业转移到中国的逻辑一样——以前是中国工人抢了美国人的工作还不交税,未来是 AI 抢了所有人类的工作还不交税。
展望下一季度,DeepSeek V4 的发布最受期待,但期望值被拉得很高,压力不小。Computer Use 的 benchmark(CUB)目前最强模型也只有百分之十几的表现,突破空间巨大。持续学习和自进化能多快落地仍是最大的不确定性——大家期待一个简单有效的新机制,但目前还没有人完全掌握配方。