No.94 不服跑个分，AI Benchmark 指标如何解读？ - 主题精读稿

2026年5月3日

No.94 不服跑个分，AI Benchmark 指标如何解读？ - 主题精读稿

前言：当跑分成为厂商共识，体感才是用户的最后防线

每一次新模型发布都会附带一张柱状图——SWE-bench、Humanity's Last Exam、GPQA、ARC-AGI——分数高低之间，仿佛模型能力被精确量化。但这期 Web Worker 把整张表撕开来看：榜单的本质是"针对性刷题"，分数到 90% 就失去区分度，行业立刻转向更难的新维度。当 SWE-bench 从普通版进化到 Verified 再到 Pro，当编程战事接近尾声，竞争开始向金融、长任务、多模态迁移。最后留给开发者的判断标准只剩一条：榜单代替不了体感。

一、大模型跑分榜单的构成与行业现状 (00:04 - 06:26)

Claude Opus 4.7 的发布让"放一张跑分表"再次成为话题。每一个新出的基础模型——无论是国外的 Claude、GPT、Gemini，还是国内的 DeepSeek、千问、Kimi、MiniMax——都会附上一张表或一个柱状图，宣称自己在某个领域第一，或与最强模型"打得有来有回"。新产品发布的意义，已经被这张表格定义。

榜单大致可以分成三派：学院考试派（如 Humanity's Last Exam）、盲测派（不告诉你考什么，看综合表现）、特定领域派（如程序员只关注 coding）。从技术演进的视角看，商业级大模型现在基本不再以 perplexity 这类 pre-training 指标作为对外宣传，而是用 SWE-bench、Humanity's Last Exam 这类"知识型或工具应用型"的实际场景 benchmark 跑分。

现在已经不是看底座模型或者 pre-training 本身的效率，而是看你怎么样在实际生产功能当中使用。

这背后是一条清晰的发展轨迹：早期模型以文本为主，纸质书扫描就是大事；当世界上的纸质书都扫完之后，重点转向语调、风格、特定能力的差异化；现在又开始向全能方向奔跑。Claude Code 最早以编程能力突出闻名，到 4.6 时除了编程之外各方面都能打，"在说人话上情感最丰富，比 GPT-5.4 强多了"——但这种体感判断恰恰说明，单一榜单分数无法代表一个模型的全貌。

二、编程能力评测标准 SWE-bench 的演进逻辑 (06:26 - 14:16)

SWE-bench 的演进史，是一部"刷分→提纯→再刷分"的循环。

2023 年某机构推出第一代 SWE-bench，思路很朴素：从主流开源仓库（比如 Django）中挑出一千多个真实的 GitHub PR，把 bug 描述部分交给模型，让它生成修复 PR，再用真实世界的测试用例验证是否通过。这种方式的中立性极高——通不通过由机器执行测试决定，没有主观空间。

但很快暴露问题：原始版本太朴素，没有筛选过滤。有些 PR 一次修复了好几个问题，模型只针对描述里的特定 bug 修，自然永远拿不到分；还有些 PR 质量本身就水。于是出现了 Verified 版本——专家人工筛选出干净的子集，剔除"一 PR 修多 bug"和单词拼写歧义这类干扰，提高宽容度。这是目前业界提到 SWE-bench 时默认的版本。

然而 Verified 也很快被刷到 80 到 90 分以上。当一个榜单大家都奔向 100% 时，它就失去了意义。 于是 Pro 版本出现，难度再次提纯——4.7 在 Verified 上拿到 87 分，到 Pro 就降到 64 分。

与此同时，Terminal Bench 这类新榜单补充了另一个维度：AI 不仅要会修代码，还要会用 Bash、会操作终端。流程是 AI 克隆仓库、定位问题、修复、验证。目前这个分数大家普遍刚过半，最高 70 多分，还没进入"快结束"的区间。

但这里隐藏着一个值得警惕的设计漏洞：

它实际上测的不是模型的基础能力，而是你整个 AI Agent 的一个能力。它是结合你这个基础模型，然后再结合你当前的 Agent 去测的。然后再加上它又是题库，又是来自于 Github 的那个 PR——那么这个榜单就可能会大家针对这些 issue 做单独的训练优化。这也是可能有时候我们看着榜单分数很高，但实际体验一言难尽。

有的模型甚至能识别出特定数字或 PR 描述，自动给出预设答案——人类读起来不理解的题，模型已经把答案"背"出来了。所以同一张榜单上分数靠前的模型，在 coding 实际体感上可能并不好，水分难免。

三、多学科综合能力与垂直领域评测指标解析 (14:22 - 28:44)

跳出 coding 这个最公平的赛道，跑分世界变得更加复杂。

Humanity's Last Exam（人类最后一场考试） 是这一类的标杆。题目由全球各领域博士和专家共同设计，覆盖跨学科综合分析。它的关键特征是所有题目在网上没有现成答案——这意味着模型无法通过把标准答案训进去来提分，只能靠真实的推理能力。考试还分两种模式：不使用工具（纯算力推理）和使用工具（接入计算器等外部辅助），后者通常分数更高，因为像数学计算这类容易产生幻觉的环节，工具能直接消除误差。

在有标准答案的情况下，人类是肯定不如 AI 的。

但 Humanity's Last Exam 没有标准答案。最强模型目前刚刷到 50 分左右，已经算指日可待——因为人类专家在自己研究的领域可能能到 80~90%，但那是建立在多年 PhD 训练基础上的。AI 没有这个基础就能达到一半，已经是飞跃。

只要分数还偏低，就说明它有效；一旦能被刷到 90 分以上，区分度就消失。 这个判断标准在其他榜单上反复验证：

MCP 工具调用：测的是模型调用工具的"积极性"。现在出来的模型基本都有 70~80 分以上，"现在模型发出来之后，和工具相关的都不会有特别差了"。
OSWorld：让 AI 操作浏览器、驱动鼠标键盘完成办公室日常任务。现在已经接近 80 分。
金融分析：60 多分，"看来这个题目还是很难"。这是少数尚未被刷烂的方向，"以后可能会刷的挺多"。
Hack 测试（攻防）：给一个看似正常的 shell 脚本，让 AI 在其中补充攻击命令以达成删除特定目录的目的，模拟红黑测试。最高分 75，接近临界点。
GPQA：硕士级理工科考试，被刷到 95% 左右，"已经被杀烂了"。
ARC-AGI：抽象推理测试，类似公务员考试中的图形找规律。Gemini 3.1 已刷到 77%。Claude 没有原生生图能力，所以没参与这个榜单。
MMLU：综合多学科知识，出现得早，"大家都精心调教过"，分数普遍偏高。

视觉推理这一类则更偏特化——比如读柱状图、折线图，再根据图表得出结论或做经营预测。"这是我们人类日常用得最多的一项技能。"

这一节最重要的洞察并不在某一个榜单本身，而在跨榜单的共性：

只要是他标识的百分之多少，不一定高的就一定会比低的好。它可能就是说在这个情况下解决百分之八十的问题，如果你需要的模型能力正好能覆盖那百分之六十，那对你来说体感也很好。

榜单是离散的切片，体感是连续的真实。

四、国内外主流模型评测体系的对比与差异 (28:44 - 40:07)

打开 GPT-5.4、Gemini 3.1 Pro 和国内 GLM-5.1、MiniMax 2.7、Kimi 2.5 的发布页，会发现一个共性现象：每家都发自己的跑分表，但比较的对象、选取的榜单各不相同。

GPT-5.4 不与竞品对比，而是与自家的 5.3、5.2 比，主要列出 SWE-bench Pro、OSWorld、BrowserComp，外加最近在玩的 GDP 游戏——让 AI 模拟运营国家或生产链，做投资和建设决策，最终看得分。

Gemini 3.1 Pro 给了一张大表，对比 Claude 4.6/Opus 4.6、GPT 5.2/5.3 和自家上一代 Gemini 3 Pro。覆盖 Humanity's Last Exam、GPQA、Terminal Bench 2.0、SWE-bench 两个版本、GDP 游戏、MCP 工具调用、Agent Search、MMLU 等。

国内厂商各有侧重：

GLM-5.1（4 月 8 日发布）主打 coding，盲测中"开源第一、国产第一"。它特别引入了一个 NL2Repo 榜单，这是开始尝试做"长任务"评测的代表——比如做一个俄罗斯方块，AI 自主创建仓库或克隆仓库，逐步自我调整、跑集成测试或单元测试，最终交付。号称可以长时间工作 8 小时。
MiniMax 2.7 除了 SWE-bench Pro 各版本（含多语言版、Web Coding 版），还推出了一个 Claude Bench——拥抱 Claude Code 生态的标志。
Kimi 2.5 原生多模态，所以榜单除了文字代码部分，还包括图像理解和长视频能力。
千问 3.6 Plus / 开源版 最有意思的是它推出了"千问 Claude Bench"和"千问 Web Bench"——以自家工具命名的榜单。

今天有龙虾，明天就可以有一个爱马仕的榜单。

当评测维度细化到一定程度，每家厂商都可以构建自有榜单，把它对比的对手、对比的赛道彻底定制化。这是榜单数量爆炸的根本原因，也是榜单可信度被稀释的根本原因。

五、评测榜单的局限性与开发者实际体感 (40:07 - 48:46)

把时间线拉长，对比就更清晰了。一年前 DeepSeek V3 刚发的时候，编程部分分数大概 36.8 到 49.2 之间，对比的是 OpenAI o1（已经退役）和 o1-mini。当时的 49 分编程能力，到 Claude 现在的 SWE-bench 87 分——接近 80% 的提升。GPQA 当年 78 分，现在已 90 多分到顶；MMLU 当年就快到顶了，现在还是 90 多。

这给出一个清晰的规律：

排行榜大家一定会越来越高。如果一个榜单大家都能跑到 95 分以上，区分度就不是特别大了。那就显然就需要升级或者一个新的榜单，把这个难度提升一档，大家再变成 50 分以下，这样才有区分度。

所以今年流行 SWE-bench，明年大概率就换了新指标。 而 coding 部分之所以最先被"卷完"，原因极其朴素：

编程最中立，因为是机器在跑，所以它是最容易验证，也最容易打分的。所以 coding 非常公平，也非常的残酷。

公平在于谁都没法作弊；残酷在于一旦被量化，进步就是单向的——你只会越来越接近它的天花板，再没有藏身之地。

但即便 SWE-bench Pro 都被刷到 80 分以上，也不等于程序员失业。原因在于代码质量本身存在难以 benchmark 的维度：

A 公司的规范代码，到了 B 公司就不规范了。

可维护性、代码品位、long horizon 的工程判断——这些没法用一次 benchmark 跑完。"diff 少不一定好"，"AI 写出来的代码还是傻的，还是要手动帮他拨一拨拨一拨"。这部分仍然是人类的专属阵地。

但战事重心一定会转移。coding 卷完之后，下半年开始要"革金融老的命"。video 和图像生成已经在国内卷得很激烈（字节为首），下一个被攻克的赛道很可能就是金融分析、医疗这类垂直领域。"看谁站出来说我没有被替代，那我们再去搞一个。"

而这一节最重要的提醒——也是整期节目的题眼——是：用户体感不取决于哪个模型 SOTA，而取决于你的使用场景与模型擅长方向的契合度。

大家体感不一样，可能是你的场景切合到模型的不同的榜单。如果说你只用了这部分能力，那实际上哪个模型来说对你就无所谓，你感觉到都是优秀，都是很好。

加上"提问技巧"和与模型的"磨合时间"——你懂它的脾气，效果就会更好。这种主观经验积累，是任何 benchmark 都无法替代的。

六、OpenRouter 流量数据背后的模型使用趋势 (48:46 - 1:03:16)

OpenRouter 是全球最知名的模型路由分发平台——通过统一接口调用各种开源闭源模型，提供详细的用量统计。它已经形成一个新规矩：新模型发布常用匿名方式登录 OpenRouter 让大家盲测，通过用量数据观察真实接受度。

但 Token 消耗排行需要谨慎解读。小米罗福利提醒过：很多模型上线时是限免的——用户填进 key 就能用，不需要支付成本，于是流量短期爆表。所以本周 Sonnet 排第一、DeepSeek v3.2 第二、小米 MiMo v2 Pro 第五的数据，并不能直接等同于"模型质量排序"——它是质量、限免策略、自动化 Agent 调用、2B 项目转发等多重因素的混合产物。

更值得关注的是宏观趋势。打开 OpenRouter 顶部的总消耗量曲线，从 2025 年 4 月到现在：

现在一周最顶的模型基本上是在 1.3T，乘以 4 的话得 5T，相当于过去一年所有的模型调用量的总和还要高。

这背后是用户结构的根本性迁移：

一开始我说的是你代码聊天才能用多少？后面就变成了代码补齐才能用多少？最后说这个 web coding 才能用多少？现在说程序员才能用多少？普通人入场才是真正的繁荣。

未来 token 消耗大户会从程序员转向普通大众，再从大众转向 Agent 自身——AI 调用 AI 的链路一旦打开，token 消耗会再上几个数量级。"现在人能用多少？那背后的智能化肯定有更多的推进大户。"

OpenRouter 的其他维度也提供了观察窗口：

市场占额：Google 颜色在相对降低，DeepSeek 的占比在缩小。
Benchmark vs Cost：Claude 4.7 钉在右上角——效果最好，花钱最多。
吞吐量：每秒 token 推理速度的竞争中，开源模型领先（GPT OSS 大尺寸版到 900 多 K/s）。"就跟前段时间有个产品网站一秒几千个 token 直接写死在 CTO 上了，你就说快不快，数学一塌糊涂。"
分类排行：编程、SEO、健康、旅行——可以预见，"编程剪完了卷完了，就去剪健康啊旅行啊"。
消耗大户识别：OpenCloud（Claude Code）本周断档第一；Codex（"国内称之为爱马仕"）1.7TB，与第一有两倍差距。VS Code 里的插件类调用占据榜单中段。

最终的判断回到一个朴素的原则：新阶段的标志不是榜单数字，而是用户结构的扩张。 程序员才能用多少 token，人类才能用多少 token，Agent 能用多少 token——三者依次跃迁，每一次跃迁背后都是一个新评测维度的诞生。

而对个体开发者，结论始终是 SMART 那一句——榜单代替不了体感。