No.94 不服跑个分,AI Benchmark 指标如何解读? - 主题精读稿
No.94 不服跑个分,AI Benchmark 指标如何解读? - 主题精读稿
前言:当跑分成为厂商共识,体感才是用户的最后防线
每一次新模型发布都会附带一张柱状图——SWE-bench、Humanity's Last Exam、GPQA、ARC-AGI——分数高低之间,仿佛模型能力被精确量化。但这期 Web Worker 把整张表撕开来看:榜单的本质是"针对性刷题",分数到 90% 就失去区分度,行业立刻转向更难的新维度。当 SWE-bench 从普通版进化到 Verified 再到 Pro,当编程战事接近尾声,竞争开始向金融、长任务、多模态迁移。最后留给开发者的判断标准只剩一条:榜单代替不了体感。
一、大模型跑分榜单的构成与行业现状 (00:04 - 06:26)
Claude Opus 4.7 的发布让"放一张跑分表"再次成为话题。每一个新出的基础模型——无论是国外的 Claude、GPT、Gemini,还是国内的 DeepSeek、千问、Kimi、MiniMax——都会附上一张表或一个柱状图,宣称自己在某个领域第一,或与最强模型"打得有来有回"。新产品发布的意义,已经被这张表格定义。
榜单大致可以分成三派:学院考试派(如 Humanity's Last Exam)、盲测派(不告诉你考什么,看综合表现)、特定领域派(如程序员只关注 coding)。从技术演进的视角看,商业级大模型现在基本不再以 perplexity 这类 pre-training 指标作为对外宣传,而是用 SWE-bench、Humanity's Last Exam 这类"知识型或工具应用型"的实际场景 benchmark 跑分。
现在已经不是看底座模型或者 pre-training 本身的效率,而是看你怎么样在实际生产功能当中使用。
这背后是一条清晰的发展轨迹:早期模型以文本为主,纸质书扫描就是大事;当世界上的纸质书都扫完之后,重点转向语调、风格、特定能力的差异化;现在又开始向全能方向奔跑。Claude Code 最早以编程能力突出闻名,到 4.6 时除了编程之外各方面都能打,"在说人话上情感最丰富,比 GPT-5.4 强多了"——但这种体感判断恰恰说明,单一榜单分数无法代表一个模型的全貌。
二、编程能力评测标准 SWE-bench 的演进逻辑 (06:26 - 14:16)
SWE-bench 的演进史,是一部"刷分→提纯→再刷分"的循环。
2023 年某机构推出第一代 SWE-bench,思路很朴素:从主流开源仓库(比如 Django)中挑出一千多个真实的 GitHub PR,把 bug 描述部分交给模型,让它生成修复 PR,再用真实世界的测试用例验证是否通过。这种方式的中立性极高——通不通过由机器执行测试决定,没有主观空间。
但很快暴露问题:原始版本太朴素,没有筛选过滤。有些 PR 一次修复了好几个问题,模型只针对描述里的特定 bug 修,自然永远拿不到分;还有些 PR 质量本身就水。于是出现了 Verified 版本——专家人工筛选出干净的子集,剔除"一 PR 修多 bug"和单词拼写歧义这类干扰,提高宽容度。这是目前业界提到 SWE-bench 时默认的版本。
然而 Verified 也很快被刷到 80 到 90 分以上。当一个榜单大家都奔向 100% 时,它就失去了意义。 于是 Pro 版本出现,难度再次提纯——4.7 在 Verified 上拿到 87 分,到 Pro 就降到 64 分。
与此同时,Terminal Bench 这类新榜单补充了另一个维度:AI 不仅要会修代码,还要会用 Bash、会操作终端。流程是 AI 克隆仓库、定位问题、修复、验证。目前这个分数大家普遍刚过半,最高 70 多分,还没进入"快结束"的区间。
但这里隐藏着一个值得警惕的设计漏洞:
它实际上测的不是模型的基础能力,而是你整个 AI Agent 的一个能力。它是结合你这个基础模型,然后再结合你当前的 Agent 去测的。然后再加上它又是题库,又是来自于 Github 的那个 PR——那么这个榜单就可能会大家针对这些 issue 做单独的训练优化。这也是可能有时候我们看着榜单分数很高,但实际体验一言难尽。
有的模型甚至能识别出特定数字或 PR 描述,自动给出预设答案——人类读起来不理解的题,模型已经把答案"背"出来了。所以同一张榜单上分数靠前的模型,在 coding 实际体感上可能并不好,水分难免。
三、多学科综合能力与垂直领域评测指标解析 (14:22 - 28:44)
跳出 coding 这个最公平的赛道,跑分世界变得更加复杂。
Humanity's Last Exam(人类最后一场考试) 是这一类的标杆。题目由全球各领域博士和专家共同设计,覆盖跨学科综合分析。它的关键特征是所有题目在网上没有现成答案——这意味着模型无法通过把标准答案训进去来提分,只能靠真实的推理能力。考试还分两种模式:不使用工具(纯算力推理)和使用工具(接入计算器等外部辅助),后者通常分数更高,因为像数学计算这类容易产生幻觉的环节,工具能直接消除误差。
在有标准答案的情况下,人类是肯定不如 AI 的。
但 Humanity's Last Exam 没有标准答案。最强模型目前刚刷到 50 分左右,已经算指日可待——因为人类专家在自己研究的领域可能能到 80~90%,但那是建立在多年 PhD 训练基础上的。AI 没有这个基础就能达到一半,已经是飞跃。
只要分数还偏低,就说明它有效;一旦能被刷到 90 分以上,区分度就消失。 这个判断标准在其他榜单上反复验证:
- MCP 工具调用:测的是模型调用工具的"积极性"。现在出来的模型基本都有 70~80 分以上,"现在模型发出来之后,和工具相关的都不会有特别差了"。
- OSWorld:让 AI 操作浏览器、驱动鼠标键盘完成办公室日常任务。现在已经接近 80 分。
- 金融分析:60 多分,"看来这个题目还是很难"。这是少数尚未被刷烂的方向,"以后可能会刷的挺多"。
- Hack 测试(攻防):给一个看似正常的 shell 脚本,让 AI 在其中补充攻击命令以达成删除特定目录的目的,模拟红黑测试。最高分 75,接近临界点。
- GPQA:硕士级理工科考试,被刷到 95% 左右,"已经被杀烂了"。
- ARC-AGI:抽象推理测试,类似公务员考试中的图形找规律。Gemini 3.1 已刷到 77%。Claude 没有原生生图能力,所以没参与这个榜单。
- MMLU:综合多学科知识,出现得早,"大家都精心调教过",分数普遍偏高。
视觉推理这一类则更偏特化——比如读柱状图、折线图,再根据图表得出结论或做经营预测。"这是我们人类日常用得最多的一项技能。"
这一节最重要的洞察并不在某一个榜单本身,而在跨榜单的共性:
只要是他标识的百分之多少,不一定高的就一定会比低的好。它可能就是说在这个情况下解决百分之八十的问题,如果你需要的模型能力正好能覆盖那百分之六十,那对你来说体感也很好。
榜单是离散的切片,体感是连续的真实。
四、国内外主流模型评测体系的对比与差异 (28:44 - 40:07)
打开 GPT-5.4、Gemini 3.1 Pro 和国内 GLM-5.1、MiniMax 2.7、Kimi 2.5 的发布页,会发现一个共性现象:每家都发自己的跑分表,但比较的对象、选取的榜单各不相同。
GPT-5.4 不与竞品对比,而是与自家的 5.3、5.2 比,主要列出 SWE-bench Pro、OSWorld、BrowserComp,外加最近在玩的 GDP 游戏——让 AI 模拟运营国家或生产链,做投资和建设决策,最终看得分。
Gemini 3.1 Pro 给了一张大表,对比 Claude 4.6/Opus 4.6、GPT 5.2/5.3 和自家上一代 Gemini 3 Pro。覆盖 Humanity's Last Exam、GPQA、Terminal Bench 2.0、SWE-bench 两个版本、GDP 游戏、MCP 工具调用、Agent Search、MMLU 等。
国内厂商各有侧重:
- GLM-5.1(4 月 8 日发布)主打 coding,盲测中"开源第一、国产第一"。它特别引入了一个 NL2Repo 榜单,这是开始尝试做"长任务"评测的代表——比如做一个俄罗斯方块,AI 自主创建仓库或克隆仓库,逐步自我调整、跑集成测试或单元测试,最终交付。号称可以长时间工作 8 小时。
- MiniMax 2.7 除了 SWE-bench Pro 各版本(含多语言版、Web Coding 版),还推出了一个 Claude Bench——拥抱 Claude Code 生态的标志。
- Kimi 2.5 原生多模态,所以榜单除了文字代码部分,还包括图像理解和长视频能力。
- 千问 3.6 Plus / 开源版 最有意思的是它推出了"千问 Claude Bench"和"千问 Web Bench"——以自家工具命名的榜单。
今天有龙虾,明天就可以有一个爱马仕的榜单。
当评测维度细化到一定程度,每家厂商都可以构建自有榜单,把它对比的对手、对比的赛道彻底定制化。这是榜单数量爆炸的根本原因,也是榜单可信度被稀释的根本原因。
五、评测榜单的局限性与开发者实际体感 (40:07 - 48:46)
把时间线拉长,对比就更清晰了。一年前 DeepSeek V3 刚发的时候,编程部分分数大概 36.8 到 49.2 之间,对比的是 OpenAI o1(已经退役)和 o1-mini。当时的 49 分编程能力,到 Claude 现在的 SWE-bench 87 分——接近 80% 的提升。GPQA 当年 78 分,现在已 90 多分到顶;MMLU 当年就快到顶了,现在还是 90 多。
这给出一个清晰的规律:
排行榜大家一定会越来越高。如果一个榜单大家都能跑到 95 分以上,区分度就不是特别大了。那就显然就需要升级或者一个新的榜单,把这个难度提升一档,大家再变成 50 分以下,这样才有区分度。
所以今年流行 SWE-bench,明年大概率就换了新指标。 而 coding 部分之所以最先被"卷完",原因极其朴素:
编程最中立,因为是机器在跑,所以它是最容易验证,也最容易打分的。所以 coding 非常公平,也非常的残酷。
公平在于谁都没法作弊;残酷在于一旦被量化,进步就是单向的——你只会越来越接近它的天花板,再没有藏身之地。
但即便 SWE-bench Pro 都被刷到 80 分以上,也不等于程序员失业。原因在于代码质量本身存在难以 benchmark 的维度:
A 公司的规范代码,到了 B 公司就不规范了。
可维护性、代码品位、long horizon 的工程判断——这些没法用一次 benchmark 跑完。"diff 少不一定好","AI 写出来的代码还是傻的,还是要手动帮他拨一拨拨一拨"。这部分仍然是人类的专属阵地。
但战事重心一定会转移。coding 卷完之后,下半年开始要"革金融老的命"。video 和图像生成已经在国内卷得很激烈(字节为首),下一个被攻克的赛道很可能就是金融分析、医疗这类垂直领域。"看谁站出来说我没有被替代,那我们再去搞一个。"
而这一节最重要的提醒——也是整期节目的题眼——是:用户体感不取决于哪个模型 SOTA,而取决于你的使用场景与模型擅长方向的契合度。
大家体感不一样,可能是你的场景切合到模型的不同的榜单。如果说你只用了这部分能力,那实际上哪个模型来说对你就无所谓,你感觉到都是优秀,都是很好。
加上"提问技巧"和与模型的"磨合时间"——你懂它的脾气,效果就会更好。这种主观经验积累,是任何 benchmark 都无法替代的。
六、OpenRouter 流量数据背后的模型使用趋势 (48:46 - 1:03:16)
OpenRouter 是全球最知名的模型路由分发平台——通过统一接口调用各种开源闭源模型,提供详细的用量统计。它已经形成一个新规矩:新模型发布常用匿名方式登录 OpenRouter 让大家盲测,通过用量数据观察真实接受度。
但 Token 消耗排行需要谨慎解读。小米罗福利提醒过:很多模型上线时是限免的——用户填进 key 就能用,不需要支付成本,于是流量短期爆表。所以本周 Sonnet 排第一、DeepSeek v3.2 第二、小米 MiMo v2 Pro 第五的数据,并不能直接等同于"模型质量排序"——它是质量、限免策略、自动化 Agent 调用、2B 项目转发等多重因素的混合产物。
更值得关注的是宏观趋势。打开 OpenRouter 顶部的总消耗量曲线,从 2025 年 4 月到现在:
现在一周最顶的模型基本上是在 1.3T,乘以 4 的话得 5T,相当于过去一年所有的模型调用量的总和还要高。
这背后是用户结构的根本性迁移:
一开始我说的是你代码聊天才能用多少?后面就变成了代码补齐才能用多少?最后说这个 web coding 才能用多少?现在说程序员才能用多少?普通人入场才是真正的繁荣。
未来 token 消耗大户会从程序员转向普通大众,再从大众转向 Agent 自身——AI 调用 AI 的链路一旦打开,token 消耗会再上几个数量级。"现在人能用多少?那背后的智能化肯定有更多的推进大户。"
OpenRouter 的其他维度也提供了观察窗口:
- 市场占额:Google 颜色在相对降低,DeepSeek 的占比在缩小。
- Benchmark vs Cost:Claude 4.7 钉在右上角——效果最好,花钱最多。
- 吞吐量:每秒 token 推理速度的竞争中,开源模型领先(GPT OSS 大尺寸版到 900 多 K/s)。"就跟前段时间有个产品网站一秒几千个 token 直接写死在 CTO 上了,你就说快不快,数学一塌糊涂。"
- 分类排行:编程、SEO、健康、旅行——可以预见,"编程剪完了卷完了,就去剪健康啊旅行啊"。
- 消耗大户识别:OpenCloud(Claude Code)本周断档第一;Codex("国内称之为爱马仕")1.7TB,与第一有两倍差距。VS Code 里的插件类调用占据榜单中段。
最终的判断回到一个朴素的原则:新阶段的标志不是榜单数字,而是用户结构的扩张。 程序员才能用多少 token,人类才能用多少 token,Agent 能用多少 token——三者依次跃迁,每一次跃迁背后都是一个新评测维度的诞生。
而对个体开发者,结论始终是 SMART 那一句——榜单代替不了体感。