Zane3

OpenAI 自废 SWE-bench Verified:基准污染后, AI 编程分数还能信吗?

  •  
  •   Zane3 · Feb 25 · 1104 views
    This topic created in 100 days ago, the information mentioned may be changed or developed.

    先说结论:跑分看个参考就行,别太当真。

    OpenAI 最近发了篇博文,宣布停止使用自家的 SWE-bench Verified 基准。查出了两个致命问题:

    问题一:数据污染

    SWE-bench 的题目来自开源 GitHub 仓库,而这些仓库也是模型训练数据的来源。OpenAI 做了污染检测,发现所有前沿模型( GPT-5.2 、Claude Opus 4.5 、Gemini 3 Flash )都能复现标准答案:

    • GPT-5.2:给简短提示就能输出完整 gold patch ,精确到类名和方法名
    • Claude Opus 4.5:能逐字引用代码注释,准确描述 PR 删掉的代码
    • Gemini 3 Flash:只给任务 ID ,就输出逐字匹配的完整 diff

    这不是能力强,是背过答案。

    问题二:测试设计缺陷

    审计了 138 道题(约 28%),每题至少 6 名工程师独立审查:

    • 59.4% 存在测试设计缺陷
    • 35.5% 是「窄测试」:强制检查特定实现细节,比如测试直接 import 一个特定函数名
    • 18.8% 是「宽测试」:检查了题目描述之外的功能

    SWE-bench Verified vs Pro

    维度 Verified Pro
    题量 500 1865
    语言 Python Python/Go/TS/JS
    平均改动量 11 行 107 行
    仓库数 12 41

    同一批模型:Verified ~80%,Pro ~43-50%。分数腰斩。

    原文: https://openai.com/index/why-we-no-longer-evaluate-swe-bench-verified/

    No Comments Yet
    About   ·   Help   ·   Advertise   ·   Blog   ·   API   ·   FAQ   ·   Solana   ·   2465 Online   Highest 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 29ms · UTC 00:41 · PVG 08:41 · LAX 17:41 · JFK 20:41
    ♥ Do have faith in what you're doing.