OpenAI erklärt wichtigsten KI-Coding-Benchmark für wertlos

OpenAI erklärt wichtigsten KI-Coding-Benchmark für wertlos

Plot-Twist in der KI-Branche: OpenAI hat den Benchmark, den alle großen KI-Labs nutzen, um ihre Coding-Überlegenheit zu beweisen, gerade für bedeutungslos erklärt.

SWE-bench Verified, der De-facto-Standard für die Messung von KI-Coding-Fähigkeiten, ist laut OpenAI so voller fehlerhafter Tests und durchgesickerter Trainingsdaten, dass er nichts mehr darüber aussagt, ob ein Modell tatsächlich Software schreiben kann.

Der Benchmark funktioniert so: Man gibt einer KI ein echtes GitHub-Issue aus einem populären Open-Source-Python-Projekt und fragt sie, ob sie es lösen kann. Das Problem? Viele der Issues und Lösungen sind längst in den Trainingsdaten der Modelle gelandet.

Das ist so, als würde man Studenten mit denselben Fragen prüfen, die sie schon beim Üben gesehen haben. Natürlich werden die Ergebnisse gut aussehen – aber über echte Kompetenz sagen sie wenig aus.

Für die KI-Branche ist das ein Weckruf. Wenn selbst OpenAI zugibt, dass die Benchmarks nichts taugen, wie sollen wir dann wissen, welches Modell wirklich am besten coden kann? Die Antwort: Vermutlich gar nicht – zumindest nicht mit den aktuellen Metriken.

Interessant ist auch das Timing: OpenAI macht diese Aussage, während Konkurrenten wie Anthropic und Google bei genau diesen Benchmarks aufholen. Zufall? Vielleicht. Aber ein bisschen verdächtig riecht es schon.