Nytt benchmark för AI-kodning sätter GPT-5.5 i tydlig ledning
Startupen Datacurve lanserar DeepSWE, ett nytt test för att mäta AI-modellers programmeringsförmåga där GPT-5.5 toppar med 70% resultat följt av GPT-5.4 (56%) och Claude Opus 4.7 (54%). Bolaget menar att det populära SWE-Bench Pro-testet är opålitligt och gjorde felaktiga bedömningar i 32% av fallen i deras egen granskning.
Djupdykning
Datacurves nya benchmark avslöjar något som branschen helst inte vill prata om: dagens AI-kodtester är fundamentalt trasiga. När samma modeller som presterar liknande på SWE-Bench Pro plötsligt visar 40+ procentenheter skillnad på DeepSWE, säger det mer om testmetodens brister än modellernas verkliga kapacitet. Problemet med "data leakage" – att AI-modeller redan sett testuppgifterna under träning – förvandlar benchmarks från objektiva mått till akademiska skentävlingar. Det här är inte bara teknisk byråkrati. Företag fattar mångmiljardollarsbeslut och utvecklare väljer verktyg baserat på dessa siffror. Med 32 procent felaktig bedömning i automatisk rättning blir det som att använda en trasig våg för att sälja guld – skillnaden mellan framgång och fiasko kan bero på slumpen snarare än prestanda.