OpenAI avslutar SWE-Bench Verified-utvärderingar
OpenAI meddelar att de slutar använda SWE-Bench Verified (ett test för att mäta AI-agenters kodningsförmåga) och planerar att ta nästa steg mot mer avancerade utvärderingar av frontier-agenter. Beskedet kommer från Mia Glaese och Olivia Watkins på OpenAI:s Frontier Evals & Human Data-team.
Djupdykning
SWE-Bench Verified har varit branschstandarden för att mäta hur bra AI-system är på att lösa riktiga programmeringsproblem från GitHub-repositories, men nu har OpenAI förklarat att deras modeller har nått taket för vad testet kan mäta. När AI-system börjar "överträffa" de befintliga utvärderingsverktygen uppstår ett klassiskt problem inom AI-utveckling – vi behöver ständigt skapa svårare tester för att fortsätta förstå våra systems kapaciteter. Det här är ett tecken på att AI-utvecklingen inom kodning accelererar snabbare än vad våra mätverktyg hinner hänga med, vilket skapar ett slags "utvärderingsgap" som forskarna nu måste fylla. OpenAI:s meddelande signalerar också att vi sannolikt snart kommer se betydligt mer avancerade AI-kodningsverktyg släppas, eftersom företaget inte skulle pensionera ett benchmark om de inte var säkra på att deras system konsekvent klarar av det. Nyckelinsikt: När AI-företag börjar "pensionera" industristandardtester är det ofta en förvarning om att nästa generations kapaciteter är på väg att lanseras.