Forskare återskapar OpenAI:s resultat för gpt-oss-modellen
arXiv cs.AI
Forskare har lyckats reproducera OpenAI:s publicerade resultat för deras gpt-oss-20b-modell genom att reverse-engineera verktygsanvändningen och bygga en ny agent-harness. De uppnådde nästan identiska resultat: 60,4% på SWE Verified HIGH (jämfört med OpenAI:s 60,7%) och 91,7% på AIME25 med verktyg (90,4%), vilket är första gången någon oberoende grupp replikerat dessa siffror.