Forskare återskapar OpenAI:s resultat för gpt-oss-modellen

arXiv cs.AI

Forskare har lyckats reproducera OpenAI:s publicerade resultat för deras gpt-oss-20b-modell genom att reverse-engineera verktygsanvändningen och bygga en ny agent-harness. De uppnådde nästan identiska resultat: 60,4% på SWE Verified HIGH (jämfört med OpenAI:s 60,7%) och 91,7% på AIME25 med verktyg (90,4%), vilket är första gången någon oberoende grupp replikerat dessa siffror.

🔗 Läs originalartikeln (arXiv cs.AI)

◀ 11 av 48 ▶