Nytt ramverk förutspår AI-agentprestanda för under 1% av kostnaden

arXiv cs.AI

Att utvärdera AI-agenter på standardtester som SWE-Bench kan kosta tusentals dollar och ta dagar – men forskare bakom PACE visar att man kan förutspå resultaten med under 4% felmarginal genom att köra ett litet urval billigare deltester istället. Ramverket testades på 14 modeller och 4 agentbenchmarks, och nådde 85% träffsäkerhet i att ranka modeller mot varandra – till en bråkdel av ordinarie kostnad. Det är i grunden ett sätt att snabbkolla om en modell är bra på komplexa uppgifter utan att behöva sätta upp hela den dyra testmiljön.