Ny metod för att utvärdera AI-agenter som använder verktyg
Forskare har utvecklat en skalbar metod för att bedöma AI-agenter som använder flera verktyg i följd, utan att behöva bygga dyra deterministiska system. Metoden använder en LLM för att spåra tillstånd och bedöma om agenten når sina mål, med över 90% överensstämmelse mellan mänskliga och AI-bedömare.
Djupdykning
Forskare har utvecklat en ny metod för att testa AI-agenter som använder verktyg i flera steg, utan att behöva bygga dyra och komplicerade testmiljöer. Istället för att skapa helt deterministiska system (där varje handling ger exakt samma resultat varje gång) använder de andra AI-modeller som "domare" för att bedöma om agenten lyckades med sina uppgifter genom att analysera slutresultatet. Det här är stort eftersom det gör det mycket billigare och snabbare att utveckla bättre AI-agenter – tidigare krävdes enorma resurser för att bygga realistiska testmiljöer, men nu kan man simulera komplexa scenarion med AI:n själv. Metoden visar 90% överensstämmelse med mänskliga bedömare och kan upptäcka när AI:n "hallucinerar" eller hittar på saker som inte finns, vilket är avgörande för att bygga pålitliga AI-assistenter för verkliga användningsområden. Nyckelinsikt: Genom att låta AI bedöma AI kan vi testa smarta agenter i stor skala utan att behöva bygga hela virtuella världar från grunden.