Studie visar att AI-agenter blir mindre pålitliga ju längre uppgifter de utför
Forskare har testat 10 AI-modeller på nästan 23 400 episoder och upptäckt att även de bästa modellerna (som GPT-4) blir dramatiskt opålitliga vid långa uppgifter – med "krasch-frekvenser" upp till 19%. Studien visar att nuvarande benchmarks som mäter enkelförsök missar detta problem helt, och föreslår nya mått för att bedöma AI-pålitlighet över tid.
Djupdykning
Forskare har upptäckt att AI-modeller som fungerar bra på korta uppgifter ofta blir opålitliga när de ska utföra längre, mer komplexa arbeten. Det här är ett massivt problem eftersom dagens AI-utvärderingar bara mäter om modellen lyckas på första försöket (pass@1), inte om den kan leverera konsekvent över tid. Studien visar att de mest avancerade AI-modellerna faktiskt har högst "härdsmältningsfrekvens" (19%) eftersom de försöker sig på ambitiösa strategier som ibland spiralerar ur kontroll - lite som att den smartaste eleven i klassen tar sig an för svåra problem och kraschar oftare. Det här förklarar varför AI-assistenter kan vara briljanta ena stunden och fullkomligt förvirrade nästa gång du ger dem samma typ av uppgift. Forskarna har skapat nya mätverktyg för att bedöma pålitlighet, vilket kommer bli avgörande när AI ska användas i kritiska applikationer där konstant prestanda är viktigare än enstaka lysande prestationer. Överraskande nog hjälpte inte ens minnesstöd - faktiskt försämrade det prestandan för alla modeller. Nyckelinsikt: AI-världen behöver sluta fokusera på "wow-effekt" och börja mäta vardagspålitlighet, eftersom den smartaste modellen inte alltid är den mest användbara i praktiken.