Nytt träningsramverk lär AI-agenter att återhämta sig efter misstag
Forskare presenterar ReGRPO, ett ramverk som tränar AI-agenter att reflektera över sina egna fel och korrigera sig – istället för att bara lära sig av lyckade exempel. Kärnan är så kallade 'Reflection-of-Thought'-triplets som kategoriserar feltyp, bevis och åtgärdsplan, vilket ger agenten mer nyanserad återkoppling än traditionell förstärkningsinlärning (RL) brukar erbjuda. På benchmarken GTA och GAIA slår metoden befintliga öppna modeller – det intressanta är att felfunktion och återhämtning äntligen behandlas som förstklassiga träningssignaler.
Djupdykning
De flesta AI-agenter idag är tränade på att lyckas – de ser tusentals exempel på hur man gör rätt, men nästan inga på hur man hanterar när något går fel på vägen. Det är ungefär som att lära sig köra bil enbart på en tom parkeringsplats i soligt väder. ReGRPO tar ett annat grepp: istället för att ignorera misslyckanden samlar systemet aktivt in "nästan-fel" – situationer där agenten var på väg åt fel håll – och använder dem för att träna en explicit reflektionsförmåga, alltså att agenten faktiskt ska kunna diagnostisera vad som gick snett och planera en korrektionsåtgärd, inte bara försöka igen på måfå. Den tekniska kruxet här är att traditionell förstärkningsinlärning (RL) ger belöning för hela sekvensen av beslut, inte för enskilda steg, vilket gör det svårt att veta var det faktiskt körde ihop sig. ReGRPO löser det genom att bryta ner reflektionen i strukturerade triplets – feltyp, bevis, åtgärdsplan – och optimera dessa lokalt i kortare delsegment av en trajektoria, snarare än att vänta på ett slutbetyg när allt redan är kört. Det är skillnaden mellan att få en röd bock på hela provet kontra kommentarer i marginalen på varje sida. Det de flesta missar när de läser om agentic AI är att det verkliga flaskhalsen inte är att agenter är dåliga på att tänka – det är att de är katastrofalt dåliga på att inse att de har tänkt fel. En agent som kan se tillbaka, förstå exakt varför ett verktygsanrop misslyckades och sedan korrigera kursen är fundamentalt mer robust i verkliga miljöer, där API:er kraschar, bilder är tvetydiga och uppgifter sällan ser ut precis som träningsdatan.