Ny träningsmetod förbättrar AI-agenters verktygsanvändning med 6% bättre resultat

arXiv cs.AI

Forskare har utvecklat E3-TIR, en träningsmetod för AI-agenter som ska bli bättre på att använda verktyg genom att kombinera expertguidning med egen utforskning. Metoden ger 6% bättre prestanda än traditionella ansatser samtidigt som den kräver mindre än 10% av den syntetiska träningsdatan, vilket gör träningen både mer effektiv och kostnadseffektiv.

Djupdykning

AI-agenter som använder verktyg – som att söka på webben eller köra kod – har blivit hetare än Bitcoin 2021, men träningen av dem har varit som att lära en barn cykla genom att antingen släppa dem nerför en backe utan hjul eller hålla i styret så hårt att de aldrig lär sig balansera. Forskarna bakom E3-TIR har hittat något som liknar stödhjul som faktiskt fungerar: istället för att låta AI:n utforska helt slumpmässigt eller kopiera expert-beteenden rakt av, kombinerar de tre olika typer av "erfarenheter" där modellen får utforska fritt kring experternas beslut som ankarpoints. Det verkligt smarta ligger i hur de hanterar det klassiska problemet med att AI-modeller antingen blir för konservativa (låg entropi) eller kaotiska när de tränas med reinforcement learning. Genom att låta modellen förgrena sig från expertbeslut snarare än att följa dem slaviskt, bibehåller de både kreativiteten och stabiliteten – lite som att lära sig improvisera jazz genom att först bemästra standardlåtarna. Resultatet är inte bara 6% bättre prestanda med 90% mindre träningsdata, utan något mer fundamentalt: en metod som kan skalas utan att träningskostnaderna exploderar. Om detta håller kommer vi se AI-agenter som inte bara är bättre på att använda verktyg, utan som kan tränas av mindre företag än bara tech-jättarna.

🔗 Läs originalartikeln (arXiv cs.AI)

◀ 15 av 20 ▶