SkillOpt: Ny metod tränar AI-agenter som djupa nätverk

arXiv cs.AI

Forskare presenterar SkillOpt, den första systematiska metoden för att träna AI-agentfärdigheter som textdokument med samma disciplin som används för neurala nätverk. Metoden förbättrade prestandan med 19-25 poäng över sex olika benchmarks och fungerar även när färdigheterna flyttas mellan olika AI-modeller och miljöer.

Djupdykning

AI-agenter idag lär sig nya färdigheter genom att utvecklare skriver instruktioner för hand eller genom att modellerna improviserar – ungefär som att lära sig köra bil genom att läsa manualen en gång eller bara vinga det. SkillOpt behandlar istället agentfärdigheter som träningsdata och optimerar dem systematiskt genom upprepade experiment, precis som hur vi tränar neurala nätverk genom att justera vikter baserat på resultat. Det genuint smarta här är att de fryser själva AI-modellen och istället tränar "färdighetsdokumentet" – den textuella instruktion som styr agentens beteende. En separat optimeringsmodell analyserar vad som fungerade bra och dåligt, gör små redigeringar i instruktionerna, och behåller bara de ändringar som faktiskt förbättrar prestanda på valideringsdata. Resultatet är dramatiskt: prestationsförbättringar på 20+ procentenheter över hela linjen, och färdigheterna fungerar även när de flyttas mellan olika modeller och miljöer. Det här förändrar spelplanen från "skriv bra prompts och hoppas på det bästa" till "träna prompts som maskinlärningsmodeller med feedback-loopar och validering" – en nivå av systematik som AI-agent-utveckling desperat behövde.