Ny benchmark testar om AI-agenter kan designa sina egna förstärkningsinlärningspipelines
Forskare har lanserat Agent²RL-Bench, ett test som mäter om stora språkmodeller kan bygga kompletta RL-system (reinforcement learning) för att förbättra AI-modeller. Resultaten visar stora skillnader mellan uppgifter - på ALFWorld förbättrades prestandan från 6% till 93%, medan andra uppgifter knappt påverkades alls. Det här är intressant eftersom det visar att AI-agenter ännu inte är redo att ersätta mänskliga ML-ingenjörer i alla sammanhang.
Djupdykning
Forskare har skapat Agent^2 RL-Bench, ett benchmark som testar om AI-agenter kan designa och köra sina egna träningspipelines med reinforcement learning (RL) - alltså om AI kan träna AI helt autonomt. Resultaten avslöjar en fascinerande paradox: medan agenterna kan åstadkomma dramatiska förbättringar på vissa uppgifter (från 6% till 93% framgång på ALFWorld), presterar de knappt märkbart bättre på andra, och traditionell supervised learning slår fortfarande agent-driven träning när man har begränsade resurser. Det som många missar är att detta inte handlar om huruvida AI kan förbättra sig själv - det handlar om när och hur denna förmåga faktiskt är värd kostnaden. Valet av vilken underliggande språkmodell som driver agenten kan skapa skillnader på 78 procentenheter i prestation, vilket tyder på att framgången beror mer på implementation än på själva konceptet. Benchmarkets verkliga värde ligger i att det exponerar gränslandet mellan automation och mänsklig expertis inom AI-utveckling - ett område där vi snart kommer behöva avgöra vilka delar av AI-träning som ska vara människodrivna och vilka som kan överlämnas till maskinerna.