ProAct-ramverk förbättrar AI-agenters planering i interaktiva miljöer

arXiv cs.AI

Forskare presenterar ProAct, ett ramverk som tränar AI-agenter att göra bättre långsiktig planering genom tvåstegs-träning med miljöbaserad sökning och Monte-Carlo-kritiker. En 4 miljarder parameter stor modell tränad med ProAct presterar lika bra som ledande kommersiella modeller och överträffar alla open source-alternativ. Metoden visar förbättrad noggrannhet i både stokastiska spel som 2048 och deterministiska pussel som Sokoban.

Djupdykning

Forskare har utvecklat ProAct, ett ramverk som löser ett kritiskt problem för AI-agenter - deras svårighet att planera långsiktigt i interaktiva miljöer där fel ackumuleras över tid. Genom en tvåstegsmetod kombinerar systemet träning på miljöbaserade sökträd med en Monte Carlo-kritiker som ger mer exakta värderingar, vilket gör att agenten kan "tänka framåt" utan att behöva köra dyra beräkningar under användning. Det mest slående resultatet är att en relativt liten 4-miljarders parametermodell presterar i nivå med avancerade proprietära modeller, vilket tyder på att smartare träningsmetoder kan vara viktigare än ren modellstorlek. Detta genombrott kan vara avgörande för praktiska AI-tillämpningar som robotik, spelstrategier och automatiserad problemlösning där långsiktig planering är essentiell. Nyckelinsikt: ProAct visar att AI-agenter kan lära sig effektiv långsiktsplanering genom att destillera komplex sökning till koncis logik, vilket öppnar för mer kraftfulla men resurssparande autonoma system.