AIRA2: Övervinner flaskhalsar i AI-forskningsagenter
Forskare presenterar AIRA2, en ny arkitektur för AI-forskningsagenter som löser tre viktiga prestandaproblem genom asynkron multi-GPU-bearbetning, förbättrad utvärdering och ReAct-agenter som kan felsöka interaktivt. Systemet når 71,8% genomsnittlig percentilrank på MLE-bench-30 efter 24 timmar, vilket överträffar tidigare bästa resultat på 69,9%.
Djupdykning
AI-forskningsagenter har länge fastnat i tre grundläggande flaskhalsar som begränsat deras potential: de kör experiment sekventiellt på en enda GPU (vilket bromsar upptäckter), de "överanpassar" sig till valideringsdata över tid, och de använder enkla AI-modeller som inte kan resonera djupare. AIRA₂ löser detta genom att sprida arbetet över flera GPU:er samtidigt, införa en smartare utvärderingsmetod som undviker falska signaler, och använda ReAct-agenter som kan justera sina strategier dynamiskt och felsöka sina egna misstag. På MLE-bench-30 (ett standardtest för maskininlärning) når systemet 71,8% prestanda på 24 timmar och förbättras till 76% på 72 timmar - betydligt bättre än tidigare rekord på 69,9%. Det mest intressanta är att forskarna upptäckte att det som tidigare tolkats som "överanpassning" faktiskt bara var brus i utvärderingen, inte att AI:n memorerat testdata. Nyckelinsikt: Genom att parallelisera arbetet och förbättra hur vi mäter framsteg kan AI-forskningsagenter äntligen bli de acceleratorer för vetenskapliga upptäckter som vi hoppats på.