Ny benchmark testar AI-agenters förmåga att återupptäcka vetenskapliga fynd
Forskare har utvecklat FIRE-Bench, en benchmark som testar om AI-agenter kan återupptäcka etablerade forskningsresultat inom maskininlärning genom att autonomt designa experiment och dra slutsatser. Även de starkaste agenterna med GPT-5 uppnår mindre än 50% framgång (F1-score) och visar stora variationer mellan körningar, vilket indikerar att fullständig vetenskaplig forskning fortfarande är utmanande för nuvarande AI-system.
Djupdykning
FIRE-Bench representerar ett betydande steg framåt inom utvärdering av AI-agenters förmåga att bedriva vetenskaplig forskning autonomt. Till skillnad från tidigare benchmarks som förlitar sig på ytliga mätvärden eller AI-baserad bedömning, kräver FIRE-Bench att agenter genomför hela forskningsprocessen – från att utforska idéer och designa experiment till att implementera kod och dra evidensbaserade slutsatser. Resultaten visar att även de mest avancerade AI-systemen med GPT-5-liknande språkmodeller bara når begränsad framgång (under 50% F1-poäng) när de ska återupptäcka etablerade forskningsresultat inom maskininlärning. Det låga prestandan avslöjar fundamentala utmaningar inom experimentell design, kodimplementering och evidensbaserat resonerande som måste lösas innan AI-agenter kan bli pålitliga forskningspartners. FIRE-Bench fyller därmed ett kritiskt gap genom att erbjuda en rigorös testmiljö som kan mäta faktiska framsteg mot målet om automatiserad vetenskaplig upptäckt, snarare än att bara utvärdera isolerade delförmågor. Nyckelinsikt: FIRE-Bench visar att trots imponerande språkförmågor saknar dagens AI-agenter fortfarande de systematiska forskningsfärdigheter som krävs för självständig vetenskaplig upptäckt.