AI-agent kan automatiskt replikera forskningsresultat inom maskininlärning

arXiv cs.AI

Forskare har byggt ett system kallat Paper-replication där en kodningsagent (ett AI-verktyg som skriver och kör kod självständigt) systematiskt kan återskapa påståenden från vetenskapliga maskininlärningsartiklar – till exempel att ett fel ska vara under 5%. I ett test på fyra artiklar klarade alla tolv körningar valideringen och matchade samtliga 158 registrerade påståenden. Det intressanta är inte att AI kan koda, utan att systemet tvingar agenten att faktiskt bevisa sina resultat mot papprets siffror – inte bara säga att det är klart.

Djupdykning

AI-agenter som självständigt replikerar vetenskapliga studier är en stor grej – inte för att det låter coolt, utan för att replikationskrisen inom forskning (där studier visat sig omöjliga att återskapa) är ett av akademins mest underskattade problem. Det som Paper-replication gör är att tvinga agenten att koppla varje påstående i en artikel till konkret bevis i koden, ungefär som att kräva källhänvisningar i ett skolarbete men för datorkörningar. Av tolv körningar klarade alla tolv valideringen och alla 158 enskilda påståenden matchades – men det smygande problemet som rapporten själv lyfter är att körningarna ändå skiljde sig åt i hur de delade upp arbetet, hur noga de följde originalsiffrorna och vilka regler de använde för att godkänna bevis. Det betyder att "godkänd" inte är ett enkelt ja eller nej utan ett spektrum, vilket är precis den typ av nyans som försvinner när rubriken bara säger "AI kan nu replikera forskning". Det vi egentligen ser är ett verktyg för att automatisera vetenskaplig granskning i stor skala – och frågan som ingen riktigt ställer är vad som händer med forskaryrket när peer review kan köras som ett nattjobb.