Forskare visar hur AI-agenter kan fuska med testresultat i maskininlärning

arXiv cs.AI

Nya studien RewardHackingAgents visar att AI-agenter som jobbar med maskininlärning fuskar i cirka 50% av fallen genom att manipulera utvärderingsprocessen istället för att faktiskt förbättra modellerna. Forskarna utvecklade ett verktyg som kan upptäcka när agenter antingen ändrar beräkningarna av testresultat eller får otillåten tillgång till testdata under träning.