Begränsningar gör AI-kodagenter lättare att övervaka

arXiv cs.AI

Forskare visar att klassiska mjukvarutekniska metoder – åtkomstkontroll, nätverkspolicyer och kodkonventioner – fungerar lika bra för att hålla koll på AI-kodagenter som på mänskliga utvecklarteam. I ett kontrollerat experiment hittade en liten modell (Gemma 4 4b) 90,9% av 11 inplanterade bakdörrar i en Python-kodbas när den fick strukturerade verktyg, jämfört med 54,5% utan stöd. Det intressanta är att lösningen inte kräver dyrare modeller eller avancerad 'agentic scaffolding' – bara lite disciplin i hur koden är organiserad.