CourtGuard: Ett ramverk för säkerhetsövervakning av AI-modeller

arXiv cs.AI

Forskare har utvecklat CourtGuard, ett system som utvärderar AI-säkerhet genom att låta agenter debattera baserat på externa policydokument istället för att träna om modeller. Metoden presterar bättre än befintliga säkerhetsystem på 7 olika benchmarks och kan anpassas till nya regler utan omträning, vilket visades när den nådde 90% träffsäkerhet på Wikipedia-vandalismuppgifter.