CourtGuard: Ett ramverk för säkerhetsövervakning av AI-modeller
arXiv cs.AI
Forskare har utvecklat CourtGuard, ett system som utvärderar AI-säkerhet genom att låta agenter debattera baserat på externa policydokument istället för att träna om modeller. Metoden presterar bättre än befintliga säkerhetsystem på 7 olika benchmarks och kan anpassas till nya regler utan omträning, vilket visades när den nådde 90% träffsäkerhet på Wikipedia-vandalismuppgifter.