Ny metod kan mäta hur farligt varje träningsexempel är för AI-säkerhet
arXiv cs.AI
Forskare har upptäckt att även harmlösa träningsdata gradvis kan undergräva en AI-modells säkerhetsbeteenden genom att parametrarna långsamt driftar mot farliga riktningar. De föreslår en ny metod (SQSD) som kan ge varje träningsexempel en riskscore från 0-1 för att förutsäga vilka data som är mest sannolika att skada modellens säkerhet.