Ny metod kan mäta hur farligt varje träningsexempel är för AI-säkerhet

arXiv cs.AI

Forskare har upptäckt att även harmlösa träningsdata gradvis kan undergräva en AI-modells säkerhetsbeteenden genom att parametrarna långsamt driftar mot farliga riktningar. De föreslår en ny metod (SQSD) som kan ge varje träningsexempel en riskscore från 0-1 för att förutsäga vilka data som är mest sannolika att skada modellens säkerhet.

🔗 Läs originalartikeln (arXiv cs.AI)

◀ 3 av 59 ▶