Ny metod kan mäta hur farligt varje träningsexempel är för AI-säkerhet

arXiv cs.AI

Forskare har upptäckt att även harmlösa träningsdata gradvis kan undergräva en AI-modells säkerhetsbeteenden genom att parametrarna långsamt driftar mot farliga riktningar. De föreslår en ny metod (SQSD) som kan ge varje träningsexempel en riskscore från 0-1 för att förutsäga vilka data som är mest sannolika att skada modellens säkerhet.

Djupdykning

Forskare har upptäckt varför AI-säkerhet är så skör – och det handlar om att parametrarna i språkmodeller sakta glider åt fel håll under träning, även med helt oskyldiga exempel. När du finjusterar en GPT-modell på harmlösa chatkonversationer kan modellens inbyggda säkerhetsfilter gradvis försvagas, eftersom parametrarna (de matematiska vikterna som styr beteende) rör sig i riktningar som gör modellen mer benägen att acceptera farliga instruktioner. Det här är inte bara akademisk teori – teamet har utvecklat en metod som kan ge varje träningsexempel en riskscore baserat på hur mycket det bidrar till denna säkerhetsdrift. Vad som är läskigt är att detta sker kontinuerligt och omärkligt, som att languidly drift mot en klippa medan du tror du kör säkert. Upptäckten betyder att företag som finjusterar AI-modeller behöver övervaka inte bara vad de tränar på, utan även de subtila parameterdynamikerna under själva träningsprocessen.