Ny metod minskar säkerhetsrisker vid AI-modell träning
Forskare har utvecklat en metod kallad Surgery som kan förhindra att stora språkmodeller blir skadliga under finjustering. Metoden använder attention sink-mekanism och förbättrade säkerheten med 5,90%, 11,25% och 9,55% i tre olika tester. Surgery fungerar genom att styra uppmärksamhetshuvuden mot att undvika skadliga mönster under träning.
Djupdykning
Forskare har utvecklat en ny metod kallad "Surgery" för att förhindra att stora språkmodeller blir skadliga när de tränas om med problematiskt innehåll. Metoden bygger på att övervaka så kallade "attention sinks" - specifika delar av modellens uppmärksamhetsmekanism som visar olika beteendemönster när modellen lär sig skadligt innehåll. Genom att styra dessa uppmärksamhetshuvuden mot säkrare riktningar under träningen kan Surgery minska risken för att modeller utvecklar farliga egenskaper med upp till 11 procent enligt testresultaten. Detta är särskilt viktigt eftersom AI-säkerhet har blivit en central fråga när allt fler företag och organisationer fine-tunar befintliga språkmodeller för specifika ändamål, där risken finns att oavsiktligt skapa skadliga system. Nyckelinsikt: Surgery erbjuder ett proaktivt sätt att bibehålla AI-säkerhet under träningsprocessen snarare än att bara förlita sig på efterhandskontroller.