Forskare löser överavvisning i AI-säkerhetsträning

arXiv cs.AI

Forskare har identifierat varför säkerhetstränade AI-modeller ibland avvisar harmlösa frågor - de reagerar på språkliga trigger-signaler som kan förekomma i både skadliga och oskyldiga förfrågningar. Ett nytt tillvägagångssätt som explicit hanterar dessa triggers visar bättre balans mellan säkerhet och användbarhet i experimenten.

Djupdykning

När AI-modeller tränas att vara säkra och vägra skadliga förfrågningar uppstår ett oväntat problem – de börjar också säga nej till helt harmlösa frågor. Forskarna har upptäckt att detta beror på "refusal triggers", alltså språkliga signaler som får modellen att tro att en fråga är farlig även när den inte är det. Tänk dig att en AI-assistent vägrar hjälpa dig skriva ett CV bara för att du använder ordet "skjuta" i betydelsen "skjuta upp deadline". Problemet uppstår eftersom säkerhetsträningen lär modellen att associera vissa ord och fraser med fara, men utan att skilja på kontext. Forskarna föreslår nu en ny metod som explicit tar hänsyn till dessa triggers under träningen, vilket ger bättre balans mellan säkerhet och användbarhet. Nyckelinsikt: Framtidens AI-säkerhet handlar inte bara om att stoppa skadligt innehåll, utan om att göra det med kirurgisk precision så att vardagliga konversationer inte drabbas.