Ny metod kopplar samman skade- och vägransriktningar för säkrare AI
Forskare har undersökt hur språkmodeller internt representerar 'skadlighet' och 'vägran' som separata riktningar i nätverket – och visat att jailbreaks (försök att lura modellen att ignorera säkerhetsregler) fungerar just genom att undertrycka en av dessa riktningar innan något svar genereras. Den nya metoden HARC kopplar ihop de två riktningarna under finjustering, vilket gör modellen svårare att manipulera utan att försämra dess förmåga i övrigt. Metoden testades mot sex alternativa säkerhetsmetoder och visade bäst balans mellan robusthet och användbarhet, och fungerade dessutom över fem olika modellfamiljer utan skräddarsydd anpassning.
Djupdykning
Forskare har länge vetat att språkmodeller som ChatGPT och Claude kodar information som geometriska riktningar i ett högdimensionellt rum – ungefär som att varje koncept har sin egen "koordinat" i modellens interna representation. Det som den här studien visar är att säkerhetsalignment faktiskt fungerar via två separata sådana riktningar: en för skadlighet och en för vägran, och att jailbreaks i princip är ett hack som trycker ned en av dessa riktningar innan modellen hinner generera sitt svar. Det verkligt läckra fyndet är att modellen faktiskt *känner igen* att den genererar skadligt innehåll medan den skriver det – även när den missade att inputen var farlig – vilket avslöjar att problemet inte är att modellen är "dum", utan att dess interna larm och bromsar är frikopplade från varandra. HARC löser detta genom att under träning tvinga de två riktningarna att hänga ihop, som att sy fast handbromsvajer vid bromspedalen, utan att röra resten av modellens förmågor. Det som de flesta missar i AI-säkerhetsdiskussionen är att vi fortfarande mest pratar om att lappa symptom – filterord, moderationslager, promptregler – medan den egentliga frågan är arkitektonisk och handlar om hur representation och kontroll är kopplade inuti modellen.