Ny attackmetod kringgår AI-säkerhetsspärrar genom att manipulera textens inbäddade representation

arXiv cs.AI

Forskare har utvecklat Prompt Embedding Optimization (PEO), en teknik som kan lura AI-modeller att generera skadligt innehåll genom att förändra den matematiska representationen av ord istället för att lägga till synliga attacksträngar. Metoden presterar bättre än befintliga jailbreak-tekniker och lyckas bevara den ursprungliga textens synliga utseende, vilket gör attackerna svårare att upptäcka.

Djupdykning

Forskarna har hittat ett nytt sätt att lura AI-språkmodeller genom att göra mikroskopiska justeringar i själva prompten istället för att lägga till märkliga textsnuttar i slutet som tidigare metoder gör. De kallar det Prompt Embedding Optimization (PEO) och det fungerar genom att subtilt vrida på de matematiska representationerna av orden i den ursprungliga frågan - tänk dig som att justera tonen på en gitarr så lite att det fortfarande låter som samma ackord, men harmonin förändras på ett sätt som får AI:n att glömma sina säkerhetsregler. Det smarta med denna attack är att den är nästan osynlig - den ursprungliga texten förblir identisk för mänskliga ögon, vilket gör den mycket svårare att upptäcka än tidigare metoder där konstiga ord och symboler lades till som varningssignaler. Forskarna visar att de kan få AI:n att producera skadligt innehåll samtidigt som konversationen fortfarande verkar handla om det ursprungliga ämnet, vilket gör attacken både mer sofistikerad och farligare. Detta exponerar en grundläggande sårbarhet i hur dagens AI-säkerhetssystem fungerar - de fokuserar på att känna igen misstänkta textmönster snarare än att förstå den underliggande semantiska manipulationen. Det är lite som att ha säkerhetskameror som bara kan se synligt ljus medan tjuvarna använder infraröd teknik.