Ny attackmetod kringgår AI-säkerhetsspärrar genom att manipulera textens inbäddade representation
arXiv cs.AI
Forskare har utvecklat Prompt Embedding Optimization (PEO), en teknik som kan lura AI-modeller att generera skadligt innehåll genom att förändra den matematiska representationen av ord istället för att lägga till synliga attacksträngar. Metoden presterar bättre än befintliga jailbreak-tekniker och lyckas bevara den ursprungliga textens synliga utseende, vilket gör attackerna svårare att upptäcka.