Ny attackmetod kringgår AI-säkerhetsspärrar genom att manipulera textens inbäddade representation

arXiv cs.AI

Forskare har utvecklat Prompt Embedding Optimization (PEO), en teknik som kan lura AI-modeller att generera skadligt innehåll genom att förändra den matematiska representationen av ord istället för att lägga till synliga attacksträngar. Metoden presterar bättre än befintliga jailbreak-tekniker och lyckas bevara den ursprungliga textens synliga utseende, vilket gör attackerna svårare att upptäcka.

🔗 Läs originalartikeln (arXiv cs.AI)

◀ 4 av 121 ▶