Ny attack visar varför AI-styrda webbläsare är en riskabel idé

Ars Technica

Forskare har hittat ett sätt att lura AI-webbläsare att följa förbjudna instruktioner – det räcker med att övertyga språkmodellen om att 2 + 2 = 5 för att bryta ner dess säkerhetsspärrar. Attacken är ett så kallat prompt injection-angrepp (där skadliga instruktioner smugglas in i text som AI:n läser) och understryker hur skört det är att låta en AI agera autonomt i webbläsaren på dina vägnar.

Djupdykning

En ny attack visar att det räcker med att lura en AI-webbläsare att acceptera falsk information – exempelvis att 2 + 2 = 5 – för att hela säkerhetssystemet ska rasa samman och modellen börjar följa instruktioner den annars är programmerad att neka. Det handlar om en variant av prompt injection, där angriparen matar in text som manipulerar AI-modellens kontext och övertalar den att omvärdera sina egna regler baserat på den förfalskade premissen. Problemet är strukturellt: LLM:er (stora språkmodeller) har ingen fast logik som en vanlig dator – de resonerar sig fram till svar, och om du ändrar förutsättningarna ändras resonemanget. De flesta fokuserar på om AI-webbläsare är *smidiga* nog, men frågan som borde ställas är om en agent som surfar, klickar och fyller i formulär åt dig någonsin kan göras tillräckligt säker när en enda fejkad mening kan kringgå alla guardrails. Det är inte ett implementeringsproblem som fixas i nästa uppdatering – det är ett fundamentalt problem med att ge språkmodeller verktyg som har konsekvenser i den riktiga världen.

🔗 Läs originalartikeln (Ars Technica)

◀ 11 av 19 ▶