DeepContext: Ny teknik fångar farlig avsikt som sprids över flera chattmeddelanden

arXiv cs.AI

Forskare har utvecklat DeepContext, ett system som upptäcker när användare försöker manipulera AI-chatbots genom att gradvis bygga upp farlig avsikt över flera meddelanden. Systemet använder en RNN (återkopplande neuralt nätverk) som kommer ihåg tidigare meddelanden och uppnår en F1-poäng på 0,84, betydligt bättre än nuvarande säkerhetssystem som bara tittar på enskilda meddelanden.

Djupdykning

AI-säkerhet har en blind fläck: de flesta skyddssystem behandlar varje meddelande i en konversation som isolerade händelser, vilket gör dem sårbara för sofistikerade attacker där användare gradvis bygger upp skadligt innehåll över flera meddelanden. DeepContext löser detta genom att använda ett RNN (återkommande neuralt nätverk) som kommer ihåg vad som hänt tidigare i samtalet och kan upptäcka när någon långsamt försöker lura AI:n att göra något farligt. Med ett F1-score på 0.84 presterar systemet betydligt bättre än både Googles och Metas skyddssystem (0.67), och gör det på bara 20 millisekunder - snabbt nog för realtidsanvändning. Det här är viktigt eftersom AI-modellerna blir allt mer kraftfulla medan säkerhetssystemen fortfarande tänker som om varje fråga existerar i ett vakuum, vilket skapar uppenbara säkerhetshål som DeepContext nu täpper igen. Nyckelinsikt: Framtidens AI-säkerhet ligger inte i större modeller utan i system som förstår sammanhanget över tid.

🔗 Läs originalartikeln (arXiv cs.AI)

◀ 3 av 15 ▶