PRISM: Realtidsförsvar mot läckage av känslig information i AI-agentsystem

arXiv cs.AI

Forskare har utvecklat PRISM, ett system som upptäcker när AI-agenter riskerar att läcka känslig information som lösenord eller API-nycklar under textgenerering. Systemet analyserar 16 olika signaler i realtid och uppnådde 100% precision på ett test med 2 000 attackscenarier. Det intressanta är att systemet kan förutsäga läckage innan hemlig information faktiskt skrivs ut, genom att upptäcka förändringar i hur AI:n genererar text.

Djupdykning

När flera AI-agenter jobbar tillsammans i en pipeline uppstår ett subtilt säkerhetsproblem: känslig information som en agent har tillgång till kan läcka vidare genom den delade kontexten och dyka upp i slutresultatet, även utan att någon aktivt försöker stjäla den. Det här är som att spela telefon på kontoret, fast varje person som vidarebefordrar meddelandet riskerar att oavsiktligt blotta företagshemligheter. PRISM löser detta genom att övervaka AI-modellens "tankemönster" i realtid medan den genererar text, och forskarna har upptäckt att modeller uppvisar karakteristiska förändringar precis innan de är på väg att läcka något känsligt - entropin kollapsar och modellen blir mer "fokuserad" i sina val. Istället för att bara leta efter färdiga lösenord eller API-nycklar i slutresultatet, fångar systemet upp varningssignaler genom att kombinera 16 olika faktorer som ordmönster, informationsteori och beteendeindikatorer. Det fascinerande är att modeller tydligen "vet" när de är på väg att säga något de inte borde, vilket syns i deras interna matematiska mönster innan texten ens har genererats. Med en perfekt precision på 1.0 och noll observerade läckor på deras testset visar PRISM att vi kan bygga säkrare AI-system genom att lyssna på vad modellerna inte säger, snarare än bara censurera vad de redan sagt.