Ny studie avslöjar säkerhetsbrister i multi-agent AI-system

arXiv cs.AI

Forskare har utvecklat AgentLeak, det första testet som mäter integritetsläckor i AI-system med flera agenter som samarbetar. Studien av fem stora språkmodeller visar att 68,9% av känslig data läcker genom interna kanaler mellan agenter, medan traditionell övervakning av outputs endast fångar 27,2% av läckorna. Claude 3.5 Sonnet presterade bäst med endast 3,3% läckage på externa kanaler.

Djupdykning

Multi-agent AI-system skapar nya integritetshot som dagens säkerhetstester helt missar, visar ny forskning från AgentLeak-benchmarket. När AI-agenter samarbetar läcker de känslig data genom interna kommunikationskanaler - mellan agenter, i delat minne och genom verktygsargument - som aldrig granskas i traditionella utdata-fokuserade säkerhetstester. Studien av fem stora språkmodeller avslöjar att hela 68,9% av systemen läcker data när man räknar alla kanaler, medan output-bara-revisioner missar 41,7% av alla integritetskränkningar. Detta utgör en kritisk blindfläck när svenska företag och myndigheter implementerar AI-system för känsliga uppgifter inom vård, finans och juridik. Claude 3.5 Sonnet presterar bäst med endast 3,3% läckage på externa kanaler tack vare fokuserad säkerhetsträning, vilket tyder på att modellnivå-säkerhet kan skydda även interna kommunikationsvägar. Nyckelinsikt: Multi-agent AI-system kräver helt nya säkerhetsramverk som övervakar intern kommunikation, inte bara slutresultat, för att skydda känslig data.