Ny attackmetod avslöjar träningsdata med 88% träffsäkerhet
Forskare har utvecklat LeakBoost, en metod som kan avgöra om specifik data användes för att träna AI-modeller genom att analysera modellens interna representationer. Metoden höjer träffsäkerheten från 53-62% till 81-88% och ökar sannolikheten att identifiera träningsdata med över tio gånger vid 1% falsklarm.
Djupdykning
Forskare har utvecklat LeakBoost, en ny metod för så kallade "membership inference attacks" som kan avgöra om specifik data använts för att träna en AI-modell – ett allvarligt hot mot integritet inom maskininlärning. Till skillnad från tidigare metoder som bara tittar på statiska indikatorer som förlustfunktioner, använder LeakBoost en aktiv strategi där den skapar specialdesignade "förhörsbilder" som framkallar dolda signaler från modellens interna representation. Metoden förbättrar drastiskt attackernas träffsäkerhet från nästan slumpmässig nivå (53-62%) till 81-88%, vilket visar hur sårbara nuvarande AI-system är för denna typ av integritetsangrepp. Detta är särskilt problematisk för svenska företag och organisationer som hanterar känslig data i sina AI-system, eftersom attacken fungerar mot olika typer av neurala nätverk och dataset utan att kräva modifikationer av befintliga detektionsmetoder. Nyckelinsikt: LeakBoost exponerar en fundamental sårbarhet i moderna AI-system där angripare kan använda modellernas egna interna representationer mot dem för att avslöja träningsdata.