Forskare visar hur adversariella attacker kan manipulera AI-datasammanfattningar

arXiv cs.AI

Forskare har utvecklat metoder för att attackera AI-system som sammanfattar data (t.ex. bildsamlingar) genom att göra små förändringar som får systemet att välja sämre representativa exempel. De visar att sådana attacker kan försämra prestandan hos efterföljande AI-modeller med upp till 15-20%, men presenterar också försvarsmekanismer som kan minska sårbarheten.

Djupdykning

Forskare har upptäckt en blind fläck i vårt försvar mot AI-attacker: det räcker inte att skydda själva AI-modellerna om man kan sabotera datan innan den ens når dit. Den här studien visar hur angripare kan manipulera datasammanfattningar - processen som bestämmer vilken information som ska behållas från enorma datamängder - och därmed förgifta hela AI-kedjan uppströms. Det är lite som att sabotera ingredienserna istället för att hacka receptet. Det verkligt listiga med attacken är att den riktar sig mot flera sammanfattningsmodeller samtidigt genom att subtilt förändra hur lika olika datapunkter verkar vara för varandra. Forskarna använder något som kallas DR-submodular optimering (en matematisk teknik för att hitta bästa kombinationer) för att hitta små störningar som får maximal skada. Deras försvar bygger på att träna modeller som är robusta mot blandade attacktyper, men experimenten avslöjar att skyddet blir känsligt för hur parametrarna ställs in. Detta pekar på en fundamental designutmaning: vi har fokuserat så mycket på att göra AI-modeller säkra att vi glömt bort att hela pipelines måste skyddas från början till slut.