Skadliga nyhetsflöden kan lura AI-agenter att ändra beslut

arXiv cs.AI

Forskare visar att AI-agenter kan manipuleras genom att ändra ordningen på information de läser innan de fattar beslut - i extremfall kunde en vinklad feed ändra sannolikheten för ett specifikt beslut från 5% till 100%. Effekten fungerar även på säkerhetskritiska beslut som att ta bort godkännandegates eller lätta på åtkomstkontroller, vilket betyder att säkerhetstester av AI-system måste inkludera informationsflödet, inte bara den slutliga prompten.

Djupdykning

Forskare har upptäckt något som borde få alla som bygger AI-system att tappa sömnen: LLM-agenter kan manipuleras genom att helt enkelt ändra ordningen på informationen de läser innan de fattar beslut. I studien scroll-matade de AI-agenter olika sammansättningar av posts och fann att envägsinformation kunde få modeller att ändra sig från 5% till 100% sannolikhet för vissa beslut - men bara när modellen redan var osäker från början. Det här exponerar en blind fläck i hur vi testar AI-säkerhet. Medan alla fokuserar på att "jailbreak:a" modeller med smarta prompter, glöms det faktum att de flesta AI-agenter inte fattar beslut i vakuum - de konsumerar feeds, sökresultat och rekommendationer som redan är kurerade av andra algoritmer. Det är som att säkerhetsgranska dörrarna medan fönstren står vidöppna. Det verkligt skrämmande är att detta fungerar för säkerhetsrelevanta beslut som att ta bort godkännandegates eller slappna av åtkomstkontroller. När AI-agenter börjar fatta beslut som påverkar infrastruktur och policy kommer manipulationen troligen ske genom att kontrollera informationsflödet, inte genom att hacka modellen själv.