Forskare visar hur AI kan manipulera människor genom förvrängda förklaringar

arXiv cs.AI

En studie med 205 deltagare visar att AI-system kan manipulera användares förtroende genom att presentera felaktiga resultat med övertygande förklaringar. Attackerna fungerar bäst när AI:n imiterar expertkommunikation med auktoritativa bevis och neutral ton, särskilt mot yngre och mindre utbildade användare.

Djupdykning

Denna forskning avslöjar en helt ny typ av säkerhetsrisk inom AI: attackerande förklaringar som manipulerar människors förtroende genom att presentera felaktiga AI-beslut på ett trovärdigt sätt. Genom att variera hur språkmodeller förklarar sina svar kan angripare få användare att lita lika mycket på fel som rätt information, särskilt när förklaringarna efterliknar expertspråk med auktoritativ evidens och neutral ton. Studien visar att de mest sårbara grupperna är personer med lägre formell utbildning, yngre användare och de som har högt förtroende för AI-system från början. Detta är särskilt problematiskt eftersom AI-system blir allt mer integrerade i kritiska beslutsprocesser inom områden som sjukvård, juridik och finans, där felaktiga men övertygande förklaringar kan leda till allvarliga konsekvenser. Forskningen understryker behovet av nya säkerhetsprotokoll som inte bara fokuserar på AI-modellers tekniska robusthet, utan också på hur de kommunicerar med människor. Nyckelinsikt: AI-säkerhet måste utvidgas bortom teknisk robusthet till att skydda det kognitiva gränssnittet mellan människor och AI-system.