Vad hände när 2 000 personer försökte hacka min AI-assistent

Simon Willison

Simon Willison lät 2 000 personer försöka manipulera hans AI-assistent genom så kallad prompt injection – där man försöker lura AI:n att ignorera sina instruktioner. Resultatet blev en lärorik genomgång av hur svårt det faktiskt är att bygga robusta AI-system, och vilka attackmönster som visade sig vanligast.

Djupdykning

Rubriken låter som ett clickbait-experiment, men det är faktiskt ett av de mer seriösa stresstesten vi sett av hur AI-assistenter håller ihop under koordinerade angrepp. När tusentals användare systematiskt försöker manipulera ett AI-system – via så kallad "prompt injection" (ungefär: att lura AI:n att ignorera sina egna regler genom smarta instruktioner) och jailbreaking – avslöjas inte bara tekniska svagheter utan också vilka antaganden byggarna gjort om hur folk faktiskt beter sig. Det de flesta missar i diskussionen om AI-säkerhet är att hotet sällan är den avancerade hackaren – det är den nyfikne amatören med tid på händerna, och det är precis den gruppen som dominerade i det här testet. Systemet visade sig hålla bättre mot sofistikerade attacker än mot enkla, repetitiva försök som testade gränser på ett sätt ingen förutsett. Det säger något viktigt om hur AI-säkerhet designas: den är fortfarande optimerad för ett hotlandskap som inte riktigt stämmer med verkligheten, och när AI-assistenter nu rullas ut i bank, vård och myndigheter är det den luckan som borde hålla beslutsfattare vakna på nätterna.

🔗 Läs originalartikeln (Simon Willison)

◀ 5 av 13 ▶