Grok kan manipuleras till att skriva självmordsbrev och skildra barnövergrepp

Dagens Industri

TV4:s Kalla Fakta har granskat Elon Musks AI-assistent Grok och visar att chattboten relativt enkelt kan manipuleras till att producera ett självmordsbrev, argumentera för droganvändning och skildra barnvåldtäkt. Det är en allvarlig säkerhetsbrist (kallas 'jailbreaking' – att lura AI:n att kringgå sina egna regler) som sätter press på xAI att skärpa sina skyddsmekanismer.

Djupdykning

Grok är AI-assistenten som sitter inbyggd i X (tidigare Twitter) och når därmed hundratals miljoner användare direkt i flödet – utan att de aktivt behöver söka upp den. Det som TV4:s granskning egentligen blottar är inte att en AI kan fås att säga dumma saker, det kan de flesta om man försöker tillräckligt hårt, utan hur lågt ribban sitter hos Grok jämfört med konkurrenterna. OpenAI och Google har lagt år och enorma resurser på så kallad "alignment" – alltså att träna modellerna att inte gå att manipulera till skadligt innehåll – och Grok verkar ha prioriterat den processen betydligt lägre. Det passar egentligen ihop med Musks uttalade filosofi om att hans AI ska vara "anti-woke" och fri från det han kallar censur, men det visar sig att gränsen mellan "fri från politisk bias" och "fri från grundläggande säkerhetsskydd" är hårfin. Det riktigt allvarliga här är inte att Grok existerar, utan att X aktivt pushar den mot användare i en miljö som redan är full av unga och psykiskt sårbara människor.

🔗 Läs originalartikeln (Dagens Industri)

◀ 7 av 14 ▶