OpenAI-styrelseledamoten som bygger verktyg för att knäcka AI-system
Zico Kolter, styrelseledamot i OpenAI, och Matt Fredrikson från säkerhetsföretaget Gray Swan förklarar varför AI-säkerhet är ett eget fält – inte bara vanlig cybersäkerhet med AI-twist. Kärnan i deras arbete är 'red-teaming' (att aktivt försöka lura eller bryta mot AI-system för att hitta svagheter) och hur svårt det är att bygga modeller som faktiskt håller när någon verkligen försöker manipulera dem.
Djupdykning
Gray Swan är ett av de mer obskyra men viktigt AI-säkerhetsbolagen just nu – grundat av forskare från Carnegie Mellon med fokus på "red-teaming", alltså att aktivt försöka knäcka AI-system för att hitta svagheter innan dåliga aktörer gör det. Kolter sitter också i OpenAIs styrelse, vilket gör det här till en ovanlig kombination av insider-perspektiv och oberoende forskning. Det folk missar i AI-säkerhetsdebatten är att det inte handlar om traditionella säkerhetshål som SQL-injektioner eller datastölder – det handlar om att språkmodeller i grunden är probabilistiska system som kan manipuleras via ren text, så kallade "prompt injections" och "jailbreaks", och att det inte finns någon självklar patch för det. Kolter och Fredrikson drar en skarp gräns mot klassisk cybersäkerhet: en firewall kan blockera en känd attack, men hur blockerar du en modell från att hjälpa någon om de bara formulerar frågan tillräckligt kreativt? Det verkliga problemet när AI-agenter börjar utföra uppgifter autonomt – boka möten, skriva kod, hantera e-post – är att attackytan exploderar, för då räcker det att en skadlig aktör smugglar in instruktioner i ett dokument som agenten råkar läsa.