Forskare lanserar omfattande säkerhetsramverk för AI-modeller

arXiv cs.AI

Forskare har utvecklat ForesightSafety Bench, ett nytt ramverk för att utvärdera AI-säkerhet som omfattar 94 riskdimensioner fördelade över 7 grundläggande säkerhetspelare. Ramverket har testats på över 20 stora AI-modeller och visar omfattande säkerhetsproblem, särskilt inom autonom AI, vetenskaplig AI och existentiella risker.

Djupdykning

Forskare har lanserat ForesightSafety Bench, ett omfattande ramverk för att utvärdera säkerhetsrisker hos avancerade AI-system – och resultaten är inte särskilt uppmuntrande. Det nya ramverket täcker 94 olika riskdimensioner, från grundläggande säkerhet till existentiella hot, och har testats på över tjugo ledande AI-modeller. Vad som framkommer är att även våra mest avancerade AI-system har betydande säkerhetsbrister, särskilt inom områden som autonom agentfunktionalitet och vetenskaplig tillämpning. Detta kommer i en kritisk tid när AI-system blir allt mer autonoma och kapabla, vilket gör att tidigare säkerhetsbenchmarks helt enkelt inte räcker till längre. Ramverket representerar ett försök att komma ikapp den snabba AI-utvecklingen med mer sofistikerade säkerhetsutvärderingar innan vi hamnar i situationer där det är för sent att agera. Nyckelinsikt: Vi utvecklar AI-system snabbare än vi kan säkerställa att de är säkra, och denna benchmark visar att även våra bästa modeller har allvarliga säkerhetsbrister som behöver åtgärdas innan de blir mer autonoma.