AI-säkerhetstest reduceras från veckor till timmar med ny automatiserad agent

arXiv cs.AI

Forskare har utvecklat en AI-agent som automatiserar säkerhetstestning av AI-system och komprimerar processen från veckor till timmar. Agenten använder över 45 attacktyper och 450 transformationer för att hitta sårbarheter, och lyckades attackera Meta Llama Scout med 85% framgång. Tidigare tvingades säkerhetsexperter bygga testramverk manuellt, nu kan de fokusera på vad som ska testas istället för hur.

Djupdykning

Säkerhetstestning av AI-system har länge varit en manuell mardröm där experter spenderar veckor på att bygga ihop komplexa testramverk från grunden, bara för att börja om när något inte fungerar. Det nya från Dreadnode är inte tekniken i sig - adversariella attacker och "jailbreaks" har funnits länge - utan att de automatiserat hela processen genom en AI-agent som kan sätta ihop och köra säkerhetstester på naturligt språk. Det verkligt intressanta är timing: när AI-system börjar styra kärnkraftverk och diagnostisera cancer kan vi inte längre ha råd med att säkerhetstestning tar månader. Deras resultat från Meta Llama Scout (85% framgångsrik attackfrekvens) visar att även vältränade modeller har enorma säkerhetsluckor som automatiserad testning snabbt kan hitta. Det här förändrar maktbalansen mellan AI-utvecklare och säkerhetsexperter - plötsligt kan vilken cybersäkerhetsanalytiker som helst röntga avancerade AI-system utan att kunna programmera.