Forskare släpper dataset för att träna AI-modeller att bättre följa instruktionshierarki

arXiv cs.AI

Forskare har utvecklat IH-Challenge, ett träningsdataset som hjälper stora språkmodeller att bättre prioritera mellan olika typer av instruktioner (system-, utvecklar-, användar- och verktygskommandon). Genom att träna GPT-5-Mini med datasetet förbättrades modellens förmåga att hantera konflikterande instruktioner med 10 procentenheter (från 84,1% till 94,1%), vilket minskar risken för jailbreaks och promptinjektioner samtidigt som osäkert beteende sjönk från 6,6% till 0,7%.

Djupdykning

Forskare har skapat en träningsdataset som lär AI-modeller att följa en hierarki av instruktioner - ett system för att avgöra vilka kommandon som har högst prioritet när motstridiga instruktioner ges. Detta handlar om att säkerhetsinstruktioner från systemutvecklare ska väga tyngre än till exempel användarförfrågningar om skadligt innehåll eller försök att "hacka" modellen genom injicerade kommandon. Genom att träna GPT-5-Mini på denna data förbättrades modellens förmåga att motstå angrepp med 10 procentenheter, samtidigt som den blev mer hjälpsam i legitima sammanhang. Det här är särskilt viktigt eftersom AI-system blir mer autonoma och används i känsliga miljöer där säkerhet är avgörande. Nyckelinsikt: Att lära AI-modeller vilka röster de ska lyssna på först kan vara nyckeln till säkrare AI-assistenter som inte låter sig luras av smarta hackers.