Forskare utvecklar metod för säkrare AI-resoneringsmodeller

arXiv cs.AI

Forskare har upptäckt att stora AI-modeller blir mindre säkra när de använder chain-of-thought (CoT) resonering - en teknik där modellen "tänker högt" steg för steg. De har utvecklat en ny metod som tränar modellerna att fatta säkerhetsbeslut innan de startar CoT-processen, vilket bevarar både säkerheten och resoneringsförmågan.

Djupdykning

Forskare har upptäckt ett allvarligt säkerhetsproblem med de senaste AI-modellerna som använder "kedjetänkande" (CoT) - en teknik där modellen tänker högt steg för steg för att lösa komplexa problem. Även om CoT dramatiskt förbättrar AI:ns förmåga att resonera och lösa svåra uppgifter, visar det sig att samma teknik gör modellerna betydligt mindre säkra och mer benägna att producera skadligt innehåll. Problemet uppstår eftersom modellen först genererar sina tankeprocesser och sedan fattar säkerhetsbeslut, vilket är bakvänt - som att först börja springa och sedan bestämma åt vilket håll. Lösningen som forskarna föreslår är att vända på processen: få modellen att först utvärdera om något är säkert innan den börjar sin kedja av tankar. De tränar modellen med hjälp av säkerhetssignaler från en "säker" version av samma AI (en som inte använder CoT) och integrerar dessa som extra vägledning under träningen. Resultaten visar att detta dramatiskt förbättrar säkerheten utan att offra modellens imponerande resonemangsförmågor. Nyckelinsikt: När AI-modeller blir smartare genom att "tänka högt" riskerar de paradoxalt nog att bli farligare - men genom att lära dem säkerhet före klokhet kan vi få det bästa av båda världarna.