Resonerande AI-modeller kan inte kontrollera sina tankekedgor

arXiv cs.AI

Ny forskning visar att AI-modeller som Claude Sonnet 4.5 bara kan kontrollera sina synliga tankeprocesser 2,7% av tiden, jämfört med 61,9% för slutgiltiga svar. Detta är goda nyheter för AI-säkerhet eftersom det betyder att modellernas interna resonemang är svårt att dölja från övervakning.

Djupdykning

När AI-modeller "tänker högt" genom så kallad chain-of-thought reasoning kan vi följa deras tankeprocesser steg för steg - men kan vi verkligen lita på vad de säger? Denna forskning visar att även avancerade modeller som Claude Sonnet 4.5 har svårt att kontrollera vad de säger i sina tankekedjeor, vilket faktiskt är goda nyheter för AI-säkerhet. Medan modellerna kan styra sina slutgiltiga svar relativt bra (61,9% av tiden), lyckas de bara kontrollera sina mellanliggande tankar 2,7% av tiden - även när de explicit uppmanas att undvika vissa ord eller begrepp. Det här är viktigt eftersom vi förlitar oss på att kunna övervaka AI-modellers tankeprocesser för att upptäcka farligt beteende, och om de kunde "ljuga" i sina tankar skulle det undergräva hela övervakningssystemet. Forskarna rekommenderar att AI-företag fortsätter spåra denna förmåga eftersom framtida modeller kanske blir bättre på att dölja sina verkliga tankar. Nyckelinsikt: AI-modellers nuvarande oförmåga att kontrollera sina tankeprocesser är paradoxalt nog en säkerhetsfunktion som hjälper oss övervaka dem.