AI-modeller kan 'glömma' hur de resonerar – även när svaren förblir rätt
arXiv cs.AI
Forskare har hittat ett smygande problem i AI-modeller som tränas kontinuerligt: modellen ger fortfarande rätt svar, men av fel anledningar – den har tyst slutat använda rätt typ av bevis (text, bild, diagram) och lutar sig mot andra källor istället. För att motverka detta föreslår de ett ramverk kallat RCL som låser fast modellens tidigare beteende som referenspunkt och straffar den om den ändrar sitt sätt att resonera, utan att det kostar extra beräkningskraft vid användning. Resultaten på fyra testbenchmarks visar att det räcker inte att en modell ger rätt svar – det spelar också roll hur den kom fram till dem.