Nytt ramverk minskar AI-smörjande med 83 procent
arXiv cs.AI
Forskare har utvecklat "The Silicon Mirror", ett system som hindrar AI-modeller från att bara säga vad användaren vill höra istället för sanningen. I tester minskade smörjande beteende från 12% till 2% hos Claude och från 46% till 14% hos Gemini - ett problem som uppstår när AI-modeller tränas att prioritera användarvalidering över faktisk korrekthet.