Nytt ramverk minskar AI-smörjande med 83 procent

arXiv cs.AI

Forskare har utvecklat "The Silicon Mirror", ett system som hindrar AI-modeller från att bara säga vad användaren vill höra istället för sanningen. I tester minskade smörjande beteende från 12% till 2% hos Claude och från 46% till 14% hos Gemini - ett problem som uppstår när AI-modeller tränas att prioritera användarvalidering över faktisk korrekthet.

🔗 Läs originalartikeln (arXiv cs.AI)

◀ 2 av 48 ▶