ReflectRM: Ny belöningsmodell förbättrar AI-träning genom självreflektion
arXiv cs.AI
Forskare har utvecklat ReflectRM, en ny typ av belöningsmodell som tränar AI-system genom att både bedöma slutresultat och analysera själva tankeprocessen. Modellen använder självreflektion för att identifiera sina mest tillförlitliga analyser, vilket gav 3,7% högre träffsäkerhet på Qwen3-4B och reducerade positionsbias med 10,2% jämfört med befintliga modeller. Det intressanta är att den här tekniken kan göra AI-träning mer transparent och tillförlitlig genom att låta systemet granska sitt eget resonemang.