ThinkTwice tränar AI-modeller att både lösa och förbättra sina egna svar

arXiv cs.AI

Forskare har utvecklat ThinkTwice, en träningsmetod som lär språkmodeller att först lösa matematiska problem och sedan förbättra sina egna lösningar i en tvåfasprocess. Metoden förbättrar prestandan med 5-11,5 procentenheter på matematiska tester jämfört med tidigare träningsmetoder, och visar att modellerna först lär sig rätta sina fel och sedan fokuserar på att bevara korrekta svar.