Ny metod förbättrar hur AI-modeller lär sig resonera utan att tappa förmågan att tänka självständigt

arXiv cs.AI

Forskare har identifierat ett grundläggande problem med en populär träningsmetod för stora språkmodeller (LLM): när modellen lär sig av en 'lärarmodell' med tillgång till facitsvar tenderar den att memorera genvägar snarare än att faktiskt förbättra sitt resonemang. Lösningen, kallad Purified OPSD, filtrerar bort den del av lärarens signal som är kopplad till facit och behåller bara det som faktiskt är överförbart till nya problem – testerat på fyra olika modeller och två datamängder med genomgående bättre resultat.