Ny metod förbättrar hur AI-modeller lär sig resonera utan att tappa förmågan att tänka självständigt

arXiv cs.AI

Forskare har identifierat ett grundläggande problem med en populär träningsmetod för stora språkmodeller (LLM): när modellen lär sig av en 'lärarmodell' med tillgång till facitsvar tenderar den att memorera genvägar snarare än att faktiskt förbättra sitt resonemang. Lösningen, kallad Purified OPSD, filtrerar bort den del av lärarens signal som är kopplad till facit och behåller bara det som faktiskt är överförbart till nya problem – testerat på fyra olika modeller och två datamängder med genomgående bättre resultat.

Djupdykning

Bakom den tekniska jargongen handlar det här om ett grundläggande problem med hur vi tränar AI-modeller att tänka bättre. OPSD — on-policy self-distillation — är en metod där en "lärar-modell" tittar på hur en "elev-modell" löser problem och sedan försöker korrigera den token för token, ungefär som en lärare som rättar varje ord i en uppsats. Problemet forskarna hittat är att läraren råkar lära ut fel saker: istället för att lära modellen att resonera bättre, lär den ut att memorera specifika genvägar kopplade till exakta referenssvar — vilket är precis det motsatta av vad man vill uppnå med modeller som är byggda för lång, stegvis problemlösning. Det flesta missar här är att "chain-of-thought"-modeller, alltså modeller som visar sitt resonemang steg för steg, är extra känsliga för den här typen av störningar — deras styrka är just att de inte tar genvägar utan faktiskt "tänker igenom" problemet, och när träningen börjar belöna snabba mönsterigenkänningar eroderar det förmågan. Lösningen använder något som heter pointwise mutual information (PMI), ett statistiskt mått som i korthet mäter hur mycket mer sannolikt något är givet ett specifikt sammanhang jämfört med i allmänhet — här används det för att filtrera bort det som läraren "alltid skulle säga" och behålla bara den faktiska, frågespecifika korrigeringen. Det påminner lite om hur en dålig musiklärare kan förstöra en elevs gehör genom att tvinga in för strikta noter istället för att lära ut musikalitet — och hur det är svårare att lära om än att lära rätt från början.

🔗 Läs originalartikeln (arXiv cs.AI)

◀ 4 av 17 ▶