Forskare visar att AI-modeller fastnar i felaktigt orsakssammanhang trots hög prestanda

arXiv cs.AI

Ny forskning visar att stora språkmodeller som GPT-5.2 bara uppnår 3,7% korrekthet på orsakslogiska problem eftersom de blandar ihop korrelation med kausation. Forskarna utvecklade en metod som återställer 53-59% av felaktiga resonemang genom att straffa fel orsaksmodeller oberoende av uppgiftens resultat.

Djupdykning

Detta forskningsarbete identifierar en fundamental brist i hur stora språkmodeller lär sig kausala samband - de kan ge rätt svar av fel anledningar genom att blanda ihop korrelation och kausalitet. Problemet uppstår eftersom autoregressive träning inte kan skilja mellan att observera ett samband P(Y|X) och att faktiskt intervenera P(Y|do(X)), vilket forskarna kallar "Rung Collapse". När modeller belönas för korrekta svar trots felaktig kausal förståelse, fastnar de i bristfälliga resonemangsmönster som kollapsar när förutsättningarna förändras. Forskarnas föreslagna lösning, Epistemic Regret Minimization, straffar fel i kausal logik oberoende av om slutresultatet blir rätt, och visar lovande resultat med 53-59% förbättring i test med sex avancerade språkmodeller. Nyckelinsikt: Även de mest avancerade AI-modellerna kan vara "rätt av fel skäl" - en kritisk svaghet som kräver fundamentalt nya träningsmetoder för att bygga verkligt tillförlitlig AI.