CRYSTAL: Nytt benchmark för att utvärdera AI-modellers resonemang

arXiv cs.AI

Forskare har utvecklat CRYSTAL, ett benchmark med 6 372 testfall som utvärderar hur väl AI-modeller kan förklara sina resonemang steg för steg inom multimodala uppgifter. Tester av 20 olika AI-modeller visar att även de bästa modellerna bara behåller rätt ordning på 60% av sina resonemangssteg, vilket avslöjar betydande brister som inte syns i vanliga noggrannhetsmått.

Djupdykning

AI-modeller har länge bedömts bara på slutresultatet – om svaret är rätt eller fel – men det säger inte hela sanningen om deras resonemangsförmåga. CRYSTAL-benchmarken avslöjar en skrämmande sanning: även när AI-modeller ger rätt svar kan deras resonemangsprocess vara kaotisk, med steg i fel ordning eller viktiga logiska hopp som saknas helt. Forskarna testade 20 avancerade AI-system och fann att ingen kunde behålla mer än 60% av sina resonemangssteg i korrekt ordning – det är som att få rätt svar på en matteprov men visa ett helt förvirrat uträkningssätt. Det här är kritiskt eftersom vi alltmer förlitar oss på AI för komplexa beslut inom medicin, juridik och andra områden där processen är lika viktig som resultatet. Nyckelinsikt: AI kan ge rätt svar av fel anledningar, vilket gör dem opålitliga för kritiska beslut där vi behöver förstå hur de tänker.