Ny benchmark avslöjar att språkmodeller inte kan resonera lika bra som deras svar antyder
Forskare har skapat ReasoningMath-Plus, ett nytt test med 150 matematiska problem som visar att ledande språkmodeller endast får 4,36/10 poäng när deras resoneringsprocess utvärderas, trots att de uppnår högre poäng på slutsvar. Testet fokuserar på strukturellt tänkande med flera begränsningar samtidigt, vilket avslöjar att befintliga benchmarks överskattar modellernas förmåga att faktiskt resonera.
Djupdykning
Forskare har utvecklat ReasoningMath-Plus, ett nytt test för att utvärdera AI-modellers matematiska resonemangsförmåga på djupet, eftersom nuvarande tester blivit för enkla för de senaste språkmodellerna. Det nya testet består av 150 noggrant utvalda problem som kräver komplex strukturell reasoning, där modellerna måste hantera flera begränsningar samtidigt och bygga upp lösningar konstruktivt snarare än att bara följa mallar. Resultaten visar en betydande skillnad mellan hur väl AI-modeller kan ge rätt slutsvar (upp till 5,8 av 10 poäng) jämfört med hur väl de faktiskt resonerar genom problemen steg för steg (genomsnitt 4,36 av 10). Detta avslöjar att dagens evalueringsmetoder som endast fokuserar på slutsvar ger en missvisande bild av AI-modellers verkliga resonemangskapacitet, vilket är kritiskt för utvecklingen av mer tillförlitliga AI-system inom matematik och logik. Nyckelinsikt: Skillnaden mellan rätt svar och korrekt resonemang visar att vi behöver mer sofistikerade utvärderingsmetoder för att verkligen förstå AI-modellers kognitiva förmågor.