X-RAY: Kartläggning av LLM:ers resoneringsförmåga via formaliserade och kalibrerade prober
arXiv cs.AI
Forskare har utvecklat X-RAY, ett system som mäter hur väl stora språkmodeller faktiskt kan resonera genom formella matematiska test istället för att bara gissa rätt svar. Studien visar att modeller som GPT och Claude är bra på att hantera ytterligare begränsningar i problem, men presterar mycket sämre när problemets grundläggande struktur förändras. Systemet kan skilja mellan modeller som ser likvärdiga ut på vanliga benchmark-test och avslöjar specifika typer av fel som annars är svåra att upptäcka.