Ny benchmark visar att språkmodeller saknar djup logisk förståelse

arXiv cs.AI

Forskare har skapat LogicSkills, ett test som mäter tre grundläggande logiska färdigheter hos stora språkmodeller. Resultaten visar att modellerna presterar bra på att bedöma giltighet men betydligt sämre på symbolisering och motexempelkonstruktion, vilket tyder på att de förlitar sig på ytliga mönster snarare än äkta logiskt resonemang.

Djupdykning

Forskare har utvecklat LogicSkills, ett nytt benchmark som testar tre grundläggande färdigheter inom formell logik hos stora språkmodeller: symbolisering av premisser till första ordningens logik, konstruktion av motexempel, och bedömning av giltighet. Studien visar att dagens ledande AI-modeller presterar väl på att bedöma giltighet men har betydligt sämre resultat när det gäller symbolisering och konstruktion av motexempel, vilket tyder på att de förlitar sig mer på ytliga mönster än äkta logisk resonering. Detta är viktigt eftersom det avslöjar begränsningar i hur AI-system faktiskt förstår och tillämpar logik, vilket har direkta konsekvenser för deras tillförlitlighet inom områden som kräver stringent resonemang som juridik, matematik och filosofi. Resultaten ifrågasätter antaganden om AI-systems kapacitet för genuint logiskt tänkande och pekar på behovet av mer sofistikerade träningsmetoder. Nyckelinsikt: AI-modeller kan identifiera logiska slutsatser men saknar djupare förmåga att manipulera formella strukturer, vilket begränsar deras användbarhet inom kritiska resonemangsuppgifter.