Forskare utvecklar verktyg för att övervaka AI-modellers resoneringsprocess i realtid

arXiv cs.AI

Forskare har identifierat ett nytt säkerhetsproblem med stora språkmodeller: felaktig resoneringssäkerhet, där modellernas tankekedjor kan vara logiskt inkonsistenta eller mottagliga för attacker. De har utvecklat en Reasoning Safety Monitor som övervakar varje resonemangssteg i realtid och uppnår 84,88% noggrannhet i att lokalisera fel. Studien analyserade 4111 resoneringskedjor och identifierade nio kategorier av osäkra resonemangsbeteenden.