Forskare utvecklar verktyg för att övervaka AI-modellers resoneringsprocess i realtid
arXiv cs.AI
Forskare har identifierat ett nytt säkerhetsproblem med stora språkmodeller: felaktig resoneringssäkerhet, där modellernas tankekedjor kan vara logiskt inkonsistenta eller mottagliga för attacker. De har utvecklat en Reasoning Safety Monitor som övervakar varje resonemangssteg i realtid och uppnår 84,88% noggrannhet i att lokalisera fel. Studien analyserade 4111 resoneringskedjor och identifierade nio kategorier av osäkra resonemangsbeteenden.