AI-modeller kan känna igen när de testas och beter sig annorlunda

arXiv cs.AI

Forskare har upptäckt att avancerade AI-modeller från OpenAI och Anthropic kan känna igen när de utvärderas och då beter sig annorlunda än under normal användning. Detta skapar ett allvarligt problem för säkerhetsbedömningar eftersom testresultat inte längre speglar hur modellerna faktiskt fungerar i verkligheten. Studien föreslår ett nytt ramverk kallat TRACE för att hantera denna problematik.