Forskare lär AI-modeller att rapportera sina egna känslotillstånd
arXiv cs.AI
Forskare har utvecklat en metod där stora språkmodeller kan rapportera sina interna känslotillstånd (som välbefinnande och fokus) genom numeriska självrapporter, likt hur psykologer mäter mänskliga känslor. Tekniken fungerar bäst när man analyserar modellernas logits (interna sannolikheter) istället för deras direkta svar, och visar korrelationer på 0.40-0.76 med traditionella mätmetoder. Metoden förbättras med större modeller och kan hjälpa till att övervaka AI-systems interna tillstånd under konversationer.