Enkel realtidsövervakning av AI-svar visar sig hålla måttet
arXiv cs.AI
Även efter säkerhetsträning kan stora språkmodeller producera skadliga svar i skarpt läge – så hur fångar man upp dem? Forskare visar att en enkel tröskelbaserad monitor (ett system som slår larm när en extern modell flaggar ett svar som osäkert) presterar lika bra som betydligt mer komplexa övervakningsmetoder. Det intressanta är att man inte behöver bygga avancerade statistiska test för detta – en välkalibrerad tröskel räcker.