Nytt sätt att hitta hur AI-modeller 'vägrar' svara – på sekunder istället för timmar

arXiv cs.AI

Forskare har hittat ett snabbare sätt att kartlägga de mönster i en språkmodells interna aktiveringar som styr när den vägrar svara på skadliga frågor – processen tar nu sekunder jämfört med tidigare beräkningstunga metoder. Tekniken bygger på en algoritm kallad RFM och testades på både Qwen 2.5 och Qwen 3, där den dessutom presterade bättre än konkurrenterna. Det intressanta här är att 'vägran' inte är en enkel strömbrytare i modellen, utan lever i ett flerdimensionellt rum – vilket gör det både svårare att manipulera och lättare att studera på djupet.