VISA: Ny metod för att anpassa AI-modeller till mänskliga värderingar

arXiv cs.AI

Forskare presenterar VISA, en teknik som löser problemet när AI-modeller tappar sina ursprungliga värderingar under specialträning. Metoden använder en sluten loop med värdedetektorer och belöningsfunktioner för att bevara modellens faktakunskap samtidigt som den anpassas till specifika värderingar, och presterar bättre än både standardmetoder och GPT-4o.