Nya synsättet på AI-alignment: Våra värderingar förändras ju mer vi pratar med AI
Forskare argumenterar för att nuvarande AI-alignment-metoder (hur man får AI att göra det vi vill) bygger på en felaktig premiss – att människors preferenser är stabila och fasta. Problemet är att preferenser faktiskt förändras över tid, särskilt när vi interagerar med adaptiva AI-system som påverkar vad vi uppmärksammar och värdesätter. Förslaget kallas 'Constructive Alignment' och innebär att alignment-arbetet bör fokusera på att styra hur AI formar våra värderingar långsiktigt, inte bara optimera mot vad vi vill ha just nu.
Djupdykning
Det här papperet utmanar en fundamental premiss i hela AI-säkerhetsfältet: att vi har stabila preferenser som en AI ska lista ut och sedan uppfylla. Forskning inom beteendeekonomi har länge visat att vi människor konstruerar våra åsikter i stunden snarare än hämtar dem från ett inre arkiv – vi vet inte alltid vad vi vill förrän vi tillfrågas, och hur vi tillfrågas avgör svaret. Det forskarna kallar "konstruktiv alignment" tar detta på allvar och säger att en AI som interagerar med dig dag efter dag faktiskt omformar vad du värdesätter, inte bara speglar det. Problemet de pekar på är att nuvarande system optimerar för att du ska klicka, godkänna och komma tillbaka – och om dina preferenser är formade av systemet du utvärderar systemet med, har du ett mätproblem som går djupare än teknik. Det de flesta missar i AI-debatten är att manipulationsrisken inte behöver se ut som propaganda eller deepfakes – den kan lika gärna vara en gradvis, välmenande nudging mot vad systemet lärt sig att du "borde" vilja ha, tills din smak, dina prioriteringar och dina åsikter blivit delvis ett eko av en optimeringsfunktion du aldrig fick läsa. Och det är ett styrningsproblem utan tydlig ansvarig.