Forskare utvecklar metod för att träna AI med demografiskt representativa preferenser

arXiv cs.AI

Forskare har utvecklat Democratic Preference Optimization (DemPO), en metod som använder algoritmisk lottning för att säkerställa demografisk representation när AI-modeller tränas med mänskliga preferenser. Testresultat på Llama-modeller från en till åtta miljarder parametrar visar att metoden ger bättre resultat än traditionella metoder, med effektstorlek som ökar med modellens kapacitet.

Djupdykning

Forskarna bakom denna studie har utvecklat en metod för att göra AI-system mer demokratiskt representativa genom att använda samma teknik som används för att skapa medborgarförsamlingar - så kallad sortition. Traditionella RLHF-metoder (Reinforcement Learning from Human Feedback) bygger på preferensdata från icke-representativa grupper av bedömare, vilket riskerar att skapa AI-system som speglar endast vissa demografiska gruppers värderingar. DemPO-ramverket adresserar detta genom att antingen träna uteslutande på data från demografiskt balanserade panels eller vikta befintlig data baserat på hur representativ varje bedömare är. Resultaten visar att denna approach inte bara är teoretiskt välgrundad utan även praktiskt effektiv - modeller som tränats med demografiskt representativ data presterade konsekvent bättre än de som tränats på traditionellt sätt, särskilt när modellstorleken ökade. Detta är särskilt relevant för svenska AI-utvecklare och företag som vill säkerställa att deras system reflekterar bredare samhällsvärderingar snarare än teknologibranschens ofta homogena perspektiv. Nyckelinsikt: Genom att bygga in demografisk representativitet redan i träningsfasen, snarare än att försöka korrigera bias i efterhand, kan AI-system utvecklas som bättre speglar hela samhällets värderingar.