Ny metod minskar träningskostnader för AI-modeller med 90 procent
Forskare har utvecklat Dynamic One-Shot Policy Refinement (DoPR), en teknik som minskar beräkningskostnaderna för träning av stora språkmodeller med nästan en tiopotens samtidigt som prestandan bibehålls. Metoden väljer dynamiskt ut endast ett träningsexempel per batch baserat på belöningsvolatilitet, vilket gör avancerad AI-träning mer tillgänglig.
Djupdykning
Forskare har utvecklat en ny metod för att träna stora språkmodeller i resonemang som dramatiskt minskar beräkningskostnaden. Den traditionella metoden RLVR (reinforcement learning under verifiable rewards) har visat lovande resultat för att förbättra AI:s förmåga att resonera, men kräver enorma beräkningsresurser och omfattande belöningssignaler. Den nya tekniken DoPR (Dynamic One-Shot Policy Refinement) använder istället en smart strategi där endast ett informativt träningsexempel per batch väljs baserat på osäkerhet och belöningsvolatilitet. Genombrotten visar att effektiv träning kan uppnås med överraskande få träningsinstanser, vilket utmanar antagandet att stora datamängder alltid behövs för avancerad AI-träning. Detta är särskilt betydelsefullt för svenska tech-företag och forskningsinstitutioner som ofta har begränsade beräkningsbudgetar jämfört med stora amerikanska tech-jättar. Metoden minskar beräkningsbelastningen med nästan en storleksordning samtidigt som prestandan bibehålls, vilket kan demokratisera tillgången till avancerad AI-träning. Nyckelinsikt: Effektiv AI-träning handlar mer om smart dataval än stora datamängder, vilket kan jämna ut spelplanen för mindre aktörer inom AI-utveckling.