Ny optimeringsmetod minskar träningskostnader för AI-resonemangsmodeller
Forskare har utvecklat Difficulty-Estimated Policy Optimization (DEPO), en metod som minskar träningskostnaderna för stora resonemangsmodeller med upp till 50 procent. Tekniken använder en svårighetsestimator som filtrerar bort träningsdata med låg inlärningspotential innan beräkningsintensiva processer körs.
Djupdykning
DeepSeek-R1 och andra stora resonemangsmodeller har visat att man kan förbättra prestanda genom att använda mer beräkningskraft under inferens, men nuvarande metoder som GRPO (Group Relative Policy Optimization) slösar resurser på problem som är antingen för enkla eller för svåra. Forskare har nu utvecklat DEPO (Difficulty-Estimated Policy Optimization), en metod som använder en "svårighetsestimator" för att filtrera bort träningsdata med låg lärandepotential innan den resurskrävande träningsprocessen börjar. Detta är betydelsefullt eftersom träning av avancerade AI-modeller kräver enorma mängder beräkningskraft och energi, och metoder som kan halvera dessa kostnader utan att försämra prestanda gör tekniken mer tillgänglig och hållbar. För svensk AI-industri kan detta innebära att mindre företag och forskningsinstitut får bättre möjligheter att utveckla konkurrenskraftiga resonemangsmodeller utan de astronomiska kostnader som tidigare krävts. Nyckelinsikt: Genom att bara träna på de "lagom svåra" problemen kan AI-modeller lära sig lika effektivt med hälften av beräkningsresurserna.