Forskare utvecklar Jackpot-ramverk för effektivare träning av stora språkmodeller

arXiv cs.AI

Forskare har utvecklat Jackpot, ett ramverk som använder Optimal Budget Rejection Sampling för att göra förstärkningslärande av stora språkmodeller mer kostnadseffektivt. Metoden minskar distributionsmissanpassning när rollout-generering och policyoptimering separeras, vilket demonstrerades genom träning av Qwen3-8B-Base i upp till 300 uppdateringssteg med batchstorlek 64.

Djupdykning

Forskare från flera institutioner presenterar "Jackpot", ett banbrytande ramverk som kan revolutionera hur stora språkmodeller tränas med förstärkningsinlärning genom att dramatiskt sänka beräkningskostnaderna. Traditionellt har träning av LLM:er med RL varit extremt resurskrävande eftersom varje "rollout" - där modellen genererar text för att utvärdera olika strategier - kräver enorma beräkningsresurser, men Jackpot löser detta genom att använda en mer effektiv modell för rollouts medan den samtidigt korrigerar för den distributionsobalans som uppstår. Den nya metoden, kallad Optimal Budget Rejection Sampling (OBRS), lyckas bibehålla träningsstabiliteten och prestanda även när den använder en billigare modell för datagenerering, vilket demonstrerades genom framgångsrik träning av Qwen3-8B-modellen. Detta genombrott kan göra avancerad AI-träning tillgänglig för mindre organisationer och forskningsgrupper som tidigare inte haft råd med de astronomiska beräkningskostnaderna. Tekniken representerar ett viktigt steg mot mer demokratiserad AI-utveckling där kostnadseffektivitet inte längre behöver kompromissa med modellprestanda. Nyckelinsikt: Jackpot kan sänka kostnaderna för träning av stora språkmodeller med förstärkningsinlärning utan att offra prestanda, vilket potentiellt kan demokratisera tillgången till avancerad AI-utveckling.