Forskare tränar språkmodeller att lära sig genom interaktion med ORBIT-ramverk
Forskare har utvecklat ORBIT, ett meta-reinforcement learning ramverk som tränar språkmodeller att lära sig från interaktion i realtid. Den öppna källkodsmodellen Qwen3-14B presterade efter träning lika bra som GPT-5.2 på osynliga miljöer. Skalningsexperiment visar att större modeller ger konsekvent bättre resultat för beslutsfattande agenter.
Djupdykning
Forskare har utvecklat ORBIT, ett banbrytande ramverk som tränar språkmodeller att lära sig från interaktion i realtid utan att uppdatera sina viktningar. Genom meta-reinforcement learning över flera episoder har de lyckats få en relativt liten öppen modell (Qwen3-14B) att prestera på samma nivå som GPT-5.2 i online-miljöer den aldrig sett tidigare. Detta representerar ett betydande genombrott för AI-agenter som måste fatta beslut i dynamiska miljöer där information samlas in successivt, snarare än att ha all nödvändig information tillgänglig från start. Resultaten tyder på att större modeller kommer kunna uppnå ännu bättre prestanda, vilket öppnar dörren för mer sofistikerade AI-system som kan anpassa sig och lära under körning. Nyckelinsikt: ORBIT visar att språkmodeller kan tränas att bli effektiva online-lärande agenter genom meta-reinforcement learning, vilket kan revolutionera hur AI hanterar verkliga beslutssituationer.