Ny metod överför stora språkmodellers funktioner till modeller på 0,6 miljarder parametrar

arXiv cs.AI

Forskare har utvecklat STAR, en träningsmetod som låter små AI-modeller på 0,6 miljarder parametrar utföra komplexa funktionsanrop lika bra som betydligt större modeller. Metoden använder kunskapsdestillation och belöningssystem baserat på likhet för att förbättra träningsstabiliteten och prestandan.

Djupdykning

Forskare har utvecklat STAR, en ny metod för att komprimera stora språkmodellers funktionsanropsförmågor till extremt små modeller på bara 0,6 miljarder parametrar. Tekniken kombinerar två innovationer: begränsad kunskapsdestillation som förhindrar överanpassning och stabiliserar träningen, samt förstärkningslärning som använder likhetsbaserade belöningar istället för binära ja/nej-signaler. Detta löser ett kritiskt problem inom AI-utveckling där stora modeller fungerar utmärkt men är för resurskrävande för praktisk användning i mobiler, IoT-enheter och edge-computing. Resultatet visar att STAR-modellen på 0,6B parametrar presterar bättre än många större öppna modeller, vilket kan demokratisera tillgången till avancerade AI-agenter och möjliggöra deployment i resursfattiga miljöer. Nyckelinsikt: STAR visar att det är möjligt att behålla komplexa AI-förmågor i extremt små modeller, vilket kan förändra hur och var AI distribueras i praktiken.