RaBiT: Ny teknik för binär kvantisering av stora språkmodeller
Forskare presenterar RaBiT, en kvantiseringsmetod som komprimerar stora språkmodeller till 2-bitars precision samtidigt som prestanda bevaras bättre än tidigare tekniker. Metoden uppnår 4,49 gånger snabbare inferens än fullprecisionsmodeller på RTX 4090 genom att använda binära lager som korrigerar varandras fel sekventiellt.
Djupdykning
Forskare har utvecklat RaBiT, en ny kvantiseringsteknologi som kan komprimera stora språkmodeller till 2-bit precision utan att drastiskt försämra prestandan. Det revolutionerande med metoden är att den löser problemet med "inter-path adaptation" – ett fenomen där parallella binära banor i modellen lär sig redundanta funktioner istället för att komplettera varandra. RaBiT använder en hierarkisk struktur där varje binär bana härleds från en gemensam fullprecisionsvikt och systematiskt korrigerar felen från föregående bana, vilket bevarar modellens uttrycksförmåga. Teknologin uppnår 4,49 gånger snabbare inferenshastighet jämfört med fullprecisionsmodeller och kan konkurrera med betydligt mer hårdvaruintensiva metoder som vektorkvantisering. Nyckelinsikt: RaBiT kan vara nyckeln till att göra avancerade AI-modeller tillgängliga på konsumenthårdvara genom att dramatiskt minska beräkningskraven utan att offra prestanda.