Ny kvantiseringsmetod gör stora språkmodeller 50% mer minneseffektiva

arXiv cs.AI

Forskare har utvecklat SAGE-PTQ, en teknik som komprimerar stora språkmodeller till bara 1,03 bitar per vikt samtidigt som prestandan bibehålls. Metoden gör LLaMA-3-8B 50% mer minneseffektiv än tidigare tekniker och ger 1,5x snabbare inferens på LLaMA-2-70B, vilket kan sänka kostnaderna för AI-deployment avsevärt.