CHESS: Ny metod gör stora språkmodeller 4,56 gånger snabbare
Forskare har utvecklat CHESS, ett system som gör stora språkmodeller (LLMs) upp till 4,56 gånger snabbare genom att bara använda 1% av den vanliga KV-cache-minnesanvändningen. Systemet använder en hierarkisk metod för att välja vilka delar av kontexten som är mest relevanta, vilket både sparar minne och ökar hastigheten utan att försämra kvaliteten.
Djupdykning
CHESS tacklar ett av de största problemen med stora språkmodeller idag – att de blir extremt långsamma när de hanterar långa konversationer eller dokument. Problemet ligger i den så kallade KV-cachen (en minnesstruktur som lagrar tidigare beräkningar), som växer enormt och bromsar ner hela systemet när kontexten blir längre. Tidigare lösningar har bara kastat bort tokens slumpmässigt utan att förstå vad som faktiskt är viktigt för nuvarande frågan, vilket resulterat i sämre svar. Det revolutionerande med CHESS är att systemet intelligent väljer vilka delar av den långa kontexten som verkligen behövs för varje specifik fråga, snarare än att bara beskära informationen blindt. Genom att kombinera smart algoritmutveckling med systemoptimering lyckas de behålla kvaliteten på svaren medan de använder bara 1% av det ursprungliga minnesutrymmet – och samtidigt öka hastigheten med över 4 gånger. Detta är enormt viktigt eftersom det kan göra avancerade AI-modeller tillgängliga för fler användare och applikationer där snabbhet är kritisk, från kundtjänst till realtidsanalys av långa dokument. Nyckelinsikt: CHESS visar att intelligent minneshantering, inte bara större hårdvara, är nyckeln till att göra kraftfulla AI-modeller både snabbare och mer tillgängliga.