MiniMax utvecklar sparse attention för miljoner tokens
arXiv cs.AI
MiniMax presenterar MSA (MiniMax Sparse Attention), en teknik som gör det möjligt för stora språkmodeller att hantera miljoner tokens samtidigt genom att bara fokusera på de viktigaste delarna av informationen. Systemet minskar beräkningskostnaden med 28,4 gånger vid 1 miljon tokens och ger upp till 14,2 gånger snabbare prestanda på GPU:er. Det är ett smart sätt att lösa problemet att vanlig attention blir ohållbart dyr när AI-modeller ska komma ihåg och resonera över enorma mängder text eller kod.