EntropyInfer gör språkmodeller 2,4 gånger snabbare för långa texter

arXiv cs.AI

Forskare har utvecklat EntropyInfer, en metod som gör stora språkmodeller upp till 2,39 gånger snabbare när de bearbetar texter längre än 100 000 tokens. Tekniken fungerar genom att analysera entropi (osäkerhetsmått) i modellens uppmärksamhetsmekanismer och allokera beräkningskraft där den behövs mest, istället för att använda fasta mönster som tidigare metoder.

Djupdykning

Forskare från universitetet har knäckt ett grundläggande problem med stora språkmodeller: hur man får dem att hantera långa texter utan att krascha datorn. Deras insight är elegant i sin enkelhet - istället för att behandla alla "attention heads" (de delar av modellen som bestämmer vad den ska fokusera på) lika, mäter de hur kaotisk varje del är och ger mer beräkningskraft till de delar som faktiskt behöver den. Det smarta här är att de upptäckte två typer av attention heads: "rigida" som alltid fokuserar på samma sak, och "dynamiska" som hoppar runt beroende på sammanhanget. Traditionella metoder har försökt optimera alla heads samtidigt, men det är som att ge samma mängd energi till både en bibliotekarie och en ADD-drabbad tonåring. Resultatet? Modeller som är 2,4 gånger snabbare på långa texter utan att tappa kvalitet. Det här kommer förändra hur vi bygger AI-system för dokument-analys och kodgenerering, där långa sammanhang tidigare varit en flaskhals.