PRISM: Ny arkitektur accelererar AI-modellers textgenerering med 2,6x hastighet

arXiv cs.AI

Forskare presenterar PRISM, en ny arkitektur som skiljer beräkningar åt för att minska latensen i stora språkmodellers textgenerering. Metoden uppnår 2,6x snabbare genomströmning jämfört med befintliga optimerade system genom att koppla loss modellkapacitet från beräkningskostnad.

Djupdykning

Forskare har utvecklat PRISM, en innovativ arkitektur som löser ett grundläggande problem med att accelerera stora språkmodeller genom så kallad spekulativ avkodning. Metoden separerar beräkningar över olika parameteruppsättningar, vilket möjliggör högre modellkapacitet utan att öka inferenskostnaden - ett genombrott som tidigare ansåtts omöjligt. Genom att "refaktorera" beräkningsvägarna kan PRISM leverera över 2,6 gånger snabbare genomströmning än befintliga optimerade system, samtidigt som modellen behåller hög noggrannhet. Detta är särskilt betydelsefullt för den svenska AI-sektorn där kostnadseffektiv inferens är avgörande för att demokratisera tillgången till avancerade språkmodeller. Genombrotten visar också att PRISM skalar bättre med ökande datamängder än konkurrerande arkitekturer, vilket tyder på långsiktig hållbarhet. Nyckelinsikt: PRISM löser den klassiska avvägningen mellan modellkapacitet och inferenshastighet genom att separera beräkningar, vilket kan revolutionera hur vi deployar stora språkmodeller i praktiken.