Voxtral Realtime uppnår offline-kvalitet med 480ms latens

arXiv cs.AI

Voxtral Realtime är en ny taligenkanningsmodell som matchar offline-transkriptionskvalitet med under en sekunds latens på 480ms. Modellen är tränad end-to-end för streaming på data från 13 språk och presterar lika bra som Whisper. Modellvikterna släpps under Apache 2.0-licens.

Djupdykning

Mistral AI:s nya Voxtral Realtime representerar ett betydande genombrott inom automatisk taligenkänning genom att leverera offline-kvalitet med mindre än en sekunds fördröjning. Till skillnad från tidigare lösningar som anpassar befintliga modeller genom att dela upp audio i segment, är Voxtral Realtime tränad från grunden för streaming med explicit synkronisering mellan ljud- och textströmmar. Modellen bygger på det avancerade Delayed Streams Modeling-ramverket och introducerar en ny kausal ljudkodare tillsammans med Ada RMS-Norm för förbättrad fördröjningshantering. Med träning på en omfattande dataset som spänner över 13 språk och prestanda som matchar den välkända Whisper-modellen vid endast 480 ms fördröjning, öppnar detta för nya möjligheter inom realtidsapplikationer som simultantolkning, live-undertexter och röststyrda system. Nyckelinsikt: Voxtral Realtime eliminerar den traditionella avvägningen mellan transkriptionskvalitet och latens, vilket kan revolutionera realtidsapplikationer som kräver både snabb respons och hög noggrannhet.

🔗 Läs originalartikeln (arXiv cs.AI)

◀ 10 av 20 ▶