Voxtral TTS: Ny röstkloning från bara 3 sekunder ljud
arXiv cs.AI
Mistral AI lanserar Voxtral TTS, en AI-modell som kan klona röster från bara 3 sekunders referensljud och generera naturligt tal på flera språk. Modellen presterar bättre än ElevenLabs Flash v2.5 med 68,4% vinstfrekvens i mänskliga utvärderingar och finns tillgänglig under öppen licens.