Amazon förbättrar AI-röstsyntes med nya tekniker

Amazon Science

Amazon Science presenterar nya metoder för att förbättra text-till-tal-system baserade på stora språkmodeller. Tekniker som low-rank adaptation och chain-of-thought reasoning (stegvis resonemang) gör det möjligt att skapa flerspråkiga röster utan accent och med bättre uttrycksfullhet.

Djupdykning

Text-till-tal-teknologin får en rejäl uppgradering tack vare avancerade AI-tekniker som låter system producera naturligt tal på flera språk utan konstiga accenter. Genom att använda så kallad "low-rank adaptation" (en smart metod för att fininjustera AI-modeller utan att behöva omträna hela systemet) och dataförstärkning kan dessa system nu hantera allt från känslouttryck till flerspråkighet med imponerande precision. Det här är betydligt mer sofistikerat än de robotaktiga rösterna vi är vana vid – istället får vi AI som kan anpassa sig till olika talarstilar och språkliga nyanser. För företag som arbetar med röstassistenter, ljudböcker eller tillgänglighetsverktyg innebär det här genombrott att de snart kan erbjuda verkligt mänskligt låtande röster som fungerar lika bra på svenska som på mandarin. Nyckelinsikt: AI-röster håller på att bli så övertygande att skillnaden mellan människa och maskin snart kan vara omöjlig att höra.