Microsoft släpper VibeVoice för röstkloning
Microsoft har lanserat VibeVoice, ett AI-verktyg som kan klona röster med bara några sekunders ljudinspelning. Tekniken använder neurala nätverk för att återskapa röstmönster och tonfall, men väcker frågor om missbruk och deepfakes.
Djupdykning
Microsoft har släppt VibeVoice, en AI som kan klona din röst från bara 20 sekunder av inspelning och sedan tala på 53 språk. Det här är inte bara ännu en röstsyntes-verktyg – det är en direkt attack på den gigantiska marknaden för dubbning och översättning som Netflix, Disney och andra streamjättar spenderar miljarder på varje år. Det verkligt intressanta ligger i vad Microsoft inte säger: medan OpenAI håller sina röstverktyg låsta bakom säkerhetsregler som gör dem nästan oanvändbara för kommersiellt bruk, går Microsoft all-in på praktisk användning. De har byggt in säkerhetsmekanismer, men fokuserar på att faktiskt lösa verkliga problem för företag som behöver skala innehåll globalt. Den tekniska genomgången visar att de använder så kallad "few-shot learning" – AI:n behöver bara höra dig säga några meningar för att förstå din rösts unika karaktär, från tonhöjd till accent. Det här betyder att en podcastskapare kan skapa avsnitt på portugisiska utan att kunna språket, eller att ett företag kan dubba sin CEO:s presentation till 50 marknader över en lunch. Samtidigt som alla pratar om ChatGPT, bygger Microsoft tyst sin egen infrastruktur för att ersätta hela branscher med AI – och de verkar mindre bekymrade över att folk ska missbruka tekniken än att leverera verktyg som företag faktiskt kan använda idag.