Thinking Machines lanserar ny AI-modell för röstinteraktion

Latent Space

Thinking Machines har släppt TML-Interaction-Small, en 276 miljarder parameter stor AI-modell som förbättrar realtidsröstinteraktion och ersätter traditionell röstaktivitetsdetektering (VAD). Modellen representerar ett steg framåt inom naturlig röstbaserad AI-kommunikation.

Djupdykning

Thinking Machines har släppt TML-Interaction-Small, en 276 miljarder parameter-stor modell som påstås slå nuvarande standarder för realtidsröstinteraktion och ersätta traditionell Voice Activity Detection (VAD) - tekniken som avgör när någon pratar eller är tyst. Det intressanta här är inte bara storleken på modellen, utan att de kallar det för "native interaction" vilket antyder att de byggt om hela kedjan från grunden istället för att bara förbättra befintliga komponenter. Medan de flesta AI-företag fokuserar på att göra chatbots smartare genom att mata dem med mer text, verkar Thinking Machines satsa på att AI:n ska förstå mänsklig kommunikation på ett mer fundamentalt sätt - alltså inte bara orden vi säger utan hur vi säger dem, pauserna, tonläget, hela flödet. VAD har varit en flaskhals i röstinteraktion i åratal eftersom den ofta missar subtila signaler om när någon är klar med att prata. Om detta faktiskt fungerar som utlovat kan det betyda slutet på de där frustrerande momenten när röstassistenter avbryter dig eller väntar för länge på svar.

🔗 Läs originalartikeln (Latent Space)

◀ 7 av 19 ▶