Mistral AI lanserar Voxtral TTS: Öppen text-till-tal för edge-enheter

Mistral AI har lanserat Voxtral TTS, en ny text-till-tal-modell med öppen källkod. Modellen är specifikt utvecklad för realtidsapplikationer och är konstruerad för att hantera avancerad röstgenerering direkt på lokala enheter.

Optimerad för edge-enheter

Grunden i Voxtral TTS utgörs av arkitekturen Ministral 3B. Denna tekniska bas har möjliggjort en strikt optimering för så kallad edge deployment. I praktiken innebär detta att modellen är anpassad för att köras effektivt på enheter med begränsad beräkningskraft, vilket uttryckligen inkluderar smartklockor, smarttelefoner och bärbara datorer.

Prestanda och realtidsgenerering

Tekniken är designad för att leverera omedelbar respons i realtidsapplikationer. För textprover på 500 tecken uppnås en “time-to-first-audio” (TTFA) på 90 millisekunder. Vidare opererar Voxtral TTS med en realtidsfaktor (RTF) på 6x. Denna beräkningshastighet gör det möjligt för systemet att rendera ett ljudklipp på tio sekunder på ungefär 1,6 sekunder.

Röstkloning och flerspråkighet

En central funktion i modellen är dess förmåga att anpassa och återskapa specifika röster. För att genomföra denna anpassning krävs en ljudsampling som är kortare än fem sekunder. Utifrån denna korta inmatning kan Voxtral TTS fånga upp och reproducera subtila accenter, röstböjningar och intonationer. Röstgenereringen har fullt stöd för nio språk: engelska, franska, tyska, spanska, nederländska, portugisiska, italienska, hindi och arabiska.

Öppna vikter och användningsområden

Mistral AI har valt att göra modellen tillgänglig med öppna vikter. Filer och kod finns publicerade för nedladdning på plattformen Hugging Face under namnet “mistralai/Voxtral-TTS”. Eftersom systemet är designat för realtidsapplikationer anges de primära användningsområdena vara agenter för kundengagemang, dubbning av material och direktöversättning.

Sammanfattningsvis tillhandahåller Mistral AI en öppen text-till-tal-modell som kombinerar låg latens med flerspråkigt stöd. Genom optimeringen för edge deployment och förmågan att fånga subtila röstdetaljer från mycket korta samplingar, etableras en ny teknisk grund för röstbaserade gränssnitt på portabla enheter.

Källor

Känner du någon som skulle uppskatta detta? Tipsa dem genom att dela artikeln!

Relaterade artiklar

Nytt och Aktuellt