Google har officiellt presenterat Gemini 3.1 Flash TTS, en ny modell för text-till-tal (TTS) som markerar ett steg framåt i utvecklingen av digitala röster. Modellen är utformad för att erbjuda både högre ljudkvalitet och mer precis kontroll över hur talet genereras.
Bättre kontroll med naturligt språk
En av de mest framträdande nyheterna i Gemini 3.1 Flash TTS är möjligheten för användare att styra röstens karaktär via naturliga språktaggar. Detta gör det möjligt att finjustera både röststil och tempo, vilket ger en mer mänsklig och situationsanpassad upplevelse jämfört med tidigare tekniker.
Globalt stöd och inbyggd säkerhet
Google betonar att modellen har ett brett internationellt stöd och fungerar på över 70 olika språk.
För att möta utmaningar kring desinformation och oauktoriserad användning av AI-genererat ljud har Google integrerat sin SynthID-teknik i modellen. Detta innebär att allt ljud som produceras vattenstämplas digitalt, vilket underlättar identifiering av AI-genererat material och bidrar till att förhindra spridning av desinformation.
Viktiga egenskaper i urval:
- Förbättrad röstkvalitet: Levererar mer naturligt och uttrycksfullt tal.
- Språktaggar: Möjliggör styrning av stil och tempo genom instruktioner i naturligt språk.
- Omfattande språkstöd: Fungerar på över 70 språk.
- Säkerhetsfokus: Inbyggd vattenstämpling via SynthID för att motverka desinformation.

