Google presenterar Gemini 3.5 Live Translate: Direktöversättning mellan röster

Google har tagit nästa steg i utvecklingen av sin AI-familj genom att presentera Gemini 3.5 Live Translate. Det rör sig om en ny speech-to-speech-modell som är särskilt utvecklad för att erbjuda omedelbar röst-till-röst-översättning med minimal fördröjning.

Den nya modellen är en del av Gemini 3.5-serien, som tidigare sett lanseringen av Flash-versionen. En mer kraftfull Pro-modell förväntas dyka upp under de kommande veckorna.

Mer än bara ord – bevarar din röst

En av de mest framträdande egenskaperna hos Gemini 3.5 Live Translate är dess förmåga att bevara talarens ursprungliga tonläge, tempo, tonhöjd och intonation. Istället för att översättningen levereras av en generisk robotröst, är målet att slutresultatet ska låta som användaren själv. Systemet är optimerat för att automatiskt känna igen och översätta fler än 70 olika språk, med en betydligt lägre latens än i tidigare versioner.

Nyckeldetaljer i Gemini 3.5 Live Translate:
  • Snabbhet: Kraftigt reducerad fördröjning för ett naturligt samtalsflöde.
  • Naturligt ljud: Bevarar talarens personliga röstegenskaper.
  • Språktalande: Stöd för över 70 språk med automatisk detektering.
  • Hårdvarufrihet: Fungerar nu med alla typer av hörlurar, inte bara Pixel Buds.

Tillgänglighet för utvecklare och företag

Tekniken rullas ut via flera olika kanaler. Utvecklare kan redan nu få tillgång till en offentlig förhandsversion via Gemini Live API eller AI Studio. Denna version inkluderar avancerade funktioner som kontinuerlig talbearbetning, automatisk hantering av flerspråkig input och effektiv filtrering av bakgrundsbrus.

För företagskunder kommer tekniken att integreras i Google Meet. Utvalda kunder förväntas få tillgång till detta i juni 2026, i samband med en uppdatering av användargränssnittet.

Smarta funktioner för mobilen och ökad säkerhet

Google planerar även att föra in modellen i den vanliga Google Translate-appen för både Android och iOS. En intressant nyhet för Android-användare är det nya "lyssningsläget". Detta gör det möjligt för användaren att hålla telefonen mot örat precis som vid ett vanligt samtal för att höra översättningen, vilket eliminerar behovet av hörlurar helt i vissa situationer.

För att hantera säkerhetsaspekterna kring AI-genererat tal integrerar Google så kallade SynthID-vattenstämplar direkt i ljudvågsdatan. Dessa vattenstämplar markerar talet som AI-genererat, och enligt Google finns det för närvarande inget sätt att ta bort märkningen.

Källor

Känner du någon som skulle uppskatta detta? Tipsa dem genom att dela artikeln!

Relaterade artiklar

Nytt och Aktuellt

Google presenterar Gemini 3.5 Live Translate: Direktöversättning mellan röster

Känner du någon som skulle uppskatta detta? Tipsa dem genom att dela artikeln!

Relaterade artiklar

Nytt och Aktuellt

Google presenterar Gemini 3.5 Live Translate: Direktöversättning mellan röster

Känner du någon som skulle uppskatta detta? Tipsa dem genom att dela artikeln!

Related Articles

Latest Articles