NVIDIA släpper Nemotron-Speech ASR: En ny öppen källkodsmodell för transkribering med låg latens

2026-01-14

89

NVIDIA har offentliggjort lanseringen av Nemotron-Speech ASR, en ny modell för automatisk taligenkänning (ASR) med öppen källkod. Modellen är specifikt utvecklad från grunden för att hantera användningsområden som kräver låg latens, såsom röstassistenter och direkttextning i realtid.

En modell för realtidstillämpningar

Nemotron-Speech ASR är en engelskspråkig transkriberingsmodell som består av 600 miljoner (600M) parametrar. Den primära designfilosofin bakom modellen är att möjliggöra användning i miljöer där snabb respons är kritisk. Enligt källmaterialet är den optimerad för “low-latency use cases” som röststyrda agenter (voice agents) och live-textning.

Teknisk arkitektur: FastConformer och RNNT

Modellens prestanda vilar på en specifik teknisk arkitektur. Den utnyttjar en så kallad “cache-aware FastConformer encoder” tillsammans med en “RNNT decoder”. Denna struktur är en central del i hur modellen kan leverera snabb bearbetning av tal till text utan att kompromissa med effektiviteten.

Prestanda och precision i transkribering

När det gäller modellens träffsäkerhet och hastighet presenteras följande data:

Latens: Modellen erbjuder en latens på under 100 millisekunder (sub-100 ms).
Precision: Modellen uppvisar en felmarginal för ord, känd som Word Error Rate (WER), på mellan 7,2 % och 7,8 %.
Konfigurerbarhet: Användare kan konfigurera storleken på ljudsegmenten (audio chunks) med start från 80 millisekunder.

Skalbarhet och hårdvarueffektivitet på H100

Vid körning på hårdvara i form av H100 GPU:er uppvisar Nemotron-Speech ASR betydande skalbarhetsfördelar. Modellen kan hantera upp till tre gånger fler samtidiga strömmar jämfört med traditionella buffrade baslinjer (buffered baselines), vilket gör den effektiv för storskaliga implementeringar.

Tillgänglighet och licensiering

NVIDIA har valt att göra Nemotron-Speech ASR tillgänglig som öppen källkod. Modellen finns publicerad på plattformen Hugging Face. Den tillhandahålls under “NVIDIA Permissive Open Model License”, vilket reglerar hur modellen får användas och distribueras av utvecklare och organisationer.

Källor

Marktechpost

Föregående artikel

Nvidia och Eli Lilly investerar 1 miljard dollar i AI-laboratorium för läkemedel

Nästa artikel

MedGemma 1.5 och MedASR: Google Research lanserar nästa generations AI för medicinsk bildtolkning och tal-till-text

NVIDIA släpper Nemotron-Speech ASR: En ny öppen källkodsmodell för transkribering med låg latens

En modell för realtidstillämpningar

Teknisk arkitektur: FastConformer och RNNT

Prestanda och precision i transkribering

Skalbarhet och hårdvarueffektivitet på H100

Tillgänglighet och licensiering

Källor

Relaterade artiklar

Google lanserar Gemma 4 under Apache 2.0: Fyra nya modeller med inbyggd multimodalitet

ElevenLabs lanserar ElevenMusic: AI-driven musikgenerering från text

Meta lanserar nya smarta glasögon för receptbelagda linser: Blayzer och Scriber Optics

Nytt och Aktuellt

Google lanserar Gemma 4 under Apache 2.0: Fyra nya modeller med inbyggd multimodalitet

ElevenLabs lanserar ElevenMusic: AI-driven musikgenerering från text

Meta lanserar nya smarta glasögon för receptbelagda linser: Blayzer och Scriber Optics

Google lanserar Gemini-driven realtidsöversättning för iOS – fungerar med alla hörlurar

Kinas genombrott för medicinska alfa-isotoper: Massproduktion vid CSNS