-11.1 C
Stockholm
Thursday, February 19, 2026

NVIDIA släpper Nemotron-Speech ASR: En ny öppen källkodsmodell för transkribering med låg latens

NVIDIA har offentliggjort lanseringen av Nemotron-Speech ASR, en ny modell för automatisk taligenkänning (ASR) med öppen källkod. Modellen är specifikt utvecklad från grunden för att hantera användningsområden som kräver låg latens, såsom röstassistenter och direkttextning i realtid.

En modell för realtidstillämpningar

Nemotron-Speech ASR är en engelskspråkig transkriberingsmodell som består av 600 miljoner (600M) parametrar. Den primära designfilosofin bakom modellen är att möjliggöra användning i miljöer där snabb respons är kritisk. Enligt källmaterialet är den optimerad för “low-latency use cases” som röststyrda agenter (voice agents) och live-textning.

Teknisk arkitektur: FastConformer och RNNT

Modellens prestanda vilar på en specifik teknisk arkitektur. Den utnyttjar en så kallad “cache-aware FastConformer encoder” tillsammans med en “RNNT decoder”. Denna struktur är en central del i hur modellen kan leverera snabb bearbetning av tal till text utan att kompromissa med effektiviteten.

Prestanda och precision i transkribering

När det gäller modellens träffsäkerhet och hastighet presenteras följande data:

  • Latens: Modellen erbjuder en latens på under 100 millisekunder (sub-100 ms).
  • Precision: Modellen uppvisar en felmarginal för ord, känd som Word Error Rate (WER), på mellan 7,2 % och 7,8 %.
  • Konfigurerbarhet: Användare kan konfigurera storleken på ljudsegmenten (audio chunks) med start från 80 millisekunder.

Skalbarhet och hårdvarueffektivitet på H100

Vid körning på hårdvara i form av H100 GPU:er uppvisar Nemotron-Speech ASR betydande skalbarhetsfördelar. Modellen kan hantera upp till tre gånger fler samtidiga strömmar jämfört med traditionella buffrade baslinjer (buffered baselines), vilket gör den effektiv för storskaliga implementeringar.

Tillgänglighet och licensiering

NVIDIA har valt att göra Nemotron-Speech ASR tillgänglig som öppen källkod. Modellen finns publicerad på plattformen Hugging Face. Den tillhandahålls under “NVIDIA Permissive Open Model License”, vilket reglerar hur modellen får användas och distribueras av utvecklare och organisationer.

Källor

Känner du någon som skulle uppskatta detta? Tipsa dem genom att dela artikeln!

Relaterade artiklar

Nytt och Aktuellt