NVIDIA har offentliggjort lanseringen av Nemotron-Speech ASR, en ny modell för automatisk taligenkänning (ASR) med öppen källkod. Modellen är specifikt utvecklad från grunden för att hantera användningsområden som kräver låg latens, såsom röstassistenter och direkttextning i realtid.
En modell för realtidstillämpningar
Nemotron-Speech ASR är en engelskspråkig transkriberingsmodell som består av 600 miljoner (600M) parametrar. Den primära designfilosofin bakom modellen är att möjliggöra användning i miljöer där snabb respons är kritisk. Enligt källmaterialet är den optimerad för “low-latency use cases” som röststyrda agenter (voice agents) och live-textning.
Teknisk arkitektur: FastConformer och RNNT
Modellens prestanda vilar på en specifik teknisk arkitektur. Den utnyttjar en så kallad “cache-aware FastConformer encoder” tillsammans med en “RNNT decoder”. Denna struktur är en central del i hur modellen kan leverera snabb bearbetning av tal till text utan att kompromissa med effektiviteten.
Prestanda och precision i transkribering
När det gäller modellens träffsäkerhet och hastighet presenteras följande data:
- Latens: Modellen erbjuder en latens på under 100 millisekunder (sub-100 ms).
- Precision: Modellen uppvisar en felmarginal för ord, känd som Word Error Rate (WER), på mellan 7,2 % och 7,8 %.
- Konfigurerbarhet: Användare kan konfigurera storleken på ljudsegmenten (audio chunks) med start från 80 millisekunder.
Skalbarhet och hårdvarueffektivitet på H100
Vid körning på hårdvara i form av H100 GPU:er uppvisar Nemotron-Speech ASR betydande skalbarhetsfördelar. Modellen kan hantera upp till tre gånger fler samtidiga strömmar jämfört med traditionella buffrade baslinjer (buffered baselines), vilket gör den effektiv för storskaliga implementeringar.
Tillgänglighet och licensiering
NVIDIA har valt att göra Nemotron-Speech ASR tillgänglig som öppen källkod. Modellen finns publicerad på plattformen Hugging Face. Den tillhandahålls under “NVIDIA Permissive Open Model License”, vilket reglerar hur modellen får användas och distribueras av utvecklare och organisationer.

