Microsoft utmanar marknaden med tre nya AI-modeller: Fokus på extrem snabbhet

Microsoft fortsätter sin aggressiva expansion inom generativ AI genom att lansera tre nya modeller under ”MAI”-paraplyet. De nya modellerna – MAI-Transcribe-1, MAI-Voice-1 och MAI-Image-2 – är inte bara kraftfullare än sina föregångare, utan markerar också ett skifte mot betydligt högre hastigheter och lägre priser för företag och utvecklare.

Lanseringen visar att Microsoft inte längre nöjer sig med att enbart förlita sig på sitt partnerskap med OpenAI. Med de egna MAI-modellerna siktar mjukvarujätten direkt på att erbjuda alternativ som är optimerade för specifika uppgifter där latens och kostnad är avgörande faktorer.

Genombrott för transkribering och röst

Den kanske mest imponerande nyheten är MAI-Transcribe-1. Modellen har stöd för 25 språk och uppvisar en felmarginal på endast 3,9 procent. Det som sticker ut mest är dock prestandan: den arbetar 2,5 gånger snabbare än Azure Fast och slår etablerade konkurrenter som Gemini 3.1 Flash och GPT-Transcribe i oberoende benchmarks. Med en prislapp på 0,36 dollar per timme positionerar den sig som ett mycket attraktivt alternativ för storskalig text-till-tal-analys.

Parallellt med detta lanserades MAI-Voice-1, en modell designad för röstsyntes. Modellen kan generera en minuts högkvalitativt ljud på bara en sekund. Prissättningen har satts till 22 dollar per miljon tecken, vilket gör den konkurrenskraftig för tjänster som kräver omedelbar röstrespons, såsom kundtjänstbottar eller realtidsöversättning.

Bildgenerering i toppskiktet

För den visuella sidan introducerar Microsoft MAI-Image-2. Modellen har redan lyckats placera sig bland de tre främsta på Arena.ai:s rankning för bilduppgifter. Den uppges vara dubbelt så snabb som sin föregångare och kostar 33 dollar per miljon bildtokens. Snabbheten och precisionen gör den särskilt lämpad för integrering i arbetsflöden där användare förväntar sig omedelbara resultat.

Viktiga höjdpunkter från lanseringen:
  • MAI-Transcribe-1: 2,5x snabbare än Azure Fast, stöder 25 språk.
  • MAI-Voice-1: Genererar en minuts ljud på en sekund.
  • MAI-Image-2: Rankad i topp tre på Arena.ai, dubbelt så snabb som tidigare version.
  • Tillgänglighet: Modellerna finns nu i Microsoft Foundry (tidigare Azure AI Studio) och MAI Playground.

Framtiden för Copilot och PowerPoint

Microsoft planerar inte att stanna vid att erbjuda modellerna via molntjänster för utvecklare. Planen är att integrera dessa nya verktyg direkt i konsumentprodukter som Copilot, Bing och PowerPoint. Detta kan innebära att vi snart får se funktioner där PowerPoint automatiskt skapar unika bilder eller transkriberar presentationer i realtid med högre precision än någonsin tidigare.

Genom att sänka trösklarna för både pris och prestanda sätter Microsoft press på konkurrenter som Google och OpenAI. Frågan är nu hur snabbt marknaden kommer att ställa om till dessa nya, mer effektiva alternativ i Microsofts ekosystem.

Källor

medium

Känner du någon som skulle uppskatta detta? Tipsa dem genom att dela artikeln!

Relaterade artiklar

Nytt och Aktuellt