Microsoft lanserar Phi-4-Reasoning-Vision-15B: En multimodal modell för visuellt resonemang

Microsoft har tillkännagivit lanseringen av Phi-4-Reasoning-Vision-15B, en multimodal “Small Language Model” (SLM) med öppna vikter och 15 miljarder parametrar. Modellen, som nu finns tillgänglig via Microsoft Foundry och Hugging Face, markerar ett framsteg inom integrationen av visuell perception och logiskt resonemang.

Den nya modellen utmärker sig genom att sammanföra högupplöst visuell perception med ett selektivt och uppgiftsmedvetet resonemang. Denna tekniska synergi gör det möjligt för systemet att utföra visuellt resonemang i flera steg, vilket öppnar för avancerade tillämpningar inom en rad olika områden.

Hybridarkitektur och växlingsbara tankelägen

En av de centrala tekniska egenskaperna hos Phi-4-Reasoning-Vision-15B är dess hybrida resonemangsarkitektur. Systemet är utrustat med tre växlingsbara tankelägen som kan anpassas efter uppgiftens karaktär. Bland dessa återfinns läget “NoThink”, som är specifikt utformat för uppgifter som kräver låg latens, såsom optisk teckenläsning (OCR).

Genom att använda en blandning av resonerande och icke-resonerande data har utvecklarna strävat efter att balansera perceptionsnoggrannhet med beräkningseffektivitet.

Tillämpningar inom vetenskap och gränssnitt

Modellens förmåga att hantera visuellt resonemang i flera steg gör den lämpad för komplexa applikationer. Detta inkluderar vetenskapliga arbetsflöden och dokumentanalys. Vidare är modellen kapabel att tolka användargränssnitt (UI-skärmar) och diagram, vilket är kritiskt för så kallade “Computer-Using Agents” (CUA).

Prestandan är särskilt specialiserad inom visuell matematik och vetenskaplig förankring (“scientific grounding”), där modellen kan bearbeta och förstå visuellt presenterad information med hög precision.

Utveckling och tillgänglighet

Utvecklingen av Phi-4-Reasoning-Vision-15B har skett i enlighet med Microsofts principer för ansvarsfull AI (“Responsible AI Principles”). Modellen är en öppen 15-miljardersparametersmodell (open-weight) och har gjorts tillgänglig för utvecklare och forskare via plattformarna Microsoft Foundry och Hugging Face. Lanseringen understryker en fortsatt satsning på att kombinera effektivitet hos mindre språkmodeller med avancerad multimodal kapacitet.

Källor

Känner du någon som skulle uppskatta detta? Tipsa dem genom att dela artikeln!

Relaterade artiklar

Nytt och Aktuellt