Alibaba Cloud har offentliggjort lanseringen av Qwen3.5 Small Model Series, en ny serie språkmodeller som sträcker sig från 0,8 miljarder till 9 miljarder parametrar. Lanseringen markerar ett tekniskt skifte där mindre modeller uppvisar prestanda som konkurrerar med betydligt större system, särskilt i jämförelse med OpenAI:s öppna alternativ.
Den nya serien från Alibaba Cloud introducerar modeller i storleksordningen 0,8B till 9B parametrar. Det mest framträdande i denna lansering är flaggskeppsmodellen på 9 miljarder parametrar (9B). Enligt uppgifter överträffar denna modell OpenAI:s öppna modell gpt-oss-120B, som har 120 miljarder parametrar, i specifika prestandatester rörande resonemang och kodning. Detta resultat uppnås trots att Qwen3.5-9B är betydligt mindre till sin struktur.
Tekniska specifikationer och hårdvarukrav
En central aspekt av Qwen3.5-serien är dess anpassning för lokal exekvering och minskade hårdvarukrav. För modellen Qwen3.5-9B ligger minneskravet på 20 till 24 GB RAM när den körs i formatet FP16. Genom kvantisering till INT8 eller INT4 kan detta krav reduceras avsevärt till mellan 6 och 12 GB. Denna tekniska specifikation möjliggör exekvering på standardlaptops, vilket ökar tillgängligheten för användare utan tillgång till tung serverinfrastruktur.
Utöver standardmodellerna inkluderar serien även en så kallad Mixture-of-Experts (MoE) modell, betecknad 397B-A17B. Denna arkitektur aktiverar endast 17 miljarder parametrar under inferensprocessen. Resultatet av denna selektiva aktivering är en avkodningshastighet som är 3,5 till 19 gånger snabbare än tidigare generationer. Samtidigt rapporteras en minskning av de operativa kostnaderna med 60 procent.
Jämförelse med OpenAI:s gpt-oss
Lanseringen av Qwen3.5 ställs i direkt kontrast till OpenAI:s gpt-oss-serie, som släpptes i augusti 2025 under licensen Apache 2.0. Skillnaderna i resurskrav är markanta. OpenAI:s variant på 120 miljarder parametrar (120B) kräver 80 GB VRAM för att drivas. Även den mindre varianten i gpt-oss-serien, på 20 miljarder parametrar, kräver 16 GB VRAM.
Alibaba Clouds nya modeller positionerar sig därmed som ett resurseffektivt alternativ, där Qwen3.5-9B erbjuder konkurrenskraftig prestanda i resonemang och kodning med en bråkdel av de minneskrav som ställs av motsvarande modeller i gpt-oss-serien. Genom att erbjuda möjligheten att köra avancerade modeller lokalt via INT4-kvantisering, adresserar Alibaba Cloud behovet av hög prestanda på begränsad hårdvara.

