Google DeepMind lanserar Gemma 4 12B – en enhetlig multimodal modell för din bärbara dator
Google DeepMind har officiellt presenterat Gemma 4 12B, en ny medelstor och enhetlig multimodal modell. Modellen är särskilt framtagen för att erbjuda avancerad agent-intelligens direkt på konsumenthårdvara, såsom bärbara datorer, utan behov av molnbaserad beräkningskraft.
Gemma 4 12B intar en strategisk position i produktfamiljen, placerad mellan den edge-fokuserade E4B och den mer kraftfulla 26B Mixture of Experts-modellen (MoE). Bakom lanseringen står Olivier Lacombe, Director of Product Management, och Gus Martins, Product Manager vid Google DeepMind.
Arkitektonisk innovation utan separata kodare
Den mest framstående nyheten i Gemma 4 12B är dess helt enhetliga ryggrad (backbone). Till skillnad från traditionella modeller där vision och ljud bearbetas i separata kodare (encoders) innan de når språkmodellen, flödar indata i Gemma 4 12B direkt in i den stora språkmodellen (LLM).
För att åstadkomma detta har Google implementerat flera arkitektoniska genombrott:
- Vision: Den traditionella vision-kodaren har ersatts av en lättviktig inbäddningsmodul som använder en enskild matris-multiplikation, positionsinbäddning och normaliseringar.
- Audio: Modellen är den första i serien med nativt ljudstöd. Kodaren har tagits bort till förmån för en metod som projicerar råa ljudsignaler direkt i samma dimensionella utrymme som text-tokens.
Prestanda i paritet med större modeller
Tack vare den effektiva arkitekturen når Gemma 4 12B prestandanivåer som närmar sig den betydligt större 26B MoE-modellen. Detta uppnås trots att modellen har mindre än hälften så stort minnesavtryck. Den låga resursförbrukningen gör det möjligt att köra modellen lokalt på maskiner med så lite som 16 GB VRAM eller enhetligt minne.
För att minimera latens och snabba upp interaktioner är modellen dessutom utrustad med så kallade Multi-Token Prediction (MTP) drafters.
Öppen källkod och ekosystem
Gemma 4 12B släpps under den generösa licensen Apache 2.0, vilket främjar bred användning och vidareutveckling. I samband med lanseringen introducerar Google även ett officiellt "Skills Repository" (google-gemma/gemma-skills) för att stödja utvecklingen av autonoma agenter.
Modellen stöds redan av ett brett urval av verktyg och plattformar för både lokal slutledning (inference) och finjustering:
- Lokala verktyg: LM Studio, Ollama, llama.cpp, MLX, och Google AI Edge Gallery.
- Utvecklingsplattformar: Hugging Face (Transformers), Kaggle, Unsloth, SGLang och vLLM.
- Mobil och Edge: LiteRT-LM CLI och appen Google AI Edge Eloquent.
- Produktionsmiljöer: Google Cloud (Gemini Enterprise Agent Platform Model Garden, Cloud Run och GKE).
Gemma-familjen fortsätter att växa i popularitet och har nu passerat totalt 150 miljoner nedladdningar.

