Googles nya DiffusionGemma: Revolutionerande hastighet med diffusionsteknik

Google DeepMind har presenterat DiffusionGemma, en ny experimentell medlem i Gemma 4-familjen av öppna modeller. Modellen markerar ett betydande teknikskifte genom att använda en diffusionsbaserad metod för textgenerering, snarare än den traditionella autoregressiva ansatsen.

Parallell generering istället för ett ord i taget

Till skillnad från typiska språkmodeller som genererar text linjärt – ett token i taget – arbetar DiffusionGemma parallellt. Modellen börjar med ett fält av platshållar-tokens och ”avbrusar” (denoises) textytan för att producera stora textblock simultant. DiffusionGemma kan generera upp till 256 tokens parallellt, vilket flyttar flaskhalsen i prestanda från minnesbandbredd till ren beräkningskraft.

Tekniska specifikationer och extrem prestanda

Modellen bygger på en Mixture of Experts-arkitektur (MoE) med totalt 26 miljarder parametrar. Vid körning aktiveras dock endast 3,8 miljarder parametrar, vilket gör att den får plats i de 18 GB RAM som finns på avancerade konsument-grafikkort.

Prestandatester visar på imponerande resultat:

  • Nvidia RTX 5090: Uppnår cirka 700 tokens per sekund.
  • Nvidia H100: Når över 1 000 tokens per sekund.

Detta innebär en fyrfaldig hastighetsökning jämfört med liknande autoregressiva Gemma-modeller.

Idealiska användningsområden

Tack vare sitt icke-linjära arbetssätt är DiffusionGemma särskilt effektiv för specifika uppgifter som kräver mer än bara löpande text, såsom:

  • Direktredigering av text (in-line editing).
  • Molekylär sekvensering.
  • Matematisk grafritning.
  • Lösning av Sudoku-pussel.

Utmaningar och tillgänglighet

Trots hastighetsfördelarna finns det vissa nackdelar med diffusionsmodeller för språk. De kan ha högre felmarginaler i diskreta språkuppgifter och kan vara ineffektiva vid generering av mycket korta texter. De erbjuder dock betydande effektivitet för lokal bearbetning jämfört med molnbaserade system.

Google har släppt modellvikterna på Hugging Face under en Apache 2.0-licens. Modellen är optimerad för både kvantiserade RTX-grafikkort och företagsplattformar som DGX Spark.

Källor

Ars Technica

Känner du någon som skulle uppskatta detta? Tipsa dem genom att dela artikeln!

Relaterade artiklar

Nytt och Aktuellt

Googles nya DiffusionGemma: Revolutionerande hastighet med diffusionsteknik

Känner du någon som skulle uppskatta detta? Tipsa dem genom att dela artikeln!

Relaterade artiklar

Nytt och Aktuellt

Googles nya DiffusionGemma: Revolutionerande hastighet med diffusionsteknik

Känner du någon som skulle uppskatta detta? Tipsa dem genom att dela artikeln!

Related Articles

Latest Articles