Google Gemini 3 Flash får ‘Agentic Vision’ – en aktiv blick på världen

2026-01-29

81

Google tar nu ett stort kliv framåt inom bildförståelse med introduktionen av “Agentic Vision” för sin modell Gemini 3 Flash. Genom att gå från en passiv betraktelse till en aktiv undersökningsprocess förändras sättet modellen interagerar med visuellt material.

Traditionellt har bildanalys inom AI handlat om statisk bearbetning – modellen tittar på en bild och tolkar den som den är. Med den nya uppdateringen för Gemini 3 Flash förändras spelreglerna. Google introducerar en metodik som förvandlar bildförståelse till en aktiv utredning, styrd av en loop som kallas “Think, Act, Observe” (Tänk, Agera, Observera).

Detta innebär att modellen inte längre bara är en mottagare av information, utan en aktiv deltagare i analysprocessen.

En verktygslåda för visuell slutledning

Kärnan i denna nya förmåga är integrationen av exekvering av Python-kod som ett verktyg. Detta ger Gemini 3 Flash möjligheten att autonomt planera och utföra manipulationer av bilder för att bättre förstå vad den ser. Modellen kan nu på egen hand utföra åtgärder som:

Zoomning: För att se detaljer tydligare.
Beskärning (Cropping): För att isolera specifika områden.
Rotation: För att ändra perspektiv.
Annotering: För att markera och strukturera information direkt i bilden.

Genom att använda dessa verktyg kan modellen grunda sina resonemang i konkreta visuella bevis, snarare än att gissa baserat på en översiktlig blick. Resultatet av denna “Agentic Vision” är påtagligt; tekniken levererar en kvalitetsökning på 5–10 % i vision-baserade prestandatester (benchmarks).

Prestanda och hastighet i fokus

Utöver den visuella intelligensen visar Gemini 3 Flash upp imponerande siffror när det gäller ren prestanda. Modellen opererar nu med en hastighet som är tre gånger snabbare än 2.5 Pro-modellen.

Denna snabbhet kombineras med hög precision. Gemini 3 Flash uppnår ett resultat på 90,4 % på GPQA Diamond och en poäng på 78 % på SWE-bench Verified. För att ge utvecklare och användare mer kontroll över processen har Google även introducerat nya parametrar: “thinking_level” och “media_resolution”. Dessa inställningar gör det möjligt att finjustera hur djupt modellen ska analysera och hur den hanterar bildupplösning.

Sammanfattning

Med introduktionen av Agentic Vision tar Google Gemini 3 Flash steget från att bara se bilder till att aktivt undersöka dem. Genom att kombinera en “Think, Act, Observe”-loop med Python-kod för bildmanipulation, kan modellen zooma, rotera och analysera med en ny nivå av precision. Tillsammans med en tredubblad hastighet jämfört med 2.5 Pro-modellen och starka benchmark-resultat, markerar detta en tydlig utveckling för hur AI hanterar visuell information.

Källor

Google Blog

Föregående artikel

NASA lanserar Athena: En ny era av superkrafter i Silicon Valley

Nästa artikel

BYD lanserar God’s Eye 5.0: En ny era av intelligent körning

Google Gemini 3 Flash får ‘Agentic Vision’ – en aktiv blick på världen

Google tar nu ett stort kliv framåt inom bildförståelse med introduktionen av “Agentic Vision” för sin modell Gemini 3 Flash. Genom att gå från en passiv betraktelse till en aktiv undersökningsprocess förändras sättet modellen interagerar med visuellt material.

En verktygslåda för visuell slutledning

Prestanda och hastighet i fokus

Sammanfattning

Källor

Relaterade artiklar

Google lanserar Gemma 4 under Apache 2.0: Fyra nya modeller med inbyggd multimodalitet

ElevenLabs lanserar ElevenMusic: AI-driven musikgenerering från text

Meta lanserar nya smarta glasögon för receptbelagda linser: Blayzer och Scriber Optics

Nytt och Aktuellt

Google lanserar Gemma 4 under Apache 2.0: Fyra nya modeller med inbyggd multimodalitet

ElevenLabs lanserar ElevenMusic: AI-driven musikgenerering från text

Meta lanserar nya smarta glasögon för receptbelagda linser: Blayzer och Scriber Optics

Google lanserar Gemini-driven realtidsöversättning för iOS – fungerar med alla hörlurar

Kinas genombrott för medicinska alfa-isotoper: Massproduktion vid CSNS