ByteDance har lanserat den grundläggande AI-modellen Doubao 2.0 (Doubao-Seed-2.0-serien). Modellen är specifikt utformad för den så kallade “agent-eran” och syftar till att utföra komplexa uppgifter i den verkliga världen samt hantera heltäckande arbetsflöden för agenter (end-to-end agentic workflows).
Den nya lanseringen introducerar tekniska specifikationer för en pro-version som inkluderar kapacitet för komplext resonemang och utförande av uppgifter i flera steg. Enligt uppgifterna matchar denna prestanda OpenAI:s GPT 5.2 och Googles Gemini 3 Pro. Samtidigt uppges att modellen tydligen utvecklats till en bråkdel av kostnaden.
Arkitektur och optimering
Doubao 2.0 bygger på en arkitektur som är optimerad för storskaliga produktionsmiljöer. Modellen utmärker sig genom utökad kunskap inom “long-tail”-domäner, vilket innebär en bredare täckning av nischad information. Vidare har förmågan att följa instruktioner stärks, vilket resulterar i ökad kontrollerbarhet vid användning.
Multimodala förbättringar och videoanalys
Modellen inkluderar flera multimodala förbättringar. Dessa omfattar visuellt resonemang, rumslig medvetenhet (spatial awareness) samt förståelse för långa sammanhang (long-context comprehension).
En central funktion är perceptionen för tidsserier och rörelse, vilket möjliggör analys av videoströmmar i realtid. Denna tekniska kapacitet stöder specifika applikationer såsom fitness-coaching och omsorgsarbete (caregiving), där systemet kan tolka och reagera på rörliga bilder.
Tillgänglighet
För användare som vill få tillgång till den nya tekniken är modellen tillgänglig via ett “Expert Mode”. Detta läge återfinns både i Doubao-appen och via webbgränssnittet.

