-11.1 C
Stockholm
Thursday, February 19, 2026

Robbyant lanserar LingBot-World: Nästa steg för interaktiva AI-världar

Gränsen mellan textgenerering och virtuell verklighet suddas ut ytterligare. Robbyant, enheten för “embodied AI” inom Ant Group, har nu presenterat LingBot-World. Det är en storskalig så kallad “world model” designad för att revolutionera hur vi ser på simuleringar inom allt från robotik och självkörande fordon till spelutveckling.

Vi har sett text-till-video tidigare, men LingBot-World tar konceptet ett steg längre genom att introducera “text-till-värld”-simuleringar. Genom att kombinera textinstruktioner med direkta kontrollinputs kan modellen generera högupplösta videosekvenser som reagerar på användarens handlingar i realtid.

Under huven: En massiv arkitektur

Hjärtat i systemet är en imponerande 28 miljarder parametrar stor “Mixture of Experts” (MoE) Diffusion Transformer. Denna arkitektur är initialiserad från Wan2.2 och drar nytta av två experter på 14 miljarder parametrar vardera.

För att göra modellen interaktiv använder systemet speciella “action adapters” och kamerainbäddningar (camera embeddings). Detta tekniska ramverk gör det möjligt för modellen att tolka rörelser från tangentbord och kameror för att driva utvecklingen av miljön framåt. Det handlar inte bara om att skapa en video, utan om att skapa en responsiv värld.

Från tangentbord till virtuell verklighet

En av de mest spännande aspekterna med LingBot-World är hur den tränats. Robbyant har använt en enhetlig datamotor som kombinerar en blandning av källor:

  • Videor från webben.
  • Spelloggar som registrerar klassiska W, A, S, D-kontroller.
  • Syntetiska banor skapade i Unreal Engine.

Resultatet är ett system som stöder autoregressiva “rollouts” i upp till 10 minuter samtidigt som den strukturella stabiliteten i videon bibehålls. Detta innebär att simuleringen inte faller sönder eller blir incoherent över tid, vilket ofta är en utmaning inom generativ video.

Snabbhet möter kvalitet

För de tillfällen då hastighet är avgörande har teamet även tagit fram en destillerad variant kallad LingBot-World-Fast. Denna version är optimerad för prestanda och uppnår cirka 16 bildrutor per sekund (FPS) vid 480p-upplösning på en enda GPU-nod.

Med en latens på under en sekund möjliggörs detta genom tekniker som “block causal attention” och “diffusion forcing”, vilket gör modellen lämplig för scenarier som kräver snabba reaktioner.

Prestanda i toppklass

När det gäller ren kvalitet visar utvärderingar i VBench att LingBot-World inte bara hänger med konkurrenterna, utan springer ifrån dem. Modellen överträffade både Yume-1.5 och HY-World-1.5 när det gällde bildkvalitet, estetisk kvalitet och dynamisk grad vid långvariga genereringar.

Med LingBot-World visar Robbyant att framtiden för simuleringar är här, där statisk text och enkla kommandon kan veckla ut sig till komplexa, levande världar.

Källor

Känner du någon som skulle uppskatta detta? Tipsa dem genom att dela artikeln!

Relaterade artiklar

Nytt och Aktuellt