Microsoft har presenterat Rho-alpha, en ny generativ AI-modell som syftar till att öka robotars anpassningsförmåga och resonemang i verkliga miljöer. Genom att kombinera språkförståelse med fysisk handling och taktil känsel, tar modellen ett nytt grepp om hur maskiner interagerar med sin omgivning.
I takt med att den artificiella intelligensen utvecklas ser vi allt fler exempel på hur mjukvara börjar närma sig den fysiska världen. Microsofts senaste drag i denna utveckling är introduktionen av Rho-alpha. Detta är en så kallad vision-language-action (VLA)-modell, designad specifikt för att överbrygga klyftan mellan digitala instruktioner och fysisk manipulation.
Modellen, som härstammar från den öppna modellserien Phi, har en tydlig uppgift: att översätta naturliga språkkommandon till specifika styrsignaler som robotar kan använda för att utföra arbetsuppgifter.
Från ord till fysisk handling
Kärnan i Rho-alpha ligger i dess förmåga att tolka mänskligt språk och omvandla det till rörelse. Istället för att programmeras med statisk kod för varje rörelse, kan systemet ta emot instruktioner på naturligt språk och räkna ut vilka kontrollsignaler som krävs för att utföra uppgiften.
För att uppnå detta har Microsoft använt en träningsarkitektur som blandar det bästa av två världar. Modellen har tränats genom en kombination av fysiska demonstrationer och simuleringar. Dessa simuleringar bearbetas genom ett ramverk för flerstegs-förstärkningsinlärning (reinforcement learning), byggt på plattformen Nvidia Isaac Sim.
Känseln i fokus
En av de mest intressanta tekniska framstegen med Rho-alpha är integrationen av taktil känsel. Traditionellt har många robotsystem förlitat sig nästan uteslutande på visuell data – alltså vad kameror och sensorer kan “se”.
Rho-alpha ändrar på detta genom att låta robotar svara på sin omgivning via beröring. Detta innebär att roboten inte bara tittar på objektet den ska hantera, utan faktiskt kan använda känselintryck för att navigera och manipulera objektet mer effektivt. Detta minskar beroendet av att enbart använda synen för att förstå omvärlden.
Validering och framtidsutsikter
För att säkerställa att tekniken fungerar i praktiken har systemet validerats med hjälp av “BusyBox”. Detta är ett benchmark för fysisk interaktion som har utvecklats av Microsoft Research, vilket ger ett mått på hur väl modellen presterar i testmiljöer.
Microsoft ser Rho-alpha som ett steg på vägen och har redan planer för framtida iterationer. Avsikten är att utöka modellens kapacitet ytterligare genom att addera kraftavkänning (force sensing) och andra modaliteter. Detta skulle kunna ge robotar en ännu finare motorik och förståelse för hur mycket kraft som krävs i olika moment, vilket ytterligare skulle stärka deras förmåga att verka i den fysiska verkligheten.

