Tänk dig en robot som inte styrs av rigida rader kod, utan som lär sig att uttrycka sig på samma sätt som ett barn – genom nyfiken observation. Vid Columbia University har framtiden just öppnat ögonen, och den tittar sig själv i spegeln.
Ingenjörerna vid Columbia Universitys Creative Machines Lab har tagit ett betydande kliv bort från traditionell robotprogrammering. De har utvecklat ett robotansikte som, istället för att förlita sig på förprogrammerade regler, lär sig tal och läpprörelser genom ren observation. Det här är inte bara en maskin som rör på munnen; det är ett system som försöker förstå kopplingen mellan vad det ser och vad det gör.
Från spegelbild till YouTube
Processen för hur denna robot lär sig är fascinerande lik mänsklig utveckling. Innan den kunde börja härma andra, var den tvungen att förstå sin egen fysik. Roboten, som är utrustad med 26 ansiktsmotorer, fick inledningsvis i uppgift att “leka” med sitt eget ansikte framför en spegel. Genom denna själviakttagelse lärde den sig hur de olika motorerna påverkade dess utseende och rörelser.
När den väl bemästrat kontrollen över sitt eget ansikte via denna spegelreflektion, gick ingenjörerna vidare till nästa steg. Roboten fick titta på timmar av YouTube-videor. Genom att använda en så kallad “vision-to-action”-modell kunde roboten studera mänskliga uttryck i videoklippen och sedan använda sin nyvunna motorik för att mimera dessa rörelser.
En röst i flera språk
Resultatet är en robot som inte bara rör sig, utan som också kan kommunicera. Den har kapacitet att tala på flera olika språk, vilket visar på flexibiliteten i inlärningsmodellen. Men det stannar inte vid tal.
Roboten har även visat sig vara musikalisk. Den kan sjunga och framför bland annat spår från ett AI-genererat album med titeln ‘hello world_’. Detta markerar en intressant fusion där AI-genererat innehåll framförs av en AI-tränad fysisk form, vilket skapar en helt sluten cirkel av artificiell kreativitet.
Utmaningar med uttalet
Trots de imponerande framstegen är tekniken ännu inte helt perfekt. Precis som en människa som lär sig ett nytt språk, har roboten vissa svårigheter med uttalet. Källmaterialet avslöjar att den för närvarande kämpar med specifika fonem, särskilt ljuden för ‘B’ och ‘W’. Dessa ljud kräver ofta komplexa läpprörelser som kan vara svåra att replikera exakt med mekaniska motorer, även för en maskin som tränats via YouTube.
Detta projekt från Creative Machines Lab visar dock tydligt att framtidens robotar kanske inte kommer att programmeras i traditionell mening, utan snarare uppfostras genom observation och interaktion med världen omkring dem.

