Den uppmärksammade uppstarten inom AI-röster, ElevenLabs, har introducerat en ny funktion vid namn “Flows” (플로우). Funktionen är integrerad i företagets plattform “ElevenCreative” och använder ett visuellt, nodbaserat arbetsflöde för att sammanföra flera olika generativa AI-modeller i en och samma pipeline. Genom denna arkitektur skapas en centraliserad miljö där komplex medieproduktion kan orkestreras från grunden.
En enhetlig canvas för multimodal generering
Kärnan i Flows är möjligheten att koppla samman en rad olika genereringsmodeller på en enda canvas. Systemet tillåter användare att sömlöst integrera modeller för bild, video, text-till-tal (TTS), läppsynk (lipsync), musik och ljudeffekter (SFX). Genom att samla dessa funktioner i ett och samma gränssnitt elimineras fragmenteringen som ofta uppstår när flera separata verktyg används, vilket skapar ett sammanhängande ekosystem för skapande av multimodalt innehåll.
Tekniska nyckelfunktioner och logik
Plattformen är uppbyggd kring flera avancerade tekniska funktioner som syftar till att ge exakt kontroll över produktionskedjan. En central del är den integrerade tillgångshanteringen, som gör det möjligt att hantera röstkloner och annan media direkt i systemet. Vidare använder Flows en villkorsbaserad logik (condition-based logic). Denna funktion gör det möjligt att automatiskt tillämpa olika röststilar beroende på manusets specifika kontext, vilket ger en dynamisk och kontextmedveten röstgenerering. För utvecklare som vill bygga vidare på plattformen erbjuds även API-baserad utbyggbarhet.

Återanvändbara produktionsstrukturer
En betydande fördel med det nodbaserade systemet är stödet för återanvändbara produktionsstrukturer. Användare kan enkelt byta ut specifika tillgångar, såsom avatarer eller manus, samtidigt som det etablerade arbetsflödet bibehålls intakt. Dessutom tillåter plattformen modifiering av specifika steg i processen utan att hela pipelinen behöver startas om. Detta innebär att enskilda delar av en produktion kan justeras och genereras på nytt isolerat, vilket effektiviserar iterationer och sparar tid.
Framtidsutsikter och börsnotering
Utöver de tekniska framstegen med Flows och ElevenCreative, pågår även stora strategiska rörelser inom företaget. ElevenLabs rapporteras förbereda sig för nästa stora affärsmässiga steg, med siktet inställt på en börsnotering (IPO). Denna introduktion på aktiemarknaden förväntas äga rum inom de kommande två till tre åren, vilket markerar en ny fas för AI-röstföretaget.

