Runway Gen-2 vs. Sora: Hvad er forskellen?

Runway Gen-2 og OpenAI’s Sora er begge AI-modeller, der omdanner tekstbeskrivelser til videoklip. De repræsenterer to forskellige stadier og tilgange inden for generativ video, hvor Gen-2 er et tilgængeligt værktøj for kreative, mens Sora er en teknologidemonstration med endnu ukendt offentlig adgang.

Hvad er Runway Gen-2?

Runway Gen-2 er en kommercielt tilgængelig AI-videogenerator udviklet af virksomheden Runway. Den giver brugere mulighed for at skabe korte videoklip baseret på tekst-prompts, billeder eller eksisterende videoer. Modellen er en del af en større kreativ suite af AI-værktøjer, som Runway tilbyder.

Værktøjet er designet til at være et praktisk redskab for kunstnere, designere og mindre produktionshuse. Det er integreret i en webbaseret platform, hvor brugere kan generere indhold og efterfølgende redigere det med mere traditionelle videoværktøjer. Gen-2 fokuserer på at give brugeren kontrol over resultatet.

Funktioner som “Motion Brush” lader brugeren male på et stillbillede for at angive, hvilke dele af billedet der skal have bevægelse. “Director Mode” giver mere detaljeret kontrol over kameraets bevægelser. Dette gør Gen-2 til et aktivt kreativt værktøj frem for en ren “prompt-til-video” motor.

Modellen er trænet til at producere klip på typisk 4-16 sekunder. Kvaliteten er ofte stiliseret og kan have en let drømmende eller kunstnerisk æstetik, selvom den også kan skabe mere realistiske scener. Den er i dag et af de mest anvendte værktøjer til hurtig produktion af AI-genereret videomateriale til sociale medier, storyboards og konceptvisualiseringer.

Hvad er OpenAI’s Sora?

Sora er en tekst-til-video-model udviklet af OpenAI, skaberne af ChatGPT. Modellen blev annonceret i starten af 2024 gennem en række teknologidemonstrationer, der viste en hidtil uset grad af realisme, detaljerigdom og forståelse for fysiske principper i de genererede videoer.

I modsætning til Gen-2 er Sora ikke offentligt tilgængelig for den brede befolkning. Adgangen er begrænset til et lille hold af “red teamers”, der tester for sikkerhedsrisici, samt udvalgte visuelle kunstnere og filmskabere, der skal give feedback. Sora er derfor mere en demonstration af teknologisk potentiale end et færdigt produkt.

Soras videoer kan være op til 60 sekunder lange og udviser en høj grad af kohærens og logisk konsistens over tid. Modellen demonstrerer en evne til at simulere en simpel “verdensmodel”, hvor objekter interagerer troværdigt med hinanden og deres omgivelser. Mens Sora har sat en ny standard, er konkurrenter som Kling også dukket op med imponerende resultater.

OpenAI har fremhævet, at modellen kan generere komplekse scener med flere karakterer, specifikke bevægelser og detaljerede baggrunde udelukkende baseret på en tekst-prompt. Den kan også animere stillbilleder eller udvide eksisterende videoklip.

Teknologisk fundament og datagrundlag

Den primære forskel mellem de to modeller ligger i deres underliggende arkitektur. Runway Gen-2 er bygget på en diffusion-model, som er en teknologi, der også kendes fra billedgeneratorer som Stable Diffusion og Midjourney. Diffusion-modeller starter med visuel støj og forfiner den gradvist, indtil den matcher den ønskede beskrivelse.

Sora anvender derimod en transformer-arkitektur, som er den samme type model, der driver store sprogmodeller som GPT-4. Sora behandler video som en sekvens af visuelle “patches” (små bidder af billeddata), ligesom en sprogmodel behandler tekst som en sekvens af ord. Dette giver den en bedre evne til at forstå sammenhænge over længere tid og skabe mere logiske og sammenhængende scener.

Datagrundlaget er også en afgørende faktor. Selvom begge virksomheder holder detaljerne hemmelige, antages det, at Sora er trænet på et markant større og mere varieret datasæt af videoer og billeder. Dette større datagrundlag er sandsynligvis årsagen til dens avancerede forståelse af objekter, fysik og filmisk sprog.

Denne teknologiske forskel forklarer, hvorfor Sora kan generere længere og mere komplekse videoer med færre visuelle fejl eller ulogiske elementer sammenlignet med mange nuværende diffusion-baserede videomodeller.

Kvalitet og realisme i output

Når man sammenligner output fra de to modeller, er der tydelige forskelle i den visuelle kvalitet og realisme. Sora har i sine demonstrationer vist en evne til at skabe fotorealistiske videoer, der i mange tilfælde er svære at skelne fra ægte optagelser. Den håndterer komplekse teksturer som pels, vand og lysrefleksioner med stor præcision.

Runway Gen-2 kan også producere videoer af høj kvalitet, men de har oftere en let stiliseret eller digital fornemmelse. Modellen kan have udfordringer med at opretholde konsistens i objekter eller personer over længere klip, og der kan opstå mindre visuelle artefakter. Det er vores erfaring, at resultaterne fra Gen-2 egner sig godt til kreativt og kunstnerisk indhold, hvor 100 % realisme ikke er målet.

Forskellene kan opsummeres i flere punkter:

  • Videolængde: Sora kan generere klip op til 60 sekunder, mens Gen-2 typisk er begrænset til kortere sekvenser (op til 16 sekunder ad gangen).
  • Fysikforståelse: Sora viser en mere avanceret forståelse for, hvordan objekter interagerer. For eksempel vil en bold, der rammer en overflade, kaste en korrekt skygge og deformere realistisk.
  • Detaljegrad: Sora kan gengive ekstremt fine detaljer i både forgrund og baggrund, hvilket bidrager til den fotorealistiske effekt.
  • Konsistens: Sora er bedre til at fastholde en karakters udseende og omgivelsernes layout gennem et helt klip.

For små virksomheder kan valget mellem de to afhænge af, om man har brug for et brugbart værktøj nu eller vil vente på den næste generation af teknologi.

Tilgængelighed og anvendelse i praksis

Den mest markante forskel for brugere i Danmark er tilgængeligheden. Runway Gen-2 er et fuldt lanceret produkt, som enhver kan tilgå via en abonnementsmodel. En dansk marketingafdeling eller en selvstændig kreativ kan oprette en konto i dag og begynde at producere videoindhold med det samme. Prismodellen er baseret på “credits”, hvor hver videogenerering koster et bestemt antal credits.

Sora er, som nævnt, ikke tilgængelig for offentligheden. Der findes ingen venteliste eller annonceret lanceringsdato. OpenAI’s strategi har været at skabe opmærksomhed omkring teknologiens potentiale og samtidig indsamle feedback for at adressere sikkerheds- og misbrugsrisici, før en eventuel bred udrulning.

I praksis ser vi ofte, at virksomheder starter med tilgængelige værktøjer som Gen-2 for at opbygge erfaring med AI-videoproduktion. Det giver dem mulighed for at eksperimentere med, hvordan teknologien kan integreres i deres workflows, uden at skulle vente på fremtidige lanceringer.

For en dansk virksomhed betyder det, at Gen-2 er en konkret løsning på et nuværende behov, mens Sora repræsenterer en fremtidig mulighed, der kan få stor indflydelse på videoproduktion, når den engang bliver tilgængelig.

Kontrol og redigeringsmuligheder

Runway Gen-2 er udviklet med fokus på at give brugeren kreativ kontrol. Platformen tilbyder en række værktøjer, der gør det muligt at styre og finjustere resultatet. Dette inkluderer muligheden for at definere kameraets bevægelse (zoom, panorering, etc.), isolere bevægelse til specifikke områder af et billede og kombinere tekst-prompts med referencebilleder for at styre stilen.

Denne tilgang gør Gen-2 til et interaktivt værktøj, der passer godt ind i en kreativ proces, hvor man gradvist bygger en scene op. Det adskiller sig fra platforme som Synthesia, der fokuserer på at skabe videoer med AI-avatarer ud fra et script. Brugeren er ikke kun afhængig af den indledende prompt, men kan aktivt forme videoen.

Sora ser ud til at basere sig mere på kraften i selve prompten. De offentliggjorte eksempler er resultatet af meget detaljerede og deskriptive prompts, hvor modellen selv fortolker og skaber hele scenen. Det er endnu uvist, hvilke redigerings- og kontrolværktøjer OpenAI vil tilbyde, når Sora eventuelt lanceres.

Foreløbigt fremstår Gen-2 som et værktøj for “hands-on” kreative, der ønsker at justere og dirigere AI’en, mens Sora fungerer mere som en autonom “filmskaber”, der leverer et næsten færdigt produkt baseret på en detaljeret instruktion.

Begrænsninger og etiske overvejelser

Begge teknologier medfører betydelige etiske overvejelser, især i forhold til misinformation og deepfakes. Evnen til at skabe realistiske videoer af begivenheder, der aldrig har fundet sted, udgør en risiko for spredning af falske nyheder og manipuleret indhold.

OpenAI har eksplicit udtalt, at sikkerhed er en af hovedårsagerne til den begrænsede adgang til Sora. De arbejder på metoder til at detektere AI-genereret indhold og vil implementere sikkerhedsforanstaltninger, såsom at afvise prompts, der anmoder om voldeligt, hadefuldt eller pornografisk indhold, samt billeder af kendte personer. Problemstillinger omkring rettigheder og data er centrale, som det også er set i sager om OpenAI’s brug af stemmer, der minder om kendte skuespilleres.

Runway har også indført sikkerhedsfiltre og retningslinjer for brug af deres platform. For virksomheder i Danmark er det relevant, at brugen af sådanne værktøjer vil være underlagt regler i EU’s AI Act, som stiller krav til gennemsigtighed og risikostyring for visse AI-systemer. Dette kan inkludere krav om vandmærkning af AI-genereret indhold.

Begge modeller har desuden tekniske begrænsninger. De kan have svært ved at simulere kompleks fysik præcist, og der kan opstå ulogiske fejl i scenerne. For eksempel kan en person spontant skifte tøj, eller objekter kan smelte sammen på unaturlige måder.

Fremtidsperspektiver for AI-video

Udviklingen inden for AI-video går ekstremt hurtigt, og både Runway Gen-2 og Sora er blot tidlige eksempler på, hvad teknologien vil kunne i fremtiden. Konkurrencen mellem OpenAI, Runway, Google, Meta og nye aktører driver innovationen fremad i et højt tempo.

I de kommende år forventes det, at kvaliteten af AI-genereret video vil stige yderligere, samtidig med at værktøjerne bliver mere tilgængelige og integrerede i eksisterende software som Adobe Premiere Pro og DaVinci Resolve. Dette vil potentielt demokratisere videoproduktion og gøre det muligt for enkeltpersoner og små virksomheder at producere indhold, der tidligere krævede store budgetter og professionelle teams.

For brancher som marketing, underholdning og uddannelse åbner det op for helt nye måder at kommunikere visuelt på. Man vil kunne skabe personaliserede reklamevideoer, hurtigt visualisere filmscener eller generere undervisningsmateriale på få minutter.

Samtidig vil udviklingen stille større krav til lovgivning, etiske retningslinjer og teknologier til at identificere AI-genereret indhold for at imødegå de risici, der følger med. Kampen mellem modeller som Gen-2 og Sora definerer ikke kun den teknologiske fremtid, men også de samfundsmæssige rammer, vi skal navigere i.