AI / KI Film und Video Apps

Die Recherche zu AI Anwendungen für Film und Video geht wie angekündigt weiter und es gibt ein erstes großes Update und das mit einigen WOW-Momenten, zu denen ich nach einem kurzen Überblick komme.

Der Bereich AI umfasst nun vier Rubriken, wobei der Bereich Generative Video wesentlich ergänzt wurde und die Rubriken Avatar Video und AI Video Apps neu hinzugekommen sind. Letztere umfasst typische Tools, wie sie bei Film z.B. für Untertitel oder Effekte etc. gebraucht werden. Einfach mal drüberschauen, es gibt auch Studioanwendungen fürs Live-Streaming.

Damit zu den WOW-Momenten und ich muss sagen, ich war teils ernsthaft überrascht. Klar ist, dass sich die Möglichkeit Clips zu generieren weiter entwickeln wird. Zu erwarten waren also Tools, die Funktionen zur reinen Erstellung von Clips um Funktionen für die Erstellung von Filmen wie das Editing erweitern. Zudem habe ich meinerseits die These aufgestellt, dass es in einigen Jahren eine Software oder vielleicht sogar ein Gerät geben wird, welches nach eigener Vorgabe Filme nach Wunsch erstellt. Das ich eine solche Funktion nun als erstes unter den Avatar Video Generatoren finde, hatte ich nicht erwartet. Nun muss ich das ganze relativieren und anmerken das ich Low Budget unterwegs bin und möglicherweise keine Einblick in Highend Services habe. Aber nachdem ich mich bei rund 20 Services angemeldet habe und der betreffende Service als beta markiert war, kann ich den Service wohl als State of the Art bezeichnen. Offenbar gehen einige Service eigene Wege und entwickeln spezielle Funktionen und wie so oft könnten Services fusionieren und dann plötzlich sehr komfortable Services entstehen, wie die postulierte Software oder Box. Schön auch der Gedanke, es könnten dann Communities entstehen, die eigene Charaktere entwickeln und handeln.

Aber zu den Services: Es sind besonders die Interfaces, die bei einigen der Generative Video Services aufgefallen sind. So fängt bei HechicerAI alles mit einem Button „Create Film“ an woraufhin eine Art Timeline erstellt werden kann. Hedra hat ebenfalls einen filmischen Ansatz, wobei der Start eines Projektes mit einem drehbuchartigen Ansatz beginnt. Nochmal anders werden Projekte mit der Dream Machine von Luma AI angegangen, wobei hier mit einem Konzept in Form eines Boards zu starten ist.

Last but not least das Highlight: HeyGen. Da bin ich gespannt, in welche Richtung das geht. Gestartet ist HeyGen als Generative Avatar Video Service für den typischen Einsatz vom Promotion Videos, Product Placement oder auch für Erklärvideos. HeyGen war auch einer der ersten Services, die ich selbst genutzt hatte als ich vor ca. 2 Jahren das erste Mal die Möglichkeiten von AI für Film recherchiert habe. Nun beinhaltet HeyGen die Funktion „Video Agent“ (beta). Mittels Text to Video kann ein kompletter Film mit mehreren Szenen beschrieben werden. Wird dann der Button zum Start getätigt, setzt sich einiges in Bewegung. Ich habe es nicht gezählt, aber um 20 Agenten machen sich auf den Weg die beschriebenen Bestandteile des gewünschten Filmes zu sammeln, inklusive Kulisse, Audio und Sound, um dann am Ende die Bestandteile zu eine Film zu montieren. Und, die Dauer kann bis zu drei Minuten betragen.

Hier mein Film und sicher geht mehr, denn es war der erste und einzige Versuch. Der eingegebene Text war wie folgt: „A couple is in holidays. They missed each other at their meeting point, searched for each other in the city, and found each other at the market square. Show each person in separate scenes until they will meet at the end.“

AI/KI Film und Video Services

Hast du KI Services schon genutzt, wie rund 80% der deutschen oder auch internationalen Internet Nutzer? Bei dem Grad der Penetration geht es kaum mehr anders, schon aufgrund der neu gestalteten Ergebnisseiten der Google Suche. Hier sind die Ergebnisse auch zutreffend und sollten doch mal Unsicherheiten auftreten, dann, so die eigene Erfahrung, gibt es kein KI-Ergebnis bei der Google Suche. Ansonsten können die Ergebnisse bei der gezielten Nutzung von KI Chats allgemein bereichernd oder aber auch ernüchternd sein. Das ist keine negative Kritik, die Sache sollte einfach objektiv betrachtet werden. Es gibt auch einen Fachbegriff für falsche Ergebnisse, Halluzination (der künstlichen Intelligenz).

Und wie verhält es sich nun mit AI/KI im Bereich von Film und Video? Dies ist der Auftakt zu einer Artikelserie über KI-Services im Bereich Film und Video. Der erste Artikel ist den AI/KI Video Generatoren gewidmet, die sich nunmehr zum Teil auch als Film Generatoren bezeichnen. Schlagwort dazu ist Reference to Video, was den für Filme notwendigen Kontext zwischen Szenen ermöglicht.

Hierzu habe ich eine aktuelle Recherche durchgeführt und mir eine Reihe von Services angesehen, die auf unterschiedlicher Grundlage Videos generieren (Für alle, die nur Tools suchen, eine kommentierte Übersicht gibt es unter AI/KI Video und Film Generatoren.). Und tatsächlich beschreiben sich einige Services mittlerweile nicht mehr nur als Video Generation sondern auch als Film Generation Services. Wo ist der Unterschied? Filminhalte haben zumeist einen Kontext, was bei kurzen Videoclips nicht unbedingt notwendig ist. Generierte Videoclips können auch für sich alleine stehen und Emotion oder Witz enthalten. Sogar die Halluzination einer KI kann amüsant sein. Mittlerweile ist es aber soweit, Video Generation Services können auch Kontext haben und gezielt Inhalte generieren, die im größeren Kontext eines Filmes integriert werden können und dies auch in der erforderlichen Qualität.

Als ich vor rund anderthalb Jahren das erste Mal Tools zur Erstellung von Filmen recherchiert hatte, war dies noch nicht möglich. Die Recherchen führten aber zu meinem ersten komplett mit AI/KI erstellten Kurzfilm. Ziel der Recherche war es zu ergründen, wie KI für einen Film genutzt werden kann. Für Dialoge hatte ich mit einem Chatbot experimentiert und es ergab sich zufällig, dass ich bemerkte das sich der Chatbot an ein voriges Gespräch erinnerte. Diese Erkenntnis ist die Essenz des Videos. Umgesetzt wurde der Kurzfilm dann mit Sprachsynthese und die gewonnenen Audiofiles waren dann Grundlage für die Animation mittels AI Avatar Software. Nachstehend das Video.

Hier klicken, um den Inhalt von YouTube anzuzeigen.
Erfahre mehr in der Datenschutzerklärung von YouTube.


Es schien naheliegend, zumindest für mich als Anwender, zu vermuten das sich AI Software dahingehend entwickelt Inhalte zu merken und das irgendwann ein Punkt erreicht wird, ab dem Filme auf der Grundlage von Texteingaben generiert werden können. Vielleicht kommt es auch dazu, momentan scheint dies noch wesentlich zu komplex. Damals allerdings hatte wohl ChatGPT bereits damit angefangen Prompts zur Erhaltung von Kontext zu nutzen. Letzteres, die Nutzung von Prompts für Kontexte, ist nun dato zum State of the Art der Generierung von filmischen Inhalten geworden.

Kürzlich erst hat Midjourney, ein Pionier der Generierung von Bildern, in einer E-Mail mitgeteilt nun auch Video Generation Services anzubieten und dies gleich in fortgeschrittener Form. Mittels selbst zu erstellenden Prompts können Inhalte wie Personen oder Hintergründe etc. definiert werden und dann in entsprechenden Kontext gebracht werden. Es können also z.B. Person A und Person B unabhängig voneinander vor demselben Hintergrund erscheinen oder eine bestimmte Person vor unterschiedlichen Hintergründen. Die Machbarkeit ist der State of the Art, die Methoden können variieren. Die fachliche Bezeichnung für diese Methode ist Reference to Video. Es wird also nicht nur eine Vorlage zum Clip (Text to Video, Image to Video) sondern es werden Bilder oder sonstige Medien als Referenzen definiert, welche dann an unterschiedlichen Stellen verwendet werden. AI Video Anbieter in diesem Bereich sind Google Deepmind mit Veo bzw. insbesondere Flow, Hailuo AI, Midjourney, Pixverse, Sora von OpenAI, Vidu und der AI Video Pionier Runway (eine weitergehende Beschreibung der einzelnen Features der Services gibt es im Verzeichnis unter AI/KI Video und Film Generatoren).

Nochmals hervorzuheben sind die Feature von Runway. Bei Runway können auch Skizzen oder Storyboards zur Generierung von Filminhalten verwendet werden. Das ist im Bereich Film natürlich immens nützlich, stehen diese zumeist ohnehin zur Verfügung. Dazu möchte ich an dieser Stelle aber anmerken, dass nicht alle Services vollumfänglich sondern sofern überhaupt möglich nur mehr oder weniger sporadisch getestet wurden. Das aber im übrigen immer mit einem realen Ergebnis. So kann an dieser Stelle nicht gesagt werden ob Image to Video denselben Effekt haben kann, wie die Nutzung von Storyboards bei Runway. Vermutlich eher nicht oder nur ähnlich, wobei die Übergänge fliessend sind, wie die Showcases nahelegen.

Weitere neuere Features sind das automatische Anfügen von Sprache, wozu ich im oben eingebetteten Video noch mehrere Services nutzen musste. Auch das Anfügen von Soundeffekten ist eine neuere Funktion. Das nachstehende Video gibt ein Beispiel für das automatische Anfügen von Sprache. Dieses wurde mittels Image to Video mit Pixverse erstellt (Das Startbild entspricht dem originalen Bild.), die Sprachsynthese erfolgte automatisch basierend auf einen eingegebenen Text. Es war der erste und einzige Versuch. Ein Abgleich der Farben zwischen der gehobenen Hand und der Grafik hätte mit einer besseren Beschreibung vermutlich korrigiert werden können, worauf aber mangels Zeit verzichtet wurde. (Avatar für das eprima – Verzeichnis für Online Unterhaltung.)


Letztlich noch ein Beispiel eines schnell erstellten Videos mit aber durchaus beeindruckenden Ergebnissen für Image to Video mit Vidu. Auch hier war die Zeit knapp und es blieb beim ersten Versuch und so hat das Video einige, wenngleich durchaus amüsante Fehler. Auch dies wäre mit einer besseren Beschreibung sicher vermeidbar.

Hier das Bild (aus BerlinNFTQuiz), welches als Vorlage für den ersten Clip diente. Die verwendete Beschreibung war (die Bewegung innerhalb eines Bildes ist mittels Text zu beschreiben. Auch interessant wäre ein Versuch ohne Beschreibung.): „Schalte die Ampel auf grün und lasse die Autos fahren und einen Passanten schnell laufend hinter den Autos die Straße überqueren.“. Offenbar problematisch war es für die KI die richtige Ampel unter den Lichtern im Bild zu finden und die Strasse als zweispurig zu erkennen. Der Passant erscheint offenbar als weiteres Fahrzeug, welches komplett generiert und nicht Bestandteil des Ausgangsbildes ist.



Das letzte Beispiel inspirierte gleichfalls zu einer Überlegung für einen dystopischen Science Fiction Film. Ist KI vernetzt? Ja, sie lernt ja von Vorlagen auch aus dem Internet. Und wie definiert KI einen Passanten oder eine Person? Womöglich über die Intelligenz? Zumindest in einigen Science Fiction Filmen wurde thematisiert, wie denn ethisch mit künstlichem Leben umzugehen ist. Darf eine vermeintlich fühlende künstliche Intelligenz abgeschaltet werden oder gehen wir ihr auf den Leim, gestehen wir ihr Gefühle zu und lassen uns von deren Eigenleben überzeugen? Worauf ich aber hinaus will ist die Frage des Selbstverständnisses von KI, betrachtet diese sich selbst als eine Einheit, eine Entität? Hat die KI für das Video dem selbst generierten Auto die Eigenschaften einer Entität, eines intelligenten Wesens zugeschrieben und Auto mit Passant gleichgesetzt? Was ist, wenn künstliche Intelligenz sich irgendwann selbst als Entität definiert und die Prämissen setzt?