Hast du KI Services schon genutzt, wie rund 80% der deutschen oder auch internationalen Internet Nutzer? Bei dem Grad der Penetration geht es kaum mehr anders, schon aufgrund der neu gestalteten Ergebnisseiten der Google Suche. Hier sind die Ergebnisse auch zutreffend und sollten doch mal Unsicherheiten auftreten, dann, so die eigene Erfahrung, gibt es kein KI-Ergebnis bei der Google Suche. Ansonsten können die Ergebnisse bei der gezielten Nutzung von KI Chats allgemein bereichernd oder aber auch ernüchternd sein. Das ist keine negative Kritik, die Sache sollte einfach objektiv betrachtet werden. Es gibt auch einen Fachbegriff für falsche Ergebnisse, Halluzination (der künstlichen Intelligenz).
Und wie verhält es sich nun mit AI/KI im Bereich von Film und Video? Dies ist der Auftakt zu einer Artikelserie über KI-Services im Bereich Film und Video. Der erste Artikel ist den AI/KI Video Generatoren gewidmet, die sich nunmehr zum Teil auch als Film Generatoren bezeichnen. Schlagwort dazu ist Reference to Video, was den für Filme notwendigen Kontext zwischen Szenen ermöglicht.
Hierzu habe ich eine aktuelle Recherche durchgeführt und mir eine Reihe von Services angesehen, die auf unterschiedlicher Grundlage Videos generieren (Für alle, die nur Tools suchen, eine kommentierte Übersicht gibt es unter AI/KI Video und Film Generatoren.). Und tatsächlich beschreiben sich einige Services mittlerweile nicht mehr nur als Video Generation sondern auch als Film Generation Services. Wo ist der Unterschied? Filminhalte haben zumeist einen Kontext, was bei kurzen Videoclips nicht unbedingt notwendig ist. Generierte Videoclips können auch für sich alleine stehen und Emotion oder Witz enthalten. Sogar die Halluzination einer KI kann amüsant sein. Mittlerweile ist es aber soweit, Video Generation Services können auch Kontext haben und gezielt Inhalte generieren, die im größeren Kontext eines Filmes integriert werden können und dies auch in der erforderlichen Qualität.
Als ich vor rund anderthalb Jahren das erste Mal Tools zur Erstellung von Filmen recherchiert hatte, war dies noch nicht möglich. Die Recherchen führten aber zu meinem ersten komplett mit AI/KI erstellten Kurzfilm. Ziel der Recherche war es zu ergründen, wie KI für einen Film genutzt werden kann. Für Dialoge hatte ich mit einem Chatbot experimentiert und es ergab sich zufällig, dass ich bemerkte das sich der Chatbot an ein voriges Gespräch erinnerte. Diese Erkenntnis ist die Essenz des Videos. Umgesetzt wurde der Kurzfilm dann mit Sprachsynthese und die gewonnenen Audiofiles waren dann Grundlage für die Animation mittels AI Avatar Software. Nachstehend das Video.
Es schien naheliegend, zumindest für mich als Anwender, zu vermuten das sich AI Software dahingehend entwickelt Inhalte zu merken und das irgendwann ein Punkt erreicht wird, ab dem Filme auf der Grundlage von Texteingaben generiert werden können. Vielleicht kommt es auch dazu, momentan scheint dies noch wesentlich zu komplex. Damals allerdings hatte wohl ChatGPT bereits damit angefangen Prompts zur Erhaltung von Kontext zu nutzen. Letzteres, die Nutzung von Prompts für Kontexte, ist nun dato zum State of the Art der Generierung von filmischen Inhalten geworden.
Kürzlich erst hat Midjourney, ein Pionier der Generierung von Bildern, in einer E-Mail mitgeteilt nun auch Video Generation Services anzubieten und dies gleich in fortgeschrittener Form. Mittels selbst zu erstellenden Prompts können Inhalte wie Personen oder Hintergründe etc. definiert werden und dann in entsprechenden Kontext gebracht werden. Es können also z.B. Person A und Person B unabhängig voneinander vor demselben Hintergrund erscheinen oder eine bestimmte Person vor unterschiedlichen Hintergründen. Die Machbarkeit ist der State of the Art, die Methoden können variieren. Die fachliche Bezeichnung für diese Methode ist Reference to Video. Es wird also nicht nur eine Vorlage zum Clip (Text to Video, Image to Video) sondern es werden Bilder oder sonstige Medien als Referenzen definiert, welche dann an unterschiedlichen Stellen verwendet werden. AI Video Anbieter in diesem Bereich sind Google Deepmind mit Veo bzw. insbesondere Flow, Hailuo AI, Midjourney, Pixverse, Sora von OpenAI, Vidu und der AI Video Pionier Runway (eine weitergehende Beschreibung der einzelnen Features der Services gibt es im Verzeichnis unter AI/KI Video und Film Generatoren).
Nochmals hervorzuheben sind die Feature von Runway. Bei Runway können auch Skizzen oder Storyboards zur Generierung von Filminhalten verwendet werden. Das ist im Bereich Film natürlich immens nützlich, stehen diese zumeist ohnehin zur Verfügung. Dazu möchte ich an dieser Stelle aber anmerken, dass nicht alle Services vollumfänglich sondern sofern überhaupt möglich nur mehr oder weniger sporadisch getestet wurden. Das aber im übrigen immer mit einem realen Ergebnis. So kann an dieser Stelle nicht gesagt werden ob Image to Video denselben Effekt haben kann, wie die Nutzung von Storyboards bei Runway. Vermutlich eher nicht oder nur ähnlich, wobei die Übergänge fliessend sind, wie die Showcases nahelegen.
Weitere neuere Features sind das automatische Anfügen von Sprache, wozu ich im oben eingebetteten Video noch mehrere Services nutzen musste. Auch das Anfügen von Soundeffekten ist eine neuere Funktion. Das nachstehende Video gibt ein Beispiel für das automatische Anfügen von Sprache. Dieses wurde mittels Image to Video mit Pixverse erstellt (Das Startbild entspricht dem originalen Bild.), die Sprachsynthese erfolgte automatisch basierend auf einen eingegebenen Text. Es war der erste und einzige Versuch. Ein Abgleich der Farben zwischen der gehobenen Hand und der Grafik hätte mit einer besseren Beschreibung vermutlich korrigiert werden können, worauf aber mangels Zeit verzichtet wurde. (Avatar für das eprima – Verzeichnis für Online Unterhaltung.)
Letztlich noch ein Beispiel eines schnell erstellten Videos mit aber durchaus beeindruckenden Ergebnissen für Image to Video mit Vidu. Auch hier war die Zeit knapp und es blieb beim ersten Versuch und so hat das Video einige, wenngleich durchaus amüsante Fehler. Auch dies wäre mit einer besseren Beschreibung sicher vermeidbar.
Hier das Bild (aus BerlinNFTQuiz), welches als Vorlage für den ersten Clip diente. Die verwendete Beschreibung war (die Bewegung innerhalb eines Bildes ist mittels Text zu beschreiben. Auch interessant wäre ein Versuch ohne Beschreibung.): „Schalte die Ampel auf grün und lasse die Autos fahren und einen Passanten schnell laufend hinter den Autos die Straße überqueren.“. Offenbar problematisch war es für die KI die richtige Ampel unter den Lichtern im Bild zu finden und die Strasse als zweispurig zu erkennen. Der Passant erscheint offenbar als weiteres Fahrzeug, welches komplett generiert und nicht Bestandteil des Ausgangsbildes ist.

Das letzte Beispiel inspirierte gleichfalls zu einer Überlegung für einen dystopischen Science Fiction Film. Ist KI vernetzt? Ja, sie lernt ja von Vorlagen auch aus dem Internet. Und wie definiert KI einen Passanten oder eine Person? Womöglich über die Intelligenz? Zumindest in einigen Science Fiction Filmen wurde thematisiert, wie denn ethisch mit künstlichem Leben umzugehen ist. Darf eine vermeintlich fühlende künstliche Intelligenz abgeschaltet werden oder gehen wir ihr auf den Leim, gestehen wir ihr Gefühle zu und lassen uns von deren Eigenleben überzeugen? Worauf ich aber hinaus will ist die Frage des Selbstverständnisses von KI, betrachtet diese sich selbst als eine Einheit, eine Entität? Hat die KI für das Video dem selbst generierten Auto die Eigenschaften einer Entität, eines intelligenten Wesens zugeschrieben und Auto mit Passant gleichgesetzt? Was ist, wenn künstliche Intelligenz sich irgendwann selbst als Entität definiert und die Prämissen setzt?