Gerade in der Kultur- und Kreativwirtschaft ist künstliche Intelligenz wichtig, denn mehrschichtige neuronale Netze (Deep Learning) ermöglichen vor allem bei der Arbeit mit Medien wie Bild, Ton und Text enorme Fortschritte.
In diesem Beitrag fasse ich das Paper „AI in the creative industries: a review“ von Nantheera Anantrasirichai und David Bull (2021) zusammen und sammle die darin vorgestellten Projekte und Anwendungsmöglichkeiten. An manchen Stellen erweitere ich um weitere Beispiele.
Eingesetzte Modelle und Algorithmen
Auch, wenn oft von „DER KI“ gesprochen wird, sind es doch mannigfaltige Modelle und Akronyme wie GANs (Generative Adversarial Networks), CNNs (Convolutional Neural Networks), RNNs (Recurrent Neural Networks), VEA (Variational Autoencoder) und RL (Reinforcement Learning), die (auch kombiniert) Anwendung finden.
Zu wenige Daten als Tür zur Kreativität
Die künstlerische/kreative Anwendung von künstlichen neuronalen Netzen (KNNs) ergibt sich meist aus einer „falschen“ Anwendung. Die „eigentliche“ Anwendung von GANs dient beispielsweise der Data Augmentation und der Data Synthesis, um fehlende oder mangelnde Daten auszugleichen.
Anwendungsmöglichkeiten von KI
Die vielen Ansatzpunkte zum Einsatz der Methoden des Machine Learnings bzw. der künstlichen Intelligenz werden in 5 Bereiche gruppiert (siehe Inhaltsverzeichnis).
Content erstellen
Die wohl künstlerisch fordernste Anwendung ist die Erstellung von Content. Die Technologie erstellt die Werke dabei ohne Kuration oder mit Kuration von Menschen.
Film
- Film „Sunspring“ von 2016, New York University.
- Sequel „No Game“ von 2017, New York University
- „Zone Out“ von 2018, New York University
- Horror-Trailer „Morgan“, IBM Watson
- Die KI um ScriptBook analysiert Drehbücher und erstellt auch eigene.
Spiele
- MADE (Massive Artificial Drama Enginge for non-player characters)
- AI Dungeon
- Vid2Vid zur Verbesserung von Videocalls
Text
- The AP: Journalistische Texte je nach Beitragsart anpassen
- BBC, Forbes, Washington Post, Microsoft (MSN webseite) nutzen KI zur Unterstützung von Journalisten
- Automatischer Entwurf für Beiträge, Auswahl von News
Musik
- Flow Machines von Sony
- Album „Hello World“ von SKYGGE mit AI Tool
- Jukebox von OpenAI
- NSynth von GoogleAi
- Coconet, bekannt durch das Johann Sebastian Bach Doodle
- Folk RNN, komponiert Folk-Musik
Bild und Foto
- Style Transfer mit pix2pix, um Stile zu übertragen
- AIGahaku – AI Portrait Camera die Fotos in Renaissance Portraits verwandelt
- Samsung AI: Mona Lisa bewegt sich
- Viele Anwendungen sind leider mehr beta als live: picbreeder.org, endlessforms.com
- Artbreeder: Mixe zwei Bilder
- GANVAS Studio: GAN Bilder in Poster-Größe bestellen
- Aus einem Live-Webcam-Input wird eine Comic-Animation mit dem „Pose-Animator„
- Besonders für Theater und Live-Entertainment interessant: Cubic Motion. Digitale Charaktere können LIVE erstellt und gesteuert werden. So könnte Michael Jackson erneut live auftreten oder Mickey Mouse live mit Menschen interagieren.
- Pinscreen beantwortet die Frage, wie Siri & Alexa aussehen könnten. Vorsicht: sexistische Kack*****, es ist natürlich eine Frau: https://www.youtube.com/watch?v=8MjhIQZt76c
Videos – Deepfakes
Auch wenn Fake News aus Text und Bild bestehen, meint man mit Deepfakes meist Videos, in denen Menschen ausgetauscht werden.
- Wenn auch noch händisch korrigiert, ist der STAR WARS „Solo“ Filmausschnitt mit dem „echten“ Han Solo (Harrison Ford) ein tolles Beispiel.
- DeepFaceLab ist die Technologie dahinter
- Natürlich sind auch Fake Pornos mit Celebrities ein reales Anwendungsfeld
Untertitel vs. Bilder aus Text
- Automatisch generierte Untertitel zu Bildern oder Videos werden z. B. von YouTube sogar bei live Videos bereitgestellt.
- Anders herum: Bilder aus Text zu erstellen ist jedoch auch möglich. Hier nennt das Paper kein Beispiel, aber OpenAis „DALL-E“ sollte genannt werden.
Datenanalyse
Um Content zu erstellen, bedarf es meist einer vorgelagerten Datenanalyse. Auch dabei ist KI im kreativen Einsatz.
Texte kategorisieren
Dabei werden Texte zusammengefasst und beispielsweise als Sentimentanalyse in negativ, neutral oder positiv klassifiziert. Es können jedoch auch andere Kategorien genommen werden, wie das Beispiel „Mood of the Planet“ von Vibeke Sorensen zeigt. Sie hat Tweets in sechs Emotionen klassifiziert und visualisiert.
Werbung
Lernende Systeme werden angewandt, um die Ausspielung von digitalen Anzeigen auf die Zielgruppe zu verbessern. Sodass die Werbung in den Kontext UND auf den User passt.
In Form von Sentimentanalysen wird auch das Feedback zu einem Produkt in den sozialen Medien analysiert.
Die Frage „wann“ ein Film oder Spiel veröffentlicht werden sollte, kann auch über eine Analyse der historischen Ticketverkäufe prognostiziert werden. Nicht im Paper, aber an dieser Stelle zu nenne wäre dazu die Firma future demand aus Berlin, die Ticketverkäufe für die Live-Entertainmentbranche prognostiziert.
Metadaten erkennen
Während früher Metadaten händisch vom Personal eingetippt wurde, lassen sich Informationen über z. B. Bilder über Deep Learning skalierbar erkennen.
Auch Musik lässt sich automatisiert taggen, das deutsche Start-up Cyanite steht zwar nicht im Paper, lässt sich aber als Beispiel nennen. Deren Software wird u. a. in der SWR App eingesetzt. Sie bieten auch ein Freemium Modell an, wenn ihr es mit YouTube Videos testen möchtet.
Empfehlungen
Empfehlungssysteme sind sinnvoll, um Produkte oder Content personalisiert vorzuschlagen. Nötig sind sie nur dort, wo das Angebot so groß ist, dass User es nicht leicht überblicken können. Die riesigen Datenbanken von Spotify und Netflix sind bekannte Anwendungsfälle.
3 Methoden zur Empfehlung
- Empfehlungssysteme können inhaltsorientiert sein. Beispiel: Start Wars 4 und Star Wars 5 haben sehr ähnliche Beschreibungstexte und können daher jemandem empfohlen werden, der STAR WAR 3 geschaut hat.
- Statt Inhalte zu betrachten, können auch Kaufhistorien verglichen werden. „Kunden, die A gekauft haben, kauften auch B“ wäre eine Anwendung dieses „Kollaborative Filterung“ Konzeptes.
- Drittes gibt es noch „Wissens-orientierte Systeme„, dabei wird z.B. eine Suchanfrage auf einer Webseite genutzt, um passende Inhalte zu empfehlen.
Content Erweiterung und Post-Produktion
Auf diese Anwendungsfälle gehe ich nicht weiter ein, da sie – finde ich – zu sehr Hilfstools für Hilfstools sind. Dass KI Anwendung in der Bildbearbeitung mit z. B. Photoshop wichtige Dienste leisten, kann sich jeder denen. Hier eine kurze Übersicht:
Kontrast Erweiterung, Kolorierung, Bildgrößen erhöhen, Restaurierung, Schärfen, Rauschentfernung, „Special Effekts (VFX)“ etc.
Informationsgewinnung und -anreicherung
Eines der bekanntesten Anwendungsfelder von KI ist die Erkennung/Klassifizierung von Inhalten. So können KI Anwendungen auf einem Bild Objekte unterscheiden und auch benennen.
Objekterkennung und Tracking
Modelle mit dem passenden Namen You Only Look One (YOLO) gelten als aktueller State-of-the-Art. Die Objekterkennung funktioniert bereits live mit Videos, was für autonomes Fahren grundlegend ist. Auch die Emotion-Erkennung auf Grundlage von Gesichtern ist möglich.
Nicht nur Bilder, sondern auch Musik und Sprache kann erkannt werden, das bekannteste Beispiel ist wohl die App „Shazam“ für Musiktitel. Für Sprache lässt sich Houndify nennen.
Obskurer erscheint mir das Erkennen von Bereichen, denen Aufmerksamkeit geschenkt wird. Eng verwandt ist diese Mechanik mit dem Erkennen von Punkten, die Menschen mit den Augen fixieren werden. Anwendung findet sich in VR Welten, in denen durch fehlende Befehle unklar ist, wo sich die Aufmerksamkeit des Nutzers wiederfinden wird.
Das Tracken von Objekten, die sich in einem Video bewegen, ist eine Fähigkeit von KI Modellen, die nicht nur im autonomen Fahren, sondern auch bei der Arbeit mit Tänzern Anwendung finden kann (nicht im Paper).
Image Fusion
Hier ist das Paper leider sehr theoretisch, obwohl jedes iPhone mit dem HDR Modus einen Anwendungsfall bietet. Dabei werden Bilder miteinander fusioniert, um die beste Belichtung aus mehreren Bildern zu erhalten.
3D Rendering
Wenn nun zwei Bilder nicht aus einer gemeinsamen Perspektive aufgenommen werden, sondern aus diversen Ecken, lässt sich KI einsetzen, um zweidimensionale Bilder zu 3D Bildern zusammenzusetzen.
So nutzt Google Earth die 2D Bilder aus der Vogelperspektive, um mit KI erst Tiefe zu errechnen und anschließend eine dreidimensionale Version zu erstellen.
Um 3D-Bilder aus 2D Bildern zu erstellen, lässt sich die Facebook App nutzen. Oder die Anbieter SketchUp und Smoothie-3d.
360 Grad Sounds
Auch eigentlich eindimensionale Mono-Musik kann dank KI in 360 Grad Sounds exportiert werden. Dazu wird ein 360 Grad Video des Raumes aufgenommen und mit der Musik gematchet.
Anwendungsfälle (nicht im Paper) könnten 360* Aufnahmen von historischen Musik-Aufnahmen sein, wenn man den Originalraum nachträglich mit Video aufnehmen kann.
Komprimierung
Während Videos heute noch viel Speicher und Bandbreite benötigen, ermöglichen tiefe neuronale Netze eine neue Art der Komprimierung. Das Disney Research Team arbeitet an einer solchen, wodurch (nicht im Paper) Filme in sehr hoher Auflösung selbst bei schlechter Internetverbindung gestreamt werden könnten.