Gerade in der Kultur- und Kreativwirtschaft ist künstliche Intelligenz wichtig, denn mehrschichtige neuronale Netze (Deep Learning) ermöglichen vor allem bei der Arbeit mit Medien wie Bild, Ton und Text enorme Fortschritte.

In diesem Beitrag fasse ich das Paper „AI in the creative industries: a review“ von Nantheera Anantrasirichai und David Bull (2021) zusammen und sammle die darin vorgestellten Projekte und Anwendungsmöglichkeiten. An manchen Stellen erweitere ich um weitere Beispiele.

Eingesetzte Modelle und Algorithmen

Auch, wenn oft von „DER KI“ gesprochen wird, sind es doch mannigfaltige Modelle und Akronyme wie GANs (Generative Adversarial Networks), CNNs (Convolutional Neural Networks), RNNs (Recurrent Neural Networks), VEA (Variational Autoencoder) und RL (Reinforcement Learning), die (auch kombiniert) Anwendung finden.

Zu wenige Daten als Tür zur Kreativität

Die künstlerische/kreative Anwendung von künstlichen neuronalen Netzen (KNNs) ergibt sich meist aus einer „falschen“ Anwendung. Die „eigentliche“ Anwendung von GANs dient beispielsweise der Data Augmentation und der Data Synthesis, um fehlende oder mangelnde Daten auszugleichen.

Anwendungsmöglichkeiten von KI

Die vielen Ansatzpunkte zum Einsatz der Methoden des Machine Learnings bzw. der künstlichen Intelligenz werden in 5 Bereiche gruppiert (siehe Inhaltsverzeichnis).

Content erstellen

Die wohl künstlerisch fordernste Anwendung ist die Erstellung von Content. Die Technologie erstellt die Werke dabei ohne Kuration oder mit Kuration von Menschen.

Film

Film „Sunspring“ von 2016, New York University.
- Sequel „No Game“ von 2017, New York University
„Zone Out“ von 2018, New York University
Horror-Trailer „Morgan“, IBM Watson
Die KI um ScriptBook analysiert Drehbücher und erstellt auch eigene.

Spiele

MADE (Massive Artificial Drama Enginge for non-player characters)
AI Dungeon
Vid2Vid zur Verbesserung von Videocalls

Text

The AP: Journalistische Texte je nach Beitragsart anpassen
BBC, Forbes, Washington Post, Microsoft (MSN webseite) nutzen KI zur Unterstützung von Journalisten
- Automatischer Entwurf für Beiträge, Auswahl von News

Musik

Flow Machines von Sony
- Album „Hello World“ von SKYGGE mit AI Tool
Jukebox von OpenAI
NSynth von GoogleAi
Coconet, bekannt durch das Johann Sebastian Bach Doodle
Folk RNN, komponiert Folk-Musik

Bild und Foto

Style Transfer mit pix2pix, um Stile zu übertragen
- AIGahaku – AI Portrait Camera die Fotos in Renaissance Portraits verwandelt
Samsung AI: Mona Lisa bewegt sich
Viele Anwendungen sind leider mehr beta als live: picbreeder.org, endlessforms.com
Artbreeder: Mixe zwei Bilder
GANVAS Studio: GAN Bilder in Poster-Größe bestellen
Aus einem Live-Webcam-Input wird eine Comic-Animation mit dem „Pose-Animator„
Besonders für Theater und Live-Entertainment interessant: Cubic Motion. Digitale Charaktere können LIVE erstellt und gesteuert werden. So könnte Michael Jackson erneut live auftreten oder Mickey Mouse live mit Menschen interagieren.
Pinscreen beantwortet die Frage, wie Siri & Alexa aussehen könnten. Vorsicht: sexistische Kack*****, es ist natürlich eine Frau: https://www.youtube.com/watch?v=8MjhIQZt76c

Videos – Deepfakes

Auch wenn Fake News aus Text und Bild bestehen, meint man mit Deepfakes meist Videos, in denen Menschen ausgetauscht werden.

Wenn auch noch händisch korrigiert, ist der STAR WARS „Solo“ Filmausschnitt mit dem „echten“ Han Solo (Harrison Ford) ein tolles Beispiel.
- DeepFaceLab ist die Technologie dahinter
Natürlich sind auch Fake Pornos mit Celebrities ein reales Anwendungsfeld

Untertitel vs. Bilder aus Text

Automatisch generierte Untertitel zu Bildern oder Videos werden z. B. von YouTube sogar bei live Videos bereitgestellt.
Anders herum: Bilder aus Text zu erstellen ist jedoch auch möglich. Hier nennt das Paper kein Beispiel, aber OpenAis „DALL-E“ sollte genannt werden.

Datenanalyse

Um Content zu erstellen, bedarf es meist einer vorgelagerten Datenanalyse. Auch dabei ist KI im kreativen Einsatz.

Texte kategorisieren

Dabei werden Texte zusammengefasst und beispielsweise als Sentimentanalyse in negativ, neutral oder positiv klassifiziert. Es können jedoch auch andere Kategorien genommen werden, wie das Beispiel „Mood of the Planet“ von Vibeke Sorensen zeigt. Sie hat Tweets in sechs Emotionen klassifiziert und visualisiert.

Die Frage „wann“ ein Film oder Spiel veröffentlicht werden sollte, kann auch über eine Analyse der historischen Ticketverkäufe prognostiziert werden. Nicht im Paper, aber an dieser Stelle zu nenne wäre dazu die Firma future demand aus Berlin, die Ticketverkäufe für die Live-Entertainmentbranche prognostiziert.

Metadaten erkennen

Während früher Metadaten händisch vom Personal eingetippt wurde, lassen sich Informationen über z. B. Bilder über Deep Learning skalierbar erkennen.

Auch Musik lässt sich automatisiert taggen, das deutsche Start-up Cyanite steht zwar nicht im Paper, lässt sich aber als Beispiel nennen. Deren Software wird u. a. in der SWR App eingesetzt. Sie bieten auch ein Freemium Modell an, wenn ihr es mit YouTube Videos testen möchtet.

Empfehlungen

Empfehlungssysteme sind sinnvoll, um Produkte oder Content personalisiert vorzuschlagen. Nötig sind sie nur dort, wo das Angebot so groß ist, dass User es nicht leicht überblicken können. Die riesigen Datenbanken von Spotify und Netflix sind bekannte Anwendungsfälle.

3 Methoden zur Empfehlung

Empfehlungssysteme können inhaltsorientiert sein. Beispiel: Start Wars 4 und Star Wars 5 haben sehr ähnliche Beschreibungstexte und können daher jemandem empfohlen werden, der STAR WAR 3 geschaut hat.
Statt Inhalte zu betrachten, können auch Kaufhistorien verglichen werden. „Kunden, die A gekauft haben, kauften auch B“ wäre eine Anwendung dieses „Kollaborative Filterung“ Konzeptes.
Drittes gibt es noch „Wissens-orientierte Systeme„, dabei wird z.B. eine Suchanfrage auf einer Webseite genutzt, um passende Inhalte zu empfehlen.

Content Erweiterung und Post-Produktion

Auf diese Anwendungsfälle gehe ich nicht weiter ein, da sie – finde ich – zu sehr Hilfstools für Hilfstools sind. Dass KI Anwendung in der Bildbearbeitung mit z. B. Photoshop wichtige Dienste leisten, kann sich jeder denen. Hier eine kurze Übersicht:

Kontrast Erweiterung, Kolorierung, Bildgrößen erhöhen, Restaurierung, Schärfen, Rauschentfernung, „Special Effekts (VFX)“ etc.

Informationsgewinnung und -anreicherung

Eines der bekanntesten Anwendungsfelder von KI ist die Erkennung/Klassifizierung von Inhalten. So können KI Anwendungen auf einem Bild Objekte unterscheiden und auch benennen.

Objekterkennung und Tracking

Modelle mit dem passenden Namen You Only Look One (YOLO) gelten als aktueller State-of-the-Art. Die Objekterkennung funktioniert bereits live mit Videos, was für autonomes Fahren grundlegend ist. Auch die Emotion-Erkennung auf Grundlage von Gesichtern ist möglich.

Nicht nur Bilder, sondern auch Musik und Sprache kann erkannt werden, das bekannteste Beispiel ist wohl die App „Shazam“ für Musiktitel. Für Sprache lässt sich Houndify nennen.

Obskurer erscheint mir das Erkennen von Bereichen, denen Aufmerksamkeit geschenkt wird. Eng verwandt ist diese Mechanik mit dem Erkennen von Punkten, die Menschen mit den Augen fixieren werden. Anwendung findet sich in VR Welten, in denen durch fehlende Befehle unklar ist, wo sich die Aufmerksamkeit des Nutzers wiederfinden wird.

Das Tracken von Objekten, die sich in einem Video bewegen, ist eine Fähigkeit von KI Modellen, die nicht nur im autonomen Fahren, sondern auch bei der Arbeit mit Tänzern Anwendung finden kann (nicht im Paper).

Image Fusion

Hier ist das Paper leider sehr theoretisch, obwohl jedes iPhone mit dem HDR Modus einen Anwendungsfall bietet. Dabei werden Bilder miteinander fusioniert, um die beste Belichtung aus mehreren Bildern zu erhalten.

3D Rendering

Wenn nun zwei Bilder nicht aus einer gemeinsamen Perspektive aufgenommen werden, sondern aus diversen Ecken, lässt sich KI einsetzen, um zweidimensionale Bilder zu 3D Bildern zusammenzusetzen.

So nutzt Google Earth die 2D Bilder aus der Vogelperspektive, um mit KI erst Tiefe zu errechnen und anschließend eine dreidimensionale Version zu erstellen.

Um 3D-Bilder aus 2D Bildern zu erstellen, lässt sich die Facebook App nutzen. Oder die Anbieter SketchUp und Smoothie-3d.

360 Grad Sounds

Auch eigentlich eindimensionale Mono-Musik kann dank KI in 360 Grad Sounds exportiert werden. Dazu wird ein 360 Grad Video des Raumes aufgenommen und mit der Musik gematchet.

Anwendungsfälle (nicht im Paper) könnten 360* Aufnahmen von historischen Musik-Aufnahmen sein, wenn man den Originalraum nachträglich mit Video aufnehmen kann.

Komprimierung

Während Videos heute noch viel Speicher und Bandbreite benötigen, ermöglichen tiefe neuronale Netze eine neue Art der Komprimierung. Das Disney Research Team arbeitet an einer solchen, wodurch (nicht im Paper) Filme in sehr hoher Auflösung selbst bei schlechter Internetverbindung gestreamt werden könnten.

Wenn ihr an einem Kultur & KI-Projekt arbeitet oder konzipieren möchtet, biete ich Beratungen und Workshops an – auch zur technischen Umsetzung.
HolgerKurtz.de

Künstliche Intelligenz in der Kultur- und Kreativwirtschaft