Wie wir unseren ESO-Charakteren Leben einhauchen:
Das Geheimnis hinter dem KI-Lip-Sync
Eine der häufigsten Fragen, die mich aus der Community erreicht, lautet: „Hey, wie macht ihr das eigentlich mit der Lippensynchronisation (Lip-Sync) der Figuren in The Elder Scrolls Online (ESO)?“ Heute möchte ich das Geheimnis lüften und euch meinen kleinen, aber extrem leistungsstarken Helfer vorstellen. Wir nutzen eine KI-basierte Technologie, genauer gesagt eine Open-Source-Software namens LivePortrait. Den Link zum Original-Projekt findet ihr am Ende des Artikels. Ich selbst nutze jedoch eine stark modifizierte Version dieses Programms.
Da der Quellcode offen zugänglich ist, habe ich unter der Haube etwas „herumgefummelt“ und die Software perfekt an mein System angepasst. Das Ergebnis? Ich kann die Animationen im Streaming-Verfahren in waschechter 4K-Auflösung ausgeben. Aber wie genau funktioniert das und was braucht man dafür? Ein Blick hinter die Kulissen.
Die Hardware:
Warum ihr einen „NASA-Rechner“ braucht
Eins vorweg: Wer mit lokaler Video-KI in 4K arbeiten möchte, braucht Hardware, die ordentlich Dampf hat. Die KI berechnet die Bilddaten nicht irgendwo in einer Cloud, sondern komplett lokal auf dem eigenen Rechner. Das schützt unsere Daten, erfordert aber immense Rechenpower.
Um meinen 4K-Output ruckelfrei zu bewerkstelligen, läuft mein System mit:
- Grafikkarte: Einer NVIDIA RTX 4090 (die Speerspitze für KI-Berechnungen dank ihres riesigen VRAMs).
- Arbeitsspeicher: Mindestens 65 GB RAM.
Ja, solche Hardware ist heute Gold wert, aber in weiser Voraussicht hatte ich mir dieses Setup schon vor zwei Jahren zugelegt. Ohne diese Leistung würden die Renderzeiten astronomische Höhen erreichen.
Aber um euch die Angst zu nehmen: Die Grundversion des Programms, das ja schon ein paar Jahre auf dem Buckel hat, braucht ganz wenig Arbeitsspeicher und eine Grafikkarte der Mittelklasse. Dafür bekommt ihr aber nur höchstens eine 560p-Auflösung als Ausgabe und müsst diese mit einem zusätzlichen Tool upskalieren, wodurch unter Umständen Details an Schärfe verlieren.
Der Workflow: So lernt der Charakter sprechen
Viele denken, bei KI drückt man einfach einen Knopf und alles passiert automatisch. Die Realität sieht anders aus: Es ist nach wie vor eine Menge Handarbeit, Vorbereitung und Geduld gefragt. Der Prozess teilt sich in mehrere Schritte auf:
1. Das perfekte ESO-Ausgangsmaterial
Zuerst benötigen wir ein etwa 10-sekündiges Video der ESO-Figur. Hier ist höchste Präzision gefragt: Ich benutze zum Aufnehmen die Nvidia-App. Dort kann man die Bildschirmaufnahme mit Tastendruck in verschiedenen Auflösungen einstellen, und im Spiel dann starten. Im Videoeditor, vorzugsweise DaVinci Resolve (gibt es auch gratis), schneidest du dein Material genau auf die Länge, die du brauchst.
Das machst du mit den Eso-Aufnahmen und deiner eigenen menschlichen Vorlage. Diese exportierst du einfach und legst sie in einen Ordner. Ich benenne sie meist „Patsy_01_Eso” für das Eso-Material und „Patsy_01_Mund” für das RL-Material.
- Sichtbarkeit: Der Mund der ESO Figur muss perfekt ausgeleuchtet und sichtbar sein.
- Keine Ablenkungen: Extreme Schminke (wie Tattoos über den Lippen) oder andere Charaktere im Bild sind ein absolutes No-Go.
- Warum? Die KI sucht im Bild nach Gesichtsmerkmalen. Wenn ein anderer Charakter danebensteht oder Schatten das Gesicht verzerren, greift die KI auf das falsche Gesicht zu oder verwechselt Texturen mit einem Mund. Das Ergebnis wäre pures Chaos. Oder wiederholtes Herumfummeln am Ausgangsmaterial.
2. Die menschliche Vorlage (Motion Tracking)
Damit die ESO-Figur authentisch wirkt, müssen wir uns selbst mit einer Kamera aufnehmen. Unsere Mimik, Kopfneigungen und vor allem unsere Lippenbewegungen werden aufgezeichnet.
(Kleiner Hinweis am Rande: Die Frau, die in einigen Standard-Beispielvorlagen der Software zu sehen ist, gehört übrigens nicht zu unserem Team!)
3. Die Übertragung in der KI-Oberfläche
In der Software werden nun unser Video und das ESO-Video übereinandergelegt. LivePortrait bietet die fantastische Funktion, gezielt auszuwählen, welche Bewegungen übertragen werden sollen. Man kann den gesamten Kopf animieren lassen, aber für unsere Projekte wähle ich meistens nur die Mundbewegung aus. Das wirkt bei den In-Game-Modellen oft natürlicher und verhindert, dass die Körperhaltung der Spielfigur verzerrt wird.
⏱️ Die harte Realität: Zeitaufwand und Renderzeiten
Selbst mit einem High-End-Rechner ist Geduld eine Tugend in diesem Prozess. Hier ein paar nützliche Fakten zum Aufwand:
- Renderzeit: Für ein winziges Video von nur 10 Sekunden benötigt meine KI-Konfiguration etwa 3 Minuten reine Rechenzeit.
- Arbeitszeit: Allein für die Animationen wird einiges an Zeit draufgehen. Ich kann sagen, dass es für ein 10-sekündiges Video ungefähr 10 Minuten sind. (Aufnahme, Zuschnitt, Export).
- Post-Produktion: Nach dem KI-Rendering ist die Arbeit noch nicht vorbei. Die Ergebnisse müssen in Schnittprogrammen nachbearbeitet, optimiert und gegebenenfalls noch einmal hochskaliert werden, um die gewünschte Qualität zu erreichen.
Fazit: Lohnt sich der Aufwand?
Auch wenn der Prozess zeitintensiv ist und einen Rechner erfordert, mit dem man vermutlich auch eine Mondlandung berechnen könnte – wir sind absolut begeistert! Die Möglichkeiten, die uns lokale KI-Technologien wie LivePortrait bieten, um Geschichten in ESO immersiver zu erzählen, sind schier grenzenlos. Wir werden diese Technik definitiv fest in unsere zukünftigen Projekte integrieren.
Was mit dieser Technik möglich ist, könnt ihr ja in unseren Videos auf Youtube sehen!
Hier seht ihr ein schönes Tutorial eines Creators. Perfekt erklärt!
So muss ich das nicht extra machen. Höhö.
