So erstellen Sie mit Deep Learning realistische Grand Theft Auto 5-Grafiken

Dieses Projekt ist eine Fortsetzung meines vorherigen Artikels. Darin erklärte ich, wie wir CycleGANs für die Übertragung von Bildstilen verwenden und sie anwenden können, um Fortnite-Grafiken zu konvertieren und sie wie PUBG aussehen zu lassen.

CycleGAN ist eine Art generatives kontradiktorisches Netzwerk, das den visuellen Stil eines Bildes nachahmen und auf ein anderes übertragen kann. Wir können es verwenden, um die Grafik eines Spiels wie die eines anderen Spiels oder der realen Welt aussehen zu lassen.

In diesem Artikel wollte ich einige weitere Ergebnisse mit demselben CycleGAN-Algorithmus teilen, den ich in meiner vorherigen Arbeit behandelt habe. Zuerst werde ich versuchen, GTA 5-Grafiken zu verbessern, indem ich sie an die reale Welt anpasse. Als nächstes werde ich erläutern, wie wir dieselben fotorealistischen Ergebnisse erzielen können, ohne zunächst hochdetaillierte GTA-Grafiken rendern zu müssen.

Für die erste Aufgabe habe ich Screenshots des Spiels als Quelldomäne gemacht, die wir in etwas Fotorealistisches umwandeln möchten. Die Zieldomäne stammt aus dem Datensatz "cityscapes", der die reale Welt darstellt (mit der wir unser Spiel ähneln wollen).

CycleGAN-Ergebnisse

Basierend auf ungefähr drei Trainingstagen für ungefähr 100 Epochen scheint das Cyclegan-Modell eine sehr gute Arbeit bei der Anpassung von GTA an die reale Welt zu leisten. Mir gefällt sehr, dass die kleineren Details bei dieser Übersetzung nicht verloren gehen und das Bild auch bei einer so niedrigen Auflösung seine Schärfe behält.

Der Hauptnachteil ist, dass sich dieses neuronale Netzwerk als ziemlich materialistisch herausstellte: Es halluziniert überall ein Mercedes-Logo und ruiniert die nahezu perfekte Umstellung von GTA auf die reale Welt. (Dies liegt daran, dass der Datensatz für Stadtbilder von einem Mercedes-Besitzer gesammelt wurde.)

So erzielen Sie mit weniger Aufwand die gleichen fotorealistischen Grafiken

Obwohl dieser Ansatz bei der Verbesserung der Spielgrafik sehr vielversprechend erscheint, glaube ich nicht, dass das wahre Potenzial darin besteht, dieser Pipeline zu folgen. Damit meine ich, dass es unpraktisch erscheint, ein so detailliertes Bild zu rendern und es dann in etwas anderes umzuwandeln.

Wäre es nicht besser, ein Bild von ähnlicher Qualität zu synthetisieren, aber mit viel weniger Zeit und Aufwand, um das Spiel überhaupt zu entwerfen? Ich denke, das wahre Potenzial liegt darin, Objekte mit geringen Details zu rendern und das neuronale Netz das endgültige Bild aus diesem Rendering synthetisieren zu lassen.

Basierend auf den im Cityscapes-Dataset verfügbaren semantischen Beschriftungen habe ich Objekte in einem Screenshot von GTA segmentiert, um eine Darstellung von Grafiken mit geringen Details zu erhalten. Betrachten Sie dies als ein Spiel-Rendering von nur wenigen Objekten wie Straße, Auto, Häusern, Himmel usw., ohne sie im Detail zu entwerfen. Dies dient als Eingabe für unser Bildstil-Übertragungsmodell anstelle des sehr detaillierten Screenshots aus dem Spiel.

Lassen Sie uns sehen, welche Qualität der endgültigen Bilder mit CycleGANs aus solchen semantischen Karten mit geringen Details generiert werden kann.

Ergebnisse der Bildsynthese aus semantischen Karten

Hier sind einige Beispiele, wie es aussieht, wenn wir GTA-Grafiken aus semantischen Karten neu erstellen. Beachten Sie, dass ich diese Karten nicht von Hand erstellt habe. Das schien wirklich langweilig zu sein, also ließ ich es einfach ein anderes CycleGAN-Modell tun (es ist darauf trainiert, eine Bildsegmentierung unter Verwendung des Cityscapes-Datensatzes durchzuführen).

Es scheint eine gute Konvertierung aus der Ferne zu sein, aber bei genauem Hinsehen ist es ziemlich offensichtlich, dass das Bild gefälscht ist und keinerlei Details enthält.

Diese Ergebnisse sind jetzt 256p und wurden auf einer GPU mit 8 GB Speicher generiert. Die Autoren des Originalpapiers haben jedoch gezeigt, dass es möglich ist, mit einer GPU mit über 24 GB Speicher ein viel detaillierteres 2048 x 1024p-Bild zu erstellen. Es verwendet die überwachte Lernversion von CycleGAN namens pix2pixHD, die für die Ausführung derselben Aufgabe geschult ist. Und Junge, sieht das falsche Bild verdammt überzeugend aus?

Fazit

GANs haben ein großes Potenzial, die Art und Weise zu ändern, wie die Unterhaltungsindustrie künftig Inhalte produzieren wird. Sie sind in der Lage, viel bessere Ergebnisse als Menschen und in viel kürzerer Zeit zu erzielen.

Gleiches gilt auch für die Spielebranche. Ich bin sicher, dass dies in einigen Jahren die Generierung von Spielgrafiken revolutionieren wird. Es wird viel einfacher sein, die reale Welt einfach nachzuahmen, als alles von Grund auf neu zu erstellen.

Sobald wir das erreicht haben, wird die Einführung neuer Spiele auch viel schneller sein. Spannende Zeiten mit diesen Fortschritten im Deep Learning!

Weitere Ergebnisse im Videoformat

Alle oben genannten Ergebnisse und mehr finden Sie auf meinem YouTube-Kanal und in dem unten eingebetteten Video. Wenn es Ihnen gefallen hat, können Sie meinen Kanal abonnieren, um mehr von meiner Arbeit zu verfolgen.

Danke fürs Lesen! Wenn dir dieser Artikel gefallen hat, folge mir bitte auf Medium, GitHub oder abonniere meinen YouTube-Kanal.