nvidia-gan-2-small

Forscher des Chip-Hersteller NVIDIA haben eine künstliche Intelligenz entwickelt, die hochauflösende Fotos von Menschen generiert – ohne dass das sogenannte Generator-Netz selber jemals ein Foto von einem Menschen gesehen hätte.

Es kennt Menschen-Fotos tatsächlich nur vom Hörensagen – nämlich von einem zweiten neuronalen Netz, welches seinerseits darauf trainiert wurde, Gesichter von Menschen zu erkennen. Die generierten Fotos sind also in keinster Art und Weise einfach zusammengemischte Fotos von existierenden Personen, denn das einzige Feedback, welches das Generator Netz vom diesem sog. Discriminator-Netz erhält, ist, wie hoch dieses die Wahrscheinlichkeit einschätzt, dass das generierte Bild ein menschliches Gesicht ist.

Diese beiden künstlichen neuronalen Netze trainieren sich also gegenseitig, die zugrundeliegende Architektur wird GAN (Generative Adverserial Network) genannt.

Das Video zeigt am Anfang zunächst echte Bilder von Prominenten. Im Anschluss werden zum Vergleich die von der KI generierten Bilder gezeigt.

Dabei wird das sogenannte Discriminator-Netz mit Fotos von Gesichtern trainiert (in diesem Fall Gesichter von Celebrities) und lernt mit der Zeit, menschliche Gesichter zu erkennen. Gleichzeitig generiert das Generator-Netz zufällige Bilder, die anfangs nichts mit Gesichtern gemein haben, und legt diese dem Discriminator zur Prüfung vor. Der Discriminator gibt dem Generator ein Feedback, für wie wahrscheinlich er es hält, dass es sich beim generierten Bild um ein Gesicht handelt. Auf der Basis dieses Feedbacks passt der Generator sein Vorgehen schrittweise an, bis er beginnt, immer bessere, valide Gesichter zu liefern.

Technik erstmalig mit hochauflösenden Ergebnissen

Die GAN-Technik an sich ist nicht ganz neu, aber die Forscher von NVIDIA haben es erstmals geschafft, hochauflösende Fotos zu generieren, auch wenn diese hier und da noch kleinere Fehler aufweisen. Insbesondere hat das Team neue Methoden entwickelt, mit denen der Trainingsprozess effizienter und stabiler abläuft, indem z.B. für das Training zu Beginn nur Bilder mit geringer Auflösung (256×256) verwendet werden, und die Pixelzahl dann zunehmend steigt, wenn die Netze bereits die Grundlagen gelernt haben.

Des Weiteren wurden auch neue Wege zur Steigerung der Diversität der generierten Bilder gefunden. so lassen sich neben Gesichtern beispielsweise auch Produktbilder generieren. Echter Fotorealismus ist damit definitiv in Reichweite gekommen und es wird nur eine Frage der Zeit sein, bis die ersten künstlichen Foto-Models für Produkte werben.

nvidia-gan-3-small

Von der KI generierte Bilder

Weitere Informationen finden sich in dem Paper: Progressive Growing of GANs for Improved Quality, Stability, and Variation (PDF)


Bilder: NVIDIA Corporation