Maschinelles Lernen und neuronale Netze - Seite 24

 

MIT 6.S192 - Vorlesung 10: "Magenta: Empowering creative agency with machine learning" von Jesse Engel



MIT 6.S192 - Vorlesung 10: "Magenta: Empowering creative agency with machine learning" von Jesse Engel

Jesse Engel, leitender Forschungswissenschaftler bei Google Brain, spricht über Magenta, eine Forschungsgruppe, die sich mit der Rolle von KI und maschinellem Lernen in Kreativität und Musik befasst. Die Gruppe konzentriert sich hauptsächlich auf maschinelle Lernmodelle, die Medien generieren und sie über Open-Source-Code und ein Framework namens magenta.js zugänglich machen, das die Erstellung interaktiver kreativer Modelle in Javascript ermöglicht. Engel betont, wie wichtig es ist, Musik als soziale und evolutionäre Plattform für kulturelle Identität und Verbindung zu betrachten und nicht als Ware, die billig produziert und konsumiert wird. Sie untersuchen, wie maschinelles Lernen Einzelpersonen durch Expressivität, Interaktivität und Adaptivität zu neuen Formen kreativer Handlungsfähigkeit befähigen kann. Der Vortrag behandelt verschiedene Themen, darunter das Entwerfen von maschinellen Lernmodellen für Musik, die Verwendung erweiterter Faltung für prädiktive Ausgaben, differenzierbare digitale Signalverarbeitung und die Erstellung von maschinellen Lernsystemen, die schöne Fehler produzieren. Darüber hinaus spricht er über Herausforderungen der Zusammenarbeit mit Künstlern und die große Herausforderung, in Lernmodellen aus der Verteilung und Kompositionalität herauszukommen.

  • 00:00:00 In diesem Abschnitt spricht Jesse Engel, leitender Forschungswissenschaftler bei Google Brain, über Magenta, eine Forschungsgruppe, die sich mit der Rolle von KI und maschinellem Lernen in Kreativität und Musik befasst. Die Gruppe konzentriert sich hauptsächlich auf maschinelle Lernmodelle, die Medien generieren und sie über Open-Source-Code und ein Framework namens magenta.js zugänglich machen, das die Erstellung interaktiver kreativer Modelle in Javascript ermöglicht. Engel betont, wie wichtig es ist, Musik als soziale und evolutionäre Plattform für kulturelle Identität und Verbindung zu betrachten und nicht als Ware, die billig produziert und konsumiert wird. Sie untersuchen, wie maschinelles Lernen Einzelpersonen durch Expressivität, Interaktivität und Adaptivität zu neuen Formen kreativer Handlungsfähigkeit befähigen kann.

  • 00:05:00 In diesem Abschnitt spricht Jesse Engel über das Entwerfen von Modellen für maschinelles Lernen, die besser hackbar sind und weniger Daten zum Trainieren benötigen, insbesondere im Zusammenhang mit Musik. Er diskutiert die Kompromisse zwischen verschiedenen Facetten des Entwerfens von Algorithmen, wie z. B. niedrige Latenzzeiten mit intuitiven kausalen Steuerelementen, während sie dennoch ausdrucksstark und anpassungsfähig sind. Er vergleicht zwei maschinelle Lernmodelle – die Openai Jukenbox, die rohe Audio-Wellenformen sehr realistisch modelliert, auf Kosten von Tonnen und Tonnen von Daten, und Kritzeleien, die Musik als strukturierte Daten, aber mit unrealistischen Klängen modellieren. Er endet mit der Diskussion des Ansatzes der Gruppe, der darin besteht, die Struktur innerhalb des Modells zu verwenden, um einen Kompromiss zwischen Interpretierbarkeit und Ausdruckskraft zu finden.

  • 00:10:00 In diesem Abschnitt erörtert Jesse Engel den bisherigen Stand der Technik von Audio-Transkriptionsmodellen und ihre Grenzen bei der genauen Vorhersage von Noten, die der menschlichen Wahrnehmung entsprechen. Er demonstriert, dass Fehler in einzelnen Frames nicht so wichtig sind, wie wenn Noten tatsächlich beginnen, und wie eine neue neuronale Netzwerkarchitektur geschaffen wurde, um die Verlustfunktion besser an das anzupassen, was uns wichtig ist – wie die Musik klingt, wenn wir sie spielen zurück. Das neue hochmoderne Modell war in der Lage, eine genaue Transkription zu erreichen, selbst wenn der Ton „in freier Wildbahn“ war, wie ein Klavierspieler demonstrierte, der in sein Handy spielte.

  • 00:15:00 In diesem Abschnitt des Videos erklärt Jesse Engel von Google Brain die Bedeutung von Datensätzen in neuronalen Netzen am Beispiel eines großen Datensatzes aus dem internationalen E-Piano-Wettbewerb. Er erörtert die Verwendung von neuronalen Netzen, wie z. B. rekurrente neuronale Netze (RNNs) und die Transformatorarchitektur, um Musiksequenzen zu modellieren, und die Herausforderung, Musiknoten in Tokens zu zerlegen. Um dieser Herausforderung zu begegnen, haben sie ein Vokabular entwickelt, um einzelne Musikereignisse und Zeitstempel zu erkennen. Durch die genaue Darstellung von Mikro-Timing, Geschwindigkeit und Variationen in den Daten können die Modelle natürlicher klingende Musik erzeugen.

  • 00:20:00 In diesem Abschnitt des Vortrags erklärt Jesse Engel, wie das Magenta-Team mit nur einem Originalmotiv begann und ein autoregressives Modell namens LSTM verwendete, um das nächste Token anhand der vorherigen Token vorherzusagen. Aufgrund der begrenzten langfristigen Kohärenz des LSTM implementierten sie jedoch den Transformator, um alle vorherigen Daten zu verfolgen und die Kohärenz zu verbessern. Damit könnten sie rohes Audio transkribieren, um Tausende von Stunden symbolischer Musik zu erhalten, wodurch sie Modelle mit viel längerfristiger Kohärenz trainieren könnten. Um eine intuitivere Steuerung zu ermöglichen, extrahierte das Team auch die Melodie und verwendete sie als Steuerung, von der die Generation abhängig ist. Sie könnten dieses Modell dann als neuronalen Synthesizer für verschiedene Sounds verwenden, und die Parameter könnten auf bestimmte Soundsets abgestimmt werden.

  • 00:25:00 In diesem Abschnitt des Videos erklärt Jesse Engel die technischen Aspekte von Magentas erweiterten Faltungsprozessen für ein neuronales Netzwerk, um Ausgaben basierend auf übergeordneten Steuerelementen vorherzusagen. Durch die Verwendung der erweiterten Faltung ist das System in der Lage, einen großen Zeitbereich ohne Downsampling zu betrachten und vermeidet den Verlust von Informationen, während es ausdrucksstark ist. Der Prozess ist jedoch langsam und erfordert eine längerfristige Konditionierung für eine längerfristige Struktur. Durch die Verwendung von Notenkonditionierung ist das System in der Lage, realistische Darbietungen mit interpretierbaren Zwischendarstellungen zu erzeugen.

  • 00:30:00 In diesem Abschnitt lernen wir etwas über DDSP oder differenzierbare digitale Signalverarbeitung. Jesse Engel schlägt vor, traditionelle Signalverarbeitungsmethoden wie Oszillatoren, Filter und Synthesizer mit Deep Learning zu integrieren, um ein effizienteres, realistischeres und reaktionsschnelleres System zu schaffen. Anstatt ein neuronales Netzwerk Audio direkt erzeugen zu lassen, werden bekannte Signalverarbeitungselemente verwendet, und ein neuronales Netzwerk steuert sie, um ausdrucksstarke Ausgaben zu erzeugen. DDSP-Module sind interpretierbar und effizient, und Klang kann durch diese Sinusoszillatoren mit variabler Frequenz modelliert werden. DDSP verwendet harmonische Schwingungen und Differentialgleichungen zweiter Ordnung für mehr Flexibilität bei der Audiomodellierung. DDSP besteht nicht nur aus periodischen Komponenten, sondern enthält auch Rauschelemente, die mit verschiedenen Filtern zufällig geformt werden können. Durch Steuern dieser Syntheseelemente unter Verwendung eines neuronalen Netzwerkdekoders kann Audio erzeugt werden, das im Vergleich zum ursprünglichen Audio günstig ist.

  • 00:35:00 In diesem Abschnitt des Vortrags erklärt der Referent, wie er den Decoder trainieren kann, um eine qualitativ hochwertige Synthese mit weniger Daten zu erstellen, indem er Spektrogramme durch das Modell laufen lässt und es dann erneut synthetisiert. Dadurch kann das Modell Tonhöhe und Lautstärke in einen Flötenklang, Geigenklang umwandeln und sogar Klangfarben aus Gesangsstilen übertragen. Sie können auch verschiedene Modellkomponenten wie Hall und Obertöne ausschalten, um einzelne Attribute zu überprüfen. Das Modell kann auf Modelle unter einem Megabyte für die Implementierung des Echtzeitbetriebs auf einem Browser herunterkomprimiert werden. Das DDSP-Modell kann auf ein breites Spektrum von Kulturen angewendet werden, wodurch es in der Lage ist, mikrotonale Variationen und Verschiebungen zu bewahren.

  • 00:40:00 In diesem Abschnitt diskutiert Jesse Engel das Magenta-Projekt und sein Ziel, kreative Agenturen durch maschinelles Lernen zu stärken. Er erklärt, dass sie positive Rückmeldungen von Musikern erhalten haben, die das Tool in ihrem kreativen Prozess hilfreich finden, anstatt es zu ersetzen. Das Magenta-Team konzentriert sich auf die Schaffung eines breiteren Ökosystems, einschließlich einer Webschnittstelle für Trainingsmodelle, Bereitstellung für Web-Apps und Echtzeit-Plug-Ins für Musiksoftware. Engel merkt an, dass das System interaktiver, echtzeitfähiger und anpassungsfähiger ist, aber in Bezug auf Expressivität und verschiedene interaktive Modelle noch Raum für Verbesserungen besteht. Das Team untersucht unüberwachte Modelle, um die Struktur und Bezeichnungen aus Daten zu lernen. Auf ihrer Website stehen mehrere Demos, Software und professionelle Tools zur Verfügung, die jeder ausprobieren kann.

  • 00:45:00 In diesem Abschnitt erklärt Jesse Engel, dass das Erstellen von maschinellen Lernsystemen, die schöne Fehler produzieren, eine Möglichkeit ist, über die Erstellung von Systemen nachzudenken, die Künstler verwenden können. Zum Beispiel erwiesen sich die Einschränkungen, die in die ursprünglichen Drumcomputer eingebaut wurden, als ihr bestimmendes Merkmal, das Hip-Hop- und Elektronikmusiker dazu veranlasste, die Sounds auf unterhaltsame und künstlerische Weise zu verwenden. Darüber hinaus erörtert Engel die Beziehung zwischen Interpretierbarkeit und Interaktivität und schlägt vor, dass die Sprache und Annahmen, die von maschinellen Lernmodellen verwendet werden, die Lösung für die Erstellung von APIs sein könnten, die als Vermittler zwischen der Software und dem Benutzer für maximale Interpretierbarkeit fungieren.

  • 00:50:00 In diesem Abschnitt des Videos erörtert Jesse Engel die Herausforderungen beim Erzwingen einer Struktur für die Verallgemeinerung beim Entwerfen von Modellen, die für die Zielgruppe geeignet sind. Er erklärt, wie neuronale Netze die Newtonsche Mechanik in einem bestimmten Satz von Bildern emulieren können, aber Schwierigkeiten haben, zu extrapolieren, wenn sich ein Aspekt des Bildes ändert. Er geht auch darauf ein, wie faszinierend es sein kann, Modelle zu bauen, die sich an die Intensität der Musik oder die Lautstärke der Kickdrum anpassen können. Die Diskussion über die Zusammenarbeit mit Künstlern wird ebenfalls angesprochen, aber Jesse erklärt, dass dies aufgrund der Einschränkungen und ihres forschungsbasierten Fördersystems eine Herausforderung darstellt. Die Diskussion knüpft an die große Herausforderung an, aus der Verteilung und Kompositionalität in Lernmodellen herauszukommen.
 

MIT 6.S192 - Vorlesung 11: "Künstliche Biodiversität", Sofia Crespo und Feileacan McCormick



MIT 6.S192 - Vorlesung 11: "Künstliche Biodiversität", Sofia Crespo und Feileacan McCormick

In diesem Vortrag über „Künstliche Biodiversität“ erkunden Sofia Crespo und Feileacan McCormick die Schnittmenge von Technologie und Natur, um einzigartige Kunstformen zu schaffen. Das Duo diskutiert ihr Interesse und den Einsatz von maschinellem Lernen und seine Verbindung zur Schönheit und hebt die Grenzen der menschlichen Wahrnehmung hervor. Sie diskutieren auch ihre gemeinsamen Projekte, darunter "Entangled Others", in denen sie sich dafür einsetzen, sowohl einzelne Arten als auch ihre komplexen Verflechtungen darzustellen, um ein besseres Verständnis ökologischer Systeme zu schaffen. Die Referenten betonen die Bedeutung von Nachhaltigkeit und Kollaboration in der künstlerischen Praxis sowie das Verhältnis von Werkzeugen und Kunst und stellen fest, dass Algorithmen menschliche Künstler nicht ersetzen können.

  • 00:00:00 In diesem Abschnitt diskutieren Sofia Crespo und Feileacan McCormick das Konzept der künstlichen Biodiversität und gehen der Frage nach, was im Bereich des maschinellen Lernens etwas Schönes ausmacht. Das Duo überlegt, ob die Schönheit in dem Datensatz liegt, der zum Trainieren neuronaler Netze verwendet wird, im Prozess des Trainierens des Modells oder in der Interaktion zwischen Schichten virtueller Neuronen im Gehirn. Sie ziehen auch Parallelen zwischen dem Training eines neuronalen Netzwerks und Meditation, da beide das Kuratieren eines Datensatzes und das Erkunden von Mustern beinhalten. Insgesamt beleuchtet die Diskussion die Möglichkeiten, wie sich Technologie und Natur überschneiden können, um einzigartige Kunstformen hervorzubringen.

  • 00:05:00 In diesem Abschnitt spricht Sofia Crespo über ihre Faszination für Quallen und die Grenzen der menschlichen Farbwahrnehmung. Sie erklärt, dass ihr Interesse an Quallen sie dazu veranlasste, synthetische Quallen durch maschinelle Lernalgorithmen zu erforschen. Sie geht der Frage nach, was uns künstliche neuronale Netze über unsere kognitiven Prozesse und das Konzept der „Naturalität“ lehren und wie man es visualisieren kann. Crespo diskutiert auch den Artikel von Aaron Hertzmann über visuelle Unbestimmtheit in der Gan-Kunst, der untersucht, wie bedeutungsvolle visuelle Reize visuell unbestimmt sein und kognitive Reaktionen auslösen können.

  • 00:10:00 In diesem Abschnitt diskutieren die Referenten ihr Interesse und ihre Verwendung von maschinellem Lernen und seine Verbindung zur Schönheit. Sie erklären, dass sie bei der Arbeit mit maschinellem Lernen in einer sehr menschlichen Sphäre arbeiten, von Menschen erstellte Datensätze verwenden und sich daher mit menschlichen visuellen Annahmen der Natur befassen. Die Redner schlagen vor, dass Technologie ein Teil der Natur ist, da der Mensch ein Teil der Natur ist, und diese Vorstellung, dass Technologie eine von der Natur getrennte Einheit ist, ist fehlerhaft. Darüber hinaus diskutieren die Referenten die Definition von künstlichem Leben und betonen, dass es in verschiedenen Disziplinen wie Software, Kunst oder sogar Wetware, Hardware und Genetik verstanden werden kann. Sie verwenden Karl Sims Arbeit an weiterentwickelten künstlichen Kreaturen, um die Fähigkeit von Primitiven zu demonstrieren, lebensähnliche Qualitäten zu verkörpern, und zusammen mit ihrem Verhalten ein Gefühl von Wettbewerbsfähigkeit und zielorientiertem Handeln zu entwickeln.

  • 00:15:00 In diesem Abschnitt erfahren wir, wie künstliche neuronale Netze fantastische Kreaturen und Sprache erschaffen können, ähnlich wie der Codex Seraphinianus von Luigi Serafini. Diese Kreationen sind eine Remix-Rekombination menschlichen Wissens über Botanik, Zoologie, Sprache und Architektur. Trotz ihrer Künstlichkeit zeigen sie eine bemerkenswerte Vielfalt in der Vielfalt. Der Vortrag behandelt auch Anna Atkins, eine Fotografin und Botanikerin aus dem 19. Jahrhundert, die die Cyanotypie-Technik entwickelt hat. Der Referent kombinierte Atkins' Technik mit dem Convolutional Neural Network, um lebensechte Kreaturen zu erzeugen, die mit der Cyanotypie-Technik gedruckt wurden. Dieses Projekt heißt Artificial Natural History, ein Buch, das zeigt, wie Menschen die Natur sahen, bevor es Kameras gab.

  • 00:20:00 In diesem Abschnitt sprechen Sofia Crespo und Feileacan McCormick über ihr gemeinsames Projekt „Entangled Others“, in dem sie sich dafür einsetzen, nicht nur einzelne Arten, sondern auch ihre komplexen Verflechtungen darzustellen, um ein besseres Verständnis von Ökosystemen zu schaffen. Sie erläutern ihr erstes Projekt „Artificial Remnants“, bei dem sie 3D-Modelle von Insekten generierten und ein Augmented-Reality-Erlebnis schufen, damit Menschen mit den digitalen Kreaturen interagieren können. Der Erfolg dieses Projekts führte zu ihrer jüngsten Anstrengung, die den Aufbau eines Ökosystems und die Erforschung des abstrakten Konzepts der Existenz in einer Beziehung beinhaltete. Aufgrund von COVID-19 wurden ihre Ausstellungspläne jedoch geändert.

  • 00:25:00 In dieser Sektion diskutieren die Referenten ihr Projekt zu einer „künstlichen Biodiversität“ und wie sie sich Korallenriffen als Beispiel für die Vernetzung von Ökosystemen zuwandten. Aufgrund fehlender Daten mussten sie jedoch mit einem Künstler zusammenarbeiten, um synthetische Korallen herzustellen, um die Vielfalt der Korallenmorphologien nachzuahmen. Sie erkennen an, dass dies eine subjektive Darstellung ist, da sie das komplexe System eines Korallenriffs nicht genau widerspiegelt, uns aber dennoch an seine Qualitäten erinnert. Sie sprechen auch über den faszinierenden Aspekt, die Natur durch eine abstrakte Darstellung der Muster der Natur ins Rampenlicht zu rücken, und die Arbeit mit Biomaterialien war eine Lernherausforderung.

  • 00:30:00 In diesem Abschnitt erörtern die Redner, wie sie sich bemüht haben, der Nachhaltigkeit Priorität einzuräumen, indem sie mit einem Studio zusammengearbeitet haben, das sich auf die Herstellung von Biokunststoff aus weggeworfenen Olivenkernen spezialisiert hat. Dieses Material kann geschmolzen und immer wieder neu verwendet werden, sodass sie Exponate erstellen und das Material dann für zukünftige Projekte wiederverwenden können. Sie betonen, dass es für Künstler, die mit der Natur arbeiten, entscheidend ist, nachhaltig zu denken und die physischen Folgen digitaler Schichten zu berücksichtigen, insbesondere durch den Einsatz von maschinellem Lernen in der künstlerischen Praxis. Sie betonen auch die Bedeutung von Zusammenarbeit und interdisziplinären Interaktionen, um Verbindungen zu stärken und neue zu schaffen, was dazu führte, dass sie einen offenen Aufruf an andere richteten, sich an sie für Zusammenarbeit, Gespräche und mehr zu wenden. Die Diskussion berührt auch die Philosophie und verweist auf Plato und Deleuze und Guattari.

  • 00:35:00 In diesem Abschnitt diskutieren die Künstlerinnen Sofia Crespo und Feileacan McCormick die Beziehung zwischen Werkzeugen und Kunst. Sie erklären, dass digitale Werkzeuge ebenso wie ein Bleistift formende Eigenschaften haben. Sie sprechen auch darüber, wie wichtig es ist, beim Schaffen generativer und digitaler Kunst die künstlerische Perspektive nicht zu vergessen, und warum es notwendig ist, nicht nur die technischen Lösungen, sondern auch das Warum, Wie und Was zu hinterfragen. Sie erklären, dass es wichtig ist, uns daran zu erinnern, dass Kunst für den Konsum durch Menschen gemacht ist und dass Algorithmen menschliche Künstler nicht ersetzen können.
 

MIT 6.S192 - Vorlesung 12: "AI+Creativity, an Art Nerd's Perspective" von Jason Bailey



MIT 6.S192 - Vorlesung 12: "AI+Creativity, an Art Nerd's Perspective" von Jason Bailey

Jason Bailey erläutert, wie sich maschinelles Lernen auf den Kunstbereich auswirkt, von der Fälschungserkennung bis zur Preisvorhersage. Er fordert Künstler auf, sich der Vorurteile bewusst zu sein, die datengesteuerter Kunst innewohnen, und betont die Notwendigkeit von Trainingsdaten, die alle Perspektiven einschließen.

  • 00:00:00 Jason Bailey ist Dozent am MIT und wird über KI und Kreativität sprechen. Er kommt aus den Bereichen Ingenieurwesen und Marketing und bringt diese Erfahrung in seinen Vortrag über die Schnittstelle von Kunst und Technologie ein. Bailey wird sich auf drei Schlüsselbereiche konzentrieren: Kunstgeschichte, Preisvorhersage auf dem Kunstmarkt und die Verwendung von KI und ML in der kreativen Kunst.

  • 00:05:00 Jason Bailey beschreibt, wie er sich für das Problem der Fälschung in der Kunst zu interessieren begann und wie er drei Jahre damit verbrachte, großformatige Bücher zu scannen, um eine Datenbank mit sämtlichen Werken von Künstlern zu erstellen. Er spricht darüber, wie selten und schwer zu finden diese Lebensläufe in Katalogen sind und wie kürzlich jemand eine beliebte Version für rund 2.000 US-Dollar neu aufgelegt hat.

  • 00:10:00 Jason Baileys Blog „artnome.com“ untersucht Möglichkeiten, Daten zu nutzen, um Kunst besser zu verstehen und zu kritisieren. 2017 erhielt sein Blog Aufmerksamkeit von 538, die eine Geschichte zu seinem Projekt „Ai for Art Scholarship: What Does That Look Like?“ veröffentlichten. Nachdem Bailey in seinem Vortrag Links zu seinen Projekten und Veröffentlichungen geteilt hat, bietet er eine 1-Absatz-Zusammenfassung seines Vortrags.

  • 00:15:00 Jason Bailey erörtert, wie nützlich maschinelles Lernen in der Kunstgeschichte ist, insbesondere bei der Analyse von Gemälden und dem Verständnis der Kunstgeschichte. Er spricht auch über sein jüngstes Projekt, bei dem ein maschinelles Lernmodell trainiert wurde, um ikonische Gemälde desselben Künstlers in verschiedenen Museen zu identifizieren.

  • 00:20:00 Jason Baileys Vortrag untersucht die Beziehungen zwischen Gemäldepreisen und einzelnen Pixeln, aus denen Gemälde bestehen, sowie Trends auf dem Kunstmarkt. Seine maschinelle Lernplattform konnte Preise für Gemälde des spanischen Malers Pablo Picasso mit einer Korrelation von 0,58 vorhersagen.

  • 00:25:00 Jason Bailey diskutiert den aktuellen Stand des maschinellen Lernens und seine Auswirkungen auf die Kunstwelt. Er spricht darüber, wie maschinelles Lernen verwendet wird, um realistischere und surrealere Kunst zu schaffen, und wie diese Innovation kürzlich ein neues Interesse an diesem Bereich geweckt hat.

  • 00:30:00 Jason Bailey hält einen Vortrag über künstliche Intelligenz und Kreativität und beschreibt, wie tiefes Träumen und Stiltransfer zur Schaffung von Kunst verwendet werden können. Er spricht über seine eigenen Erfahrungen mit diesen Technologien und darüber, dass sie für ihn nicht mehr so aufregend waren wie damals, als er sie zum ersten Mal entdeckte. Er beendet den Vortrag mit einer Diskussion über die Arbeit des französischen Künstlers Robbie Barrett.

  • 00:35:00 Jason Bailey hält einen Vortrag über KI und Kreativität und diskutiert, wie die traditionelle Kunstausbildung nicht ausreicht, um mit der heutigen Zeit fertig zu werden, in der KI und generative Kunst weit verbreitet sind. Er spricht darüber, wie sein künstlerischer Hintergrund es ihm ermöglicht, mit Künstlern und Förderern der generativen Kunst in Kontakt zu treten, und wie seine eigene Arbeit von diesen Künstlern beeinflusst wurde.

  • 00:40:00 Jason Bailey erörtert, wie sich Technologie und Kunst in der Vergangenheit überschnitten haben und wie Datenanalysen Künstlern helfen können, Abstraktion zu messen. Er erwähnt auch ein Projekt, an dem er beteiligt war, wo sie die Abstraktion in der Karriere eines Malers berechneten.

  • 00:45:00 Jason Bailey erklärt, wie der Algorithmus seines Teams verwendet werden kann, um die Preise von Gemälden vorherzusagen, basierend auf einer Reihe von Faktoren wie der historischen Popularität des Künstlers, der Komplexität des Gemäldes und dem im Gemälde verwendeten Material. Er merkt auch an, dass sich der Algorithmus noch in einem frühen Stadium befindet und dass weitere Forschung erforderlich ist, um ihn zu verbessern.

  • 00:50:00 In diesem Vortrag erläutert Jason Bailey, wie er Auktionsdaten verwendet, um Kreativität zu studieren, und wie er andere Bereiche wie Kunst und Natur in seine Modelle integriert hat.

  • 00:55:00 Jason Bailey erörtert die Auswirkungen von KI auf die Kreativität und betont die Notwendigkeit von Trainingsdaten, die alle Perspektiven einbeziehen. Er diskutiert auch die möglichen Folgen von voreingenommenen KI-Algorithmen. Schließlich fordert er Künstler auf, sich der Vorurteile bewusst zu sein, die datengesteuerter Kunst innewohnen.
 

MIT 6.S192 - Vorlesung 13: "Oberflächen, Objekte, Verfahren: Integration von Lernen und Grafiken für das Verständnis von 3D-Szenen" von Jiajun Wu



MIT 6.S192 - Vorlesung 13: "Oberflächen, Objekte, Verfahren: Integration von Lernen und Grafiken für das Verständnis von 3D-Szenen" von Jiajun Wu

Jiajun Wu, Assistenzprofessor an der Stanford University, erläutert seine Forschung zum Szenenverständnis in Maschinen durch die Integration von Deep Learning und Domänenwissen aus der Computergrafik. Wu schlägt einen zweistufigen Ansatz vor, um eine 3D-Objektgeometrie aus einem einzelnen Bild wiederherzustellen, indem die sichtbare Oberfläche durch die Tiefenkarte geschätzt und die Form basierend auf Vorkenntnissen aus einem großen Datensatz anderer ähnlicher Formen vervollständigt wird. Wu schlägt auch vor, sphärische Karten als Ersatzdarstellung für Oberflächen in 3D zu verwenden, um Oberflächenmerkmale besser zu erfassen, sodass das System Formen in einer detaillierteren und glatteren Ausgabe vervollständigen kann. Darüber hinaus erörtert Wu, wie die Rekonstruktion von Formen in Formprogramme die Modellierung und Rekonstruktion erheblich verbessern kann, insbesondere für abstrakte und künstliche Objekte. Abschließend erörtert Wu, wie Domänenwissen aus der Computergrafik in maschinelles Lernen integriert werden kann, um die Formrekonstruktion, Textursynthese und das Szenenverständnis zu verbessern.

  • 00:00:00 In diesem Abschnitt des Videos erläutert Jiajun Wu, Assistenzprofessor an der Stanford University, seine Forschung zum Szenenverständnis in Maschinen durch die Integration von Deep Learning und Domänenwissen aus der Computergrafik. Durch die Nachahmung der menschlichen Wahrnehmung ist es sein Ziel, Maschinen zu bauen, die ein umfassendes Verständnis von Szenen haben, einschließlich Objektkategorien, 3D-Geometrie, physikalischen Eigenschaften und Zukunftsvorhersagen. Wus Forschung zielt auch darauf ab, die Lücke zwischen maschinellem Lernen und Kunst zu schließen, indem ein Hybridmodell geschaffen wird, das Domänenwissen aus Computergrafik mit Deep Learning integriert. Dieser Ansatz ermöglicht neue Möglichkeiten in der Bildbearbeitung und -generierung sowie Kreativität in der Anwendung von Deep Learning.

  • 00:05:00 In diesem Abschnitt des Vortrags diskutiert Jiajun Wu das Problem der Wiederherstellung einer 3D-Objektgeometrie aus einem einzelnen Bild, das als Umkehrung des klassischen Problems in der Computergrafik angesehen werden kann, ein 2D-Bild aus einer 3D-Form zu erzeugen , Textur, Beleuchtung, Material und Blickwinkel. Während ein neuronales Netzwerk trainiert werden kann, um die Aufgabe auszuführen, schlägt Wu vor, dass die Integration von Vorwissen aus der Computergrafik die Leistung, Effizienz und Verallgemeinerbarkeit verbessern könnte. Er schlägt einen zweistufigen Ansatz zur Lösung des Problems vor: erstens Schätzen der sichtbaren Oberfläche durch die Tiefenkarte und zweitens Vervollständigen der Form basierend auf Vorwissen aus einem großen Datensatz anderer ähnlicher Formen.

  • 00:10:00 In diesem Abschnitt erörtert Jiajun Wu die Bedeutung der Verwendung von Tiefe als Zwischendarstellung, um Objektoberflächen und Details in Formen zu erfassen. Durch das Trainieren eines Modells auf dem ShapeNet-Datensatz und das zufällige Abtasten von Formen daraus demonstriert Wu, dass dieser Ansatz die Genauigkeit der Ausgabe erheblich verbessert. Er räumt jedoch ein, dass die Verallgemeinerung auf Objekte, die das Modell noch nie zuvor gesehen hat, eine Herausforderung sein kann, die zu Fehlinterpretationen der Daten führt. Um dies anzugehen, schlägt Wu den Aufbau einer Differenzschicht vor, die eine 2D-Darstellung in eine 3D-Darstellung zurückprojiziert, wodurch das System einen deterministischen und vollständig differenzierbaren Prozess zur Vervollständigung von Formen bestimmen kann.

  • 00:15:00 In diesem Abschnitt erörtert der Redner die Einschränkungen bei der Verwendung einer Teiloberfläche für Objekte in 3D, insbesondere, dass viele Bereiche des 3D-Raums leer sind, was es für das Vervollständigungsnetzwerk schwierig macht, Oberflächenmerkmale zu erfassen. Um dem entgegenzuwirken, schlägt der Referent vor, sphärische Karten als Ersatzdarstellung für Oberflächen in 3D zu verwenden, wobei jedes Pixel einem Punkt auf der Oberfläche entspricht und keine Darstellung verschwendet wird. Die Pipeline nimmt eine geschätzte Tiefe und projiziert sie in eine teilweise sphärische Karte, die dann unter Verwendung eines Vervollständigungsnetzwerks in einem sphärischen Kartenraum vervollständigt werden kann. Diese neue Methode führt zu einer viel glatteren und detaillierteren Ausgabe und ist auf Objektkategorien verallgemeinerbar, die während des Trainings nicht gesehen wurden.

  • 00:20:00 In diesem Abschnitt erörtert Jiajun Wu, wie Zwischendarstellungen und Rückprojektion dazu beitragen können, ein besseres Formrekonstruktionssystem aufzubauen, das verallgemeinerbar ist. Anhand von Beispielen von Tests an Menschen und Pferden stellt Wu fest, dass das System in der Lage ist, Objekte auf relativ vernünftige Weise aus einer einzigen Ansicht zu rekonstruieren, ohne zuvor verformbare Objekte zu sehen, was darauf hindeutet, dass das System zum Bau besserer Sichtsysteme verwendet werden kann. Wu erklärt auch, wie die Zwischendarstellungen von Oberflächen und die Vorwärtsprojektion dazu beitragen können, das Rendering zu verbessern und die Synthese neuer Objektformen und -texturen mit mehr Kontrolle über die unabhängigen Faktoren zu ermöglichen.

  • 00:25:00 In diesem Abschnitt erörtert Jiajun Wu den Prozess der Kombination früherer Techniken, um sie auf Szenen auszudehnen. Erstens verwendet er Inversionssysteme, um Darstellungen der Geometrie, Pose und Texturen von Objekten zu erhalten, einschließlich latenter Darstellungen für nicht objektähnliche Hintergrundsegmente wie Bäume oder Himmel. Dann bearbeitet er diese Darstellungen, um zu sehen, wie sich verschiedene Änderungen in der Szene, wie das Heranrücken eines Autos oder das Ändern seiner Textur, auf das Gesamtbild auswirken. Wu betont, wie wichtig es ist, zu verstehen, dass Objekte eine 3D-Geometrie haben, da die Methode dadurch vollständige und genaue Ergebnisse liefern kann. Abschließend erörtert er die Herausforderung der Formabstraktion bei der Rekonstruktion künstlicher Objekte wie Tische und wie die Einbeziehung abstrakter und programmähnlicher Darstellungen zu besseren Ergebnissen führen kann.

  • 00:30:00 In diesem Abschnitt erläutert Wu, wie die Rekonstruktion von Formen in Formprogramme die Modellierung und Rekonstruktion erheblich verbessern kann, insbesondere für Objekte wie Möbel. Darüber hinaus erklärt er, wie prozedurale Strukturen wie Replikation und Symmetrie für die Inhaltserstellung genutzt werden können, beispielsweise durch einen Algorithmus, der die 3D-Projektion für die Gebäudeplanung steuern kann. Um 2D-Rohbilder und den 3D-Raum zu verbinden, ließ sich Wus Team von einer stochastischen Suche inspirieren, um Grundelemente wie Linien und Dreiecke in visuellen Daten zu erkennen, und versucht nun, Formen von 3D-Grundelementen zu synthetisieren, um die Bilderfassung zu steuern.

  • 00:35:00 In diesem Abschnitt erörtert Jiajun Wu, wie internes Lernen verwendet werden kann, um alles aus einem einzelnen Bild anhand von Bildstatistiken zu lernen, und beobachtet, dass sich innerhalb eines einzelnen Bildes Patches wiederholen können, und diese Wiederholung kann über Skalen hinweg erfolgen. Durch die Verwendung neuronaler Aktivierungen zur Identifizierung sich wiederholender Objekte in einem einzelnen Bild können die gefundenen Grundelemente Linien, Rechtecke, Kugeln oder Zylinder sein, und neuronale Netze können Merkmale lernen, um Programme auf den Schwerpunkten dieser wiederholten Objekte zu identifizieren und zu synthetisieren. Dies kann helfen, eine Reihe von Problemen zu lösen, wie z. B. Bildvervollständigung oder -extrapolation und Regelmäßigkeitsbearbeitung, um Szenen unregelmäßiger zu machen.

  • 00:40:00 In diesem Abschnitt erläutert der Sprecher, wie er sein Programm auf 3D-Bilder anwendet, die komplexer sind als eine einzelne Ebene. Das Problem besteht hier darin, das Bild in mehrere Ebenen zu unterteilen, während die Ausrichtung und die Oberflächenebenen jeder Ebene berücksichtigt werden. Der Referent schlägt vor, visuelle Hinweise wie Fluchtpunkte und Drahtgitter zu verwenden, um dies zu beheben. Drahtgittermerkmale können jedoch verrauscht sein, und es kann mehrere mögliche Partitionen der Kandidatenebene geben. Indem sie das Top-Down-Wissen ihres Programms nutzen, können sie die Kandidatenebenen zu 2D-Bildern korrigieren und eine Programmsynthese durchführen, um die richtige Aufteilung des Bildes zu finden. Dies kann ihnen dabei helfen, die besten Ergebnisse der gemeinsamen Operation und Bildsynthese zu finden, was herkömmliche Methoden nicht leisten können.

  • 00:45:00 In diesem Abschnitt erörterte Jiajun Wu, wie Domänenwissen aus der Computergrafik mit maschinellem Lernen integriert werden kann, um die Formrekonstruktion, Textursynthese und das Szenenverständnis zu verbessern. Wu betonte, dass das Verständnis von Szenen auf der minimalen, aber universellen kausalen Struktur hinter visuellen Daten basiert: Objekte, Oberflächen, Projektionen und Okklusionen. Durch die Integration von Lernen und maschinellem Lernen besteht laut Wu ein größeres Potenzial bei der Erstellung verbesserter 3D-Modelle, die über die traditionellen 2D-Bilder hinausgehen. Während Wu und sein Team sich nicht mit dem 3D-Druck beschäftigt haben, interessieren sie sich für die 3D-Formmodellierung und die Möglichkeit, abgeleitete Verfahren hinter diesen Modellen zu verwenden.
 

MIT 6.S192 – Vorlesung 14: „Towards Creating Endless Creative Open-Ended Innovation Engines“ von Jeff Clune



MIT 6.S192 – Vorlesung 14: „Towards Creating Endless Creative Open-Ended Innovation Engines“ von Jeff Clune

Jeff Clune, ein Forscher bei OpenAI, spricht in diesem MIT-Vortrag über seine Arbeit zur Schaffung endlos kreativer Open-End-Innovationsmaschinen. Er versucht, Algorithmen zu entwickeln, die das Rezept der natürlichen Evolution und der menschlichen Kultur erfüllen können, mit einer Reihe von Dingen zu beginnen, neue Dinge zu erzeugen, zu bewerten, um das Interessante beizubehalten, und es zu modifizieren, um die interessante Neuheit beizubehalten. Clune untersucht die Verwendung neuronaler Netze zur Erkennung neuer Dinge, spricht über den Map Elites-Algorithmus und führt Kompositionsmuster erzeugende Netzwerke für die Kodierung ein. Er zeigt, wie diese Tools kombiniert werden können, um komplexe und vielfältige Bilder zu generieren, schwierige Probleme zu lösen und offene Algorithmen zu entwickeln, die ihre Lösungen für Herausforderungen ständig erneuern können.

  • 00:00:00 In diesem Abschnitt erläutert Jeff Clune, außerordentlicher Professor für Informatik an der University of British Columbia und Leiter des Forschungsteams bei OpenAI, seine Forschung zur Schaffung endlos kreativer, offener Innovationsmaschinen. Er reflektiert seine persönliche Reise, angefangen bei der Philosophie bis hin zum Bau von Computersystemen, um die große Herausforderung der KI anzugehen. Clune ist daran interessiert, offene Algorithmen zu entwickeln, die endlos innovativ sind und in den endlosen Schöpfungen der Natur zu sehen sind, wie z. B. den komplexen Konstruktionsdesigns von Jaguaren und Falken.

  • 00:05:00 In diesem Abschnitt erörtert der Redner das Konzept der Innovationsmotoren, die er als das Rezept definiert, das sowohl von der natürlichen Evolution als auch von der menschlichen Kultur befolgt wird und es ihnen ermöglicht, kreativ zu sein. Dieses Rezept beinhaltet, mit einer Reihe von Dingen zu beginnen, etwas Neues zu generieren, zu bewerten, ob es interessant ist, und interessante Ergebnisse beizubehalten und zu modifizieren. Ziel des Referenten ist es, einen Algorithmus zu schaffen, der diesen Prozess langfristig ohne menschliches Zutun automatisch durchführen kann. Die größte Herausforderung besteht jedoch darin, die Erzeugung uninteressanter Neuheiten zu vermeiden und nur interessante Neuheiten zu erzeugen. Der Referent schlägt vor, mit neuronalen Netzen eine große Anzahl von Klassen zu erkennen, um neue Arten von Dingen zu erkennen und interessante Ergebnisse zu erzielen.

  • 00:10:00 In diesem Abschnitt diskutiert Jeff Clune einen Algorithmus namens Map Elites und seinen Platz im Bereich der algorithmischen Suche. Er erklärt, dass viele schwierige Probleme das Erforschen und Entdecken neuer Dinge erfordern, anstatt nur auf ein Ziel hin zu optimieren, und dass sich dies in Algorithmen widerspiegeln sollte. Clune und seine Kollegen haben an einem neuen Teilgebiet namens Quality Diversity Algorithms gearbeitet, das darauf abzielt, eine große, vielfältige Menge von Lösungen zu finden, die alle so gut wie möglich für diese Art von Lösung sind. Der Algorithmus versucht, zwischen den Zielen zu wechseln, wenn er bei einer anderen Aufgabe Fortschritte macht, und glaubt, dass dies der einzige Weg sein könnte, um wirklich schwierige Probleme zu lösen.

  • 00:15:00 In diesem Abschnitt beschreibt Jeff Clune, ein Forscher, der an der Schnittstelle zwischen Biologie und künstlicher Intelligenz arbeitet, den Map Elites-Algorithmus, der verwendet wird, um Lösungen nach bestimmten Kriterien zu optimieren. Clune erklärt, dass er und seine Kollegen Map Elites auf ein Robotikproblem angewendet und weiche Robotermorphologien mit einem genetischen Algorithmus erzeugt haben, was zu einer Vielzahl von Kreaturen führte. Das Team war jedoch nicht zufrieden, da es feststellte, dass alle Kreaturen fast identisch waren und der Algorithmus nur durch das Starten einer neuen Suche eine Vielfalt an Designs erzeugte. Um dies zu beheben, wendete Clune den Map Elites-Algorithmus auf dasselbe Problem an und wählte diesmal die Anzahl der Voxel und die Menge eines bestimmten Materials als interessierende Dimensionen, anstatt den kanonischen Optimierungsalgorithmus zu verwenden. Er fand heraus, dass der Algorithmus einen viel größeren Raum an Möglichkeiten erkundete und letztendlich viel bessere Ergebnisse lieferte. Darüber hinaus beschrieb Clune in einem späteren Abschnitt, wie wichtig die von ihnen verwendete Codierung, das sogenannte Compositional Pattern-Producing Network (CPPN), für die Lösung des Problems ist, an dem sie arbeiteten.

  • 00:20:00 In diesem Abschnitt des Vortrags diskutiert Jeff Clune die Wahl der Kodierung in Deep Learning und evolutionären Algorithmen. Bei der direkten Codierung wird jedes einzelne Merkmal im endgültigen Artefakt durch eine Zahl auf dem Parametervektor dargestellt, während bei der generativen Codierung Informationen im Parametervektor wiederverwendet werden, um das Endprodukt zu erzeugen, was zu regelmäßigeren oder gemusterten Produkten führt. Die Natur verwendet generative Kodierung, indem sie geometrische Muster verwendet, um das Zellschicksal zu bestimmen, d. h. den Zelltyp, zu dem jede Zelle wird, basierend auf der Position der Zelle im Körper. Dieser Ansatz gilt als Lingua Franca in der Entwicklungsbiologie, bei der bereits vorhandene Muster kombiniert werden, um neue Muster im Endprodukt zu erzeugen.

  • 00:25:00 In diesem Abschnitt erörtert Jeff Clune, ein Forscher von OpenAI, wie die Leistungsfähigkeit der Entwicklungsbiologie effizient genutzt werden kann, um offene KI-Systeme zu erstellen. Er schlägt die Verwendung von Compositional Pattern Producing Networks (CPPNs) vor, die einen Großteil der Kraft natürlicher Systeme ohne die zugrunde liegende Chemie abstrahieren, um geometrische Orte als Funktion phänotypischer Elemente zu codieren. Durch die Bereitstellung von Koordinaten für ein Artefakt zur Optimierung phänotypischer Elemente, wie z. B. eines neuronalen Netzwerks oder einer Robotermorphologie, können CPPNs durch das Mischen und Anpassen von asymmetrischen und symmetrischen und sich wiederholenden Themen eine beliebige Komplexität erzeugen. Clune und sein Team setzten diese Idee in drei Dimensionen um und bauten eine Website namens endlosforms.com, auf der Benutzer die weiterentwickelten Formen der anderen aufnehmen können, um ein wachsendes Archiv von Trittsteinen zu erstellen.

  • 00:30:00 In diesem Abschnitt des Vortrags diskutiert Jeff Clune die Verwendung von CPPNs zur Automatisierung von Designs und zum 3D-Druck beliebiger komplexer Bilder und demonstriert die Leistungsfähigkeit dieser Tools zur Beseitigung technischer Barrieren und zur einfachen Erstellung kreativer Designs. Anschließend wendet er CPPNs auf die Aufgabe an, einen offenen Algorithmus zu erstellen, und optimiert sie, um jeden der tausend Bins in ImageNet zu klassifizieren. Clune beschreibt, wie die Hypothese der besseren Leistung getestet wurde, was zu Bildern führte, die häufig wie die Kategorie aussahen, mit der sie assoziiert wurden, oder eine künstlerische Interpretation des Konzepts hervorriefen. Obwohl einige „täuschende Bilder“ generiert wurden, ermöglichte dieser Generierungsprozess dem Team, einen völlig neuen ästhetischen Raum zu erkunden und gleichzeitig die Fehler zu demonstrieren, die tiefen neuronalen Netzen innewohnen, die zu gegnerischen Bildern geführt haben.

  • 00:35:00 In diesem Abschnitt erörtert Jeff Clune die Qualitäten des von ihm und seinem Team entwickelten Diversitätsalgorithmus, der in der Lage ist, qualitativ hochwertige, vielfältige Bilder zu erzeugen. Der Algorithmus erzeugt eine Vielzahl von Bildern, von denen einige ästhetisch interessant sind und für praktische Zwecke wie Geschäftslogos verwendet werden können. Er erklärt auch, wie die Fähigkeit des Algorithmus zum Umschalten von Zielen adaptive Radiationen ermöglicht, ähnlich wie sie in der Biologie und in technischen Bereichen auftreten. Er gibt Einblick in die evolutionären Prozesse, die innerhalb des Algorithmus stattfinden, und zeigt Diagramme und phylogenetische Bäume, die die Geburt und Entwicklung innovativer Ideen demonstrieren. Darüber hinaus teilt er mit, dass der Algorithmus und seine Ergebnisse den künstlerischen Turing-Test bestanden haben und fälschlicherweise für Kunst gehalten wurden, die eher von Menschen als von KI geschaffen wurde.

  • 00:40:00 In diesem Abschnitt stellt Jeff Clune die Idee von Quality Diversity (QD)-Algorithmen vor, die vielfältige Lösungen erzeugen können, die gut funktionieren und Ziele wechseln können. Er diskutiert ihre Verwendung bei der Lösung von Herausforderungen, wie z. B. Robotern, die sich an Schäden anpassen können, und die Erforschung schwieriger Erkundungsherausforderungen wie Montezuma's Revenge und Pitfall. Er stellt fest, dass QD-Algorithmen zwar das Potenzial für Innovationen haben, aber noch nicht offen sind und durch die Umgebung eingeschränkt werden. Jeff Clune schlägt dann die Idee vor, offene Algorithmen zu entwickeln, wie den Paired Open-Ended Trailblazer (POET)-Algorithmus, der endlos interessante, komplexe und vielfältige Lernumgebungen und deren Lösungen erzeugen kann. Der POET-Algorithmus wurde entwickelt, um neue Lernumgebungen zu generieren, die weder zu einfach noch zu schwer für die aktuelle Agentenpopulation sind, Agenten zu optimieren, um jede der Herausforderungen besser zu lösen und Zielwechsel zwischen ihnen zu ermöglichen.

  • 00:45:00 In diesem Abschnitt erörtert Jeff Clune das Konzept des „Goal Switching“ – die Fähigkeit eines Systems, in einer Umgebung zu konkurrieren, Fortschritte zu machen und dann in eine andere Umgebung überzugehen. Er zeigt einen RL-Algorithmus, der Terrains durchquert, die automatisch immer schwierigere Umgebungen schaffen. Clune erklärt, dass dies eine Möglichkeit ist, den Fortschritt zu messen und lokale Optima zu überwinden. Er stellt den „Poet“-Algorithmus vor und zeigt, dass er der einzige Weg ist, schwierige Probleme zu lösen. Er zeigt, dass Poesie wesentlich ist, um lokale Optima zu überwinden, wie in einer Aufgabe zu sehen ist, bei der ein neu optimierter Roboter in eine alte Umgebung eindringt und die vorherige Inkarnation ersetzt. Clune merkt an, dass diese Art von komplexer Innovation den Weg für fortschrittlichere Simulationen ebnen könnte.

  • 00:50:00 In diesem Abschnitt des Vortrags diskutiert Jeff Clune das Potenzial der Kombination von Körperoptimierung und Umgebungsgenerierung, um Kreaturen zu erschaffen, die für bestimmte Umgebungen optimiert sind, so wie es Höhlenspinnen sind. Er schlägt auch vor, Innovationsmaschinen wie Dali mit Algorithmen zu kombinieren, die die Herausforderung und Lösung erfinden und dann entdecken, was in den produzierten Bildern, Videos, Musik oder Gedichten interessant neu ist. Clune erwähnt, dass sein Forschungsteam auch die Neurowissenschaften erforscht hat, ein Gebiet, das untersucht, wie viel tiefe neuronale Netze von den Bildern verstehen, die sie klassifizieren. Sie taten dies, indem sie Bilder synthetisierten, die bestimmte Neuronen maximal aktivieren, und konnten die Vorstellung eines fünfbeinigen Seesterns im Netzwerk untersuchen.

  • 00:55:00 In diesem Abschnitt des Vortrags diskutiert Jeff Clune die Entwicklung der Deep-Learning-Bilderzeugung vom Hinzufügen von Einschränkungen zur natürlichen Bilderzeugung bis hin zur Verwendung von Deep Learning zum Erlernen der natürlichen Bildprioritäten. Mit geringfügigen Änderungen an den Algorithmen werden von jedem Generator völlig unterschiedliche künstlerische Stile erzeugt. Neuronale Netze verstehen, was jedes Objekt in einem bestimmten Raum bedeutet, wie z. B. dem Raum natürlicher Bilder, und können Bilder mit einer höheren fotorealistischen Qualität erzeugen. In diesen natürlichen Bildräumen wird jedoch wenig Diversität erzeugt. Um dieses Problem zu lösen, wurden generative Plug-and-Play-Netzwerke eingeführt, die ein viel breiteres Spektrum unterschiedlicher Bilder erzeugen, als es zuvor beim Deep Learning der Fall war.

  • 01:00:00 In diesem Abschnitt des Vortrags diskutiert Jeff Clune die Fortschritte in der KI-Neurowissenschaft und die Schaffung offener kreativer Prozesse. Er hebt hervor, wie KI Konzepte in unserer Welt wie Vulkane oder einen Rasenmäher erkennen und lernen kann, aber anfällig dafür ist, gegnerische Bilder zu produzieren und zu erkennen. Clune empfiehlt die Arbeit von Chris Ola und spricht über die Arbeit seines Teams bei der Erforschung verschiedener Modi wie Sprache und Video. Er teilt auch seine Begeisterung über die erzielten Fortschritte und das zukünftige Potenzial auf diesem Gebiet, einschließlich der Generierung synthetischer Bilder, die Neuronen in einem echten Affengehirn aktivieren. Clune schlägt vor, dass die Wissenschaft oft ästhetische Artefakte produziert und wie moderne Werkzeuge des maschinellen Lernens die Verschmelzung von Kunst und Wissenschaft ermöglichen. Abschließend empfiehlt er die Lektüre der Werke von Ken Stanley und Joel Lehman für Studenten, die daran interessiert sind, sich der Mission anzuschließen, endlos kreative Prozesse mit offenem Ende zu schaffen.

  • 01:05:00 In diesem Abschnitt erklärt Jeff Clune, dass offene Algorithmen das Potenzial haben, Fortschritte in der künstlichen allgemeinen Intelligenz zu unterstützen. Er empfiehlt die Lektüre seines Papers AI Generating Algorithms, in dem untersucht wird, wie diese Algorithmen der Weg zur Erzeugung allgemeiner KI sein könnten. Jeff ermutigt die Forscher auch, diese Ideen in verschiedenen Bereichen anzuwenden und dafür Tools wie GPT-3 oder Dolly zu verwenden. Er schlägt vor, dass die Erforschung niedrig hängender Früchte in verschiedenen Bereichen wie Poesie oder Architektur zu aufregenden Fortschritten führen könnte. Jeff geht auch auf Josephs Frage zur Verwendung des Poet-Algorithmus in einer Umgebung mit mehreren Agenten ein und erörtert die Herausforderungen, die auftreten, wie z. B. die Schwierigkeit, die Leistung von Agenten in einer solchen Umgebung zu messen.
 

MIT 6.S192 - Vorlesung 15: "Creative-Networks" von Joel Simon



MIT 6.S192 - Vorlesung 15: "Creative-Networks" von Joel Simon

In diesem Vortrag untersucht Joel Simon seine Inspirationen und Ansätze für kreative Netzwerke, die aus natürlichen Ökosystemen schöpfen. Er demonstriert das Potenzial von Computerfähigkeiten im kreativen Prozess und beschreibt, wie Techniken wie Topologieoptimierung, Morphogene und evolutionäre Algorithmen die Entstehung unglaublicher Formen und Texturen ermöglichen können. Simon teilt auch Details über sein GANBreeder-Projekt mit, ein Online-Tool zum Entdecken und Mutieren von Bildern mit einem CPPN und einem GAN, und diskutiert das Potenzial von Cross-Recommendation-Systemen im kreativen Prozess. Simon ist optimistisch in Bezug auf die Zukunft von Technologie und Kreativität und glaubt, dass Menschen zusammenarbeiten und die Funktionen von Gebäuden optimieren und etwas Größeres schaffen können.

  • 00:00:00 In diesem Abschnitt erläutert Joel Simon seinen Hintergrund und seine Inspirationen für seine kreative Netzwerkarbeit. Er hebt Brian Enos Kritik am Begriff des einsamen Genies hervor und beschreibt, wie Kreativität als ein entstehendes Produkt der Zusammenarbeit verschiedener Kräfte quantifiziert werden kann. Simon spricht auch über seinen Weg zur Bildhauerei, der ihn dazu brachte, rechnergestützte Gestaltungsmethoden zu lernen und zu erforschen, wobei er den Unterschied zwischen digital und rechnerisch betont.

  • 00:05:00 In diesem Abschnitt beschreibt Joel Simon seine Inspiration für seine Arbeit im Bereich Computational Design und Topologieoptimierung, die er während seiner Studienzeit entdeckte. Fasziniert von der Fähigkeit der Topologieoptimierung, neue Formen zu erzeugen, die im traditionellen Sinne nie hätten geschaffen werden können, versuchte Simon, ihr Potenzial weiter zu erforschen. Er erkannte jedoch, dass er über einfache Optimierungstechniken hinausgehen und Elemente der realen Natur wie Adaptivität und Umgebung integrieren musste, die es einem Gebäude ermöglichen könnten, wie ein Baum zu wachsen, was ihn dazu veranlasste, Experimente zur generativen Architektur durchzuführen. Seine Arbeit basierte nicht nur auf architektonischem Design, sondern verwendete auch Methoden der Graphensimulation und entwickelte virtuelle Kreaturen als Inspiration für erhöhte Komplexität und Innovation im Computational Design.

  • 00:10:00 In diesem Abschnitt erörtert der Referent die Verwendung von Musterinformationen und Morphogenen im Wachstumsprozess, insbesondere im Hinblick auf die Reaktionsdiffusion. Er erklärt, dass diese Muster in der Kunst verwendet werden können, um Texturen zu erzeugen, und diskutiert Jeffs CPPNs, die verwendet werden, um ein einfaches Netzwerk von Position zu Farbe abzubilden und es in ein Bild umzuwandeln. Um diese Wachstumsideen weiterzuentwickeln, hat der Redner das Projekt „Evolving Alien Corals“ ins Leben gerufen, das Morphogene über Scheitelpunkte eines 3D-Netzes hinweg verwendet, um die Richtung zu steuern, in der sich die Scheitelpunkte bewegen und emittieren. Dies ermöglichte zusammengesetzte Effekte, die zu unglaublichen Formen führten. Die Farben der Korallen sind die Morphogene, die optimiert werden und nicht nur hübsche Muster erzeugen. Dieses Projekt zeigt auch die Idee, mit Kräften oder Zielen formen zu können, um Formen voranzutreiben, wobei die Form der Fitnessfunktion folgt. Der Referent geht auch kurz auf die Idee von Ökosystemen und die Intermediärstörungshypothese ein, bei der die optimale Diversität mit einem mittleren Störungsbetrag erreicht wird.

  • 00:15:00 In diesem Abschnitt spricht Joel Simon über seine Faszination für kreative Netzwerke, die aus natürlichen Ökosystemen schöpfen, und untersucht, wie diese Landschaften zum Formen und Manipulieren von Mustern förderlich sind. Er stellt die Frage, wie ein ökologischer Kollaps aussehen würde oder wie sich Störungen wie invasive Arten oder das Zusammenwachsen verschiedener Inseln auf das Ökosystem auswirken würden. Simon wurde von der Keilschrift und der Idee der Kalligrafie als Lösung für ein multiobjektives Problem inspiriert. Um mit verschiedenen Methoden zu experimentieren, erstellte Simon eine benutzerdefinierte neuronale Architektur, die eine Mustererkennung für die Kommunikation über ein lautes Medium generierte, wobei jede Form erkennbar und voneinander unterscheidbar war, was zur Entstehung verschiedener Sprachen führte. Später modifizierte er dieses System, um sowohl kooperativ als auch konfrontativ zu sein, und produzierte einzigartige Kalligraphie-Sets, die einander ähneln, aber auf unterschiedliche Weise funktional bleiben.

  • 00:20:00 In diesem Abschnitt diskutiert Joel Simon einige seiner generativen Kunstprojekte, die von verschiedenen Quellen wie Matisse' Selbstporträts und dem Spiel des Lebens von Conways inspiriert wurden. Er schuf Porträts mit genetischen Algorithmen und erforschte das Konzept einer generativen Architektur für künstliches Leben. Simon spricht auch darüber, wie er vom Pick-Breeder-Projekt inspiriert wurde, bei dem ein neuronales Netzwerk verwendet wurde, um Bilder von Kreaturen zu erzeugen, die dann selektiv gezüchtet wurden, um neue und interessante Designs zu erstellen.

  • 00:25:00 In diesem Abschnitt erörtert der Redner seine Inspiration für die Erstellung von GANBreeder, einem Online-Tool zum Entdecken und Mutieren von Bildern mit einem CPPN und einem GAN. Er war von der Idee inspiriert, dass Größe nicht planbar ist, und fasziniert von dem angeborenen Interesse an Menschen, das dazu beitragen könnte, die in diesem Tool verwendeten Algorithmen zu erweitern. Er taucht tiefer in GANs ein und erkennt, dass latente Vektoren von GANs die notwendige Eigenschaft haben, um für Crossover verwendet zu werden, was es ermöglicht, dass Bilder von Kindern beiden Elternteilen ähneln. Der Redner spricht über die verschiedenen Arten von Kreativität und erklärt, dass sein Werkzeug eine kombinatorische Sache war, bei der er BigGAN mit Picbreeder kombinierte, um GANBreeder zu erstellen. Er erörtert auch die drei Möglichkeiten, wie GANBreeder es Benutzern ermöglicht, Bilder zu erstellen, nämlich zufällige Kinder zu bekommen, zwei Bilder miteinander zu mischen und die Gene eines Bildes zu bearbeiten.

  • 00:30:00 In diesem Abschnitt des Vortrags diskutiert Joel Simon den kreativen Prozess in Form von Erkundungsphasen, die von ergebnisoffen bis absichtlich mit einem Gradienten dazwischen reichen. Biologische Parallelen werden erwähnt, wie z. B. asexuelle Fortpflanzung, sexuelle Fortpflanzung und Crispr, als verschiedene Arten, Bilder zu erstellen und zu machen. Simon liefert dann ein Beispiel für ein Bild, das er gemacht hat, zusammen mit den Genen, aus denen es besteht, und betont die Bedeutung der interaktiven, kollaborativen Erforschung, da Menschen nicht in 128 Dimensionen denken können. Simon schließt mit der Idee, dass ArtBreeder als Werkzeug zum Finden von Ideen und Inspiration verwendet werden kann, und erwähnt eine neue Funktion, die es Benutzern ermöglicht, ihre eigenen Gene zu erstellen, die für diejenigen relevant sind, die sich für maschinelles Lernen interessieren.

  • 00:35:00 In diesem Abschnitt beschreibt Simon, wie sein Projekt Ganbreeder das Crowd-Source-Ökosystem zum Markieren von Bildern nutzt. Durch das Sammeln von Proben einer subtilen Eigenschaft in Bildern können Benutzer diese in ein Werkzeug oder einen Filter verwandeln, mit dem leistungsfähigere Gene erstellt werden können. Das Projekt begann mit einem einfachen Bildraster mit der Aufforderung, welches Bild am interessantesten ist. Benutzer haben Ganbreeder jedoch auf unerwartete Weise verwendet, z. B. beim Hochladen von Fotos zum Kolorieren historischer Figuren, beim Anfertigen von Kleidern oder sogar beim Übermalen von Charakteren. Simon betont, dass das Experiment eigentlich die Schnittstelle war, nicht das Gan, da die beiden wirklich zusammenpassen mussten, damit es funktionierte.

  • 00:40:00 In diesem Abschnitt des Videos erörtert Joel Simon die potenzielle Leistungsfähigkeit der Erstellung eines Cross-Empfehlungssystem-Tools, das latente Variationsdimensionen nutzt, die derzeit nicht in bestehenden Empfehlungsmaschinen verwendet werden. Er führt das Beispiel an, dass er bei der Arbeit nicht feststellen kann, ob Texte in Songs vorhanden sind oder nicht, und schlägt vor, dass Empfehlungsmaschinen Benutzern wie ihm helfen könnten, ein Tool zu erstellen, das diese Variationsdimensionen berücksichtigt, sie könnten viel stärkere Empfehlungen abgeben . Simon untersucht auch die Idee des Eigentums und der Zusammenarbeit bei kreativen Werkzeugen und beschreibt eine von ihm kuratierte interaktive Kunstausstellung, bei der niemand die Kunst „besaß“, weil sie von vielen Menschen gemeinsam geschaffen wurde.

  • 00:45:00 In diesem Abschnitt diskutiert Joel Simon die Grenzen des menschlichen Denkens im Gegensatz zum Potenzial von Rechenfähigkeiten im kreativen Prozess. Menschen haben bestimmte Vorurteile in unserem Denken, einschließlich des Denkens in klaren Hierarchien, des Habens von Routinen und des Nichtdenkens in komplexen Überschneidungen. Simon diskutiert, wie die Erleichterung von Zusammenarbeit, Erforschung, das Zulassen neuer Medien und Metaphern zu neuen kreativen Prozessen führen kann. Dialoge zwischen einem Kreativdirektor und einem Künstler sind in diesem Prozess unerlässlich, wobei der Direktor die Kreativität des Künstlers leitet. Simon ist optimistisch in Bezug auf die Zukunft von Computer und Kreativität und glaubt, dass es personengesteuert sein wird, das Tool zu verwenden, um neue Kunstwerke zu erstellen, die wir mit anderen Menschen teilen, anstatt Künstler und Kreative zu ersetzen.

  • 00:50:00 In diesem Abschnitt diskutiert Joel Simon Kreativität und das Missverständnis, dass technologische Fortschritte Künstler ersetzen werden. Er glaubt, dass solche Fortschritte den kreativen Ausdruck für alle nur zugänglicher machen, und erklärt, dass Kreativität ein angeborenes menschliches Bedürfnis und ein Selbstzweck ist. Abschließend schlägt Simon ein morphogenetisches Designkonzept vor, das den natürlichen Züchtungsprozess anpasst und Biomimikry nutzt, um kollaborative Prozesse für das Design zu schaffen, die über die menschlichen kognitiven Fähigkeiten hinausgehen. Er betont, dass der Mensch Teil eines größeren kreativen Bindegewebes ist und die Inspiration für Projekte aus diesem größeren System gewonnen wird.

  • 00:55:00 In diesem Abschnitt spricht Joel Simon über seine optimistische Sicht auf die Zukunft der Technologie beim Aufbau eines Ökosystems von Gebäuden, die als komplexes Ökosystem harmonisch zusammenwirken. Er glaubt, dass Menschen mit neuen Metaphern und Techniken zusammenarbeiten und die Funktionen dieser Gebäude auf eine unvorstellbare Weise optimieren können. Während Technologie ihre Vor- und Nachteile hat, bietet Simons positiver Ausblick auf den Dialog zwischen Maschinen und Menschen einen Einblick in eine Zukunft, in der Technologie Menschen zusammenbringen kann, um etwas Größeres zu schaffen.
 

MIT 6.S192 - Vorlesung 16: "Menschliche visuelle Wahrnehmung von Kunst als Berechnung" Aaron Hertzmann



MIT 6.S192 - Lec. 16: "Menschliche visuelle Wahrnehmung von Kunst als Berechnung" Aaron Hertzmann

Der Vortrag untersucht die wahrgenommene Ambiguität und Unbestimmtheit in der Kunst und die Verwendung von Generative Adversarial Networks (GANs) bei der Schaffung mehrdeutiger Bilder. Es diskutiert den Einfluss der Betrachtungsdauer auf die Wahrnehmung und die Beziehung zwischen Bildentropie und menschlichen Vorlieben. Der Dozent schlägt eine Evolutionstheorie der Kunst vor, in der Kunst von Akteuren geschaffen wird, die zu sozialen Beziehungen fähig sind. Auch der Einsatz von KI in der Kunst wird diskutiert, mit dem Schluss, dass Algorithmen zwar nützliche Werkzeuge sein können, menschliche Künstler aber nicht ersetzen können. Der Vortrag schließt mit einigen Bemerkungen zu Begriffen wie Wert.

  • 00:00:00 In diesem Abschnitt diskutiert der Redner die Mehrdeutigkeit und Unbestimmtheit der Wahrnehmung, die wichtige Themen in der modernen Kunst sind. Er erklärt, dass Bilder mit unterschiedlichen Interpretationen dazu führen können, dass sich die Betrachtungsdauer ändert, und dass sie zwischen verschiedenen Wahrnehmungen hin und her wechseln können, was sich auf die Entscheidungen auswirkt, die Einzelpersonen treffen. Visuelle Unbestimmtheit ist ein Begriff, der verwendet wird, um Bilder zu beschreiben, die eine einfache kohärente Interpretation zu ergeben scheinen, sich aber nicht in einer kohärenten Form auflösen lassen, und dieses Thema wurde in der Neuzeit populär, insbesondere mit dem Kubismus. Die Psychologieliteratur hat die Wahrnehmungsmehrdeutigkeit und Möglichkeiten zur Beschreibung dieses Raums der Mehrdeutigkeit diskutiert und untersucht, aber es war schwierig, vergleichbare Stimuli zu finden und Mehrdeutigkeit zu messen, bis in den letzten Jahren generative Gegner auftauchten.

  • 00:05:00 In diesem Abschnitt erörtert der Redner die Verwendung von GANs beim Schaffen von Kunst und die natürliche visuelle Mehrdeutigkeit, die diese Art von Bildern aufweisen kann. Das Team verwendete diese Bilder in einer Studie, in der den Teilnehmern für kurze Zeit ein Bild gezeigt und gebeten wurde, es zu beschreiben. Die Ergebnisse zeigten, dass Bilder mit einem höheren Maß an Wahrnehmungsunsicherheit und Mehrdeutigkeit zu einer größeren Bandbreite an Beschreibungen der Teilnehmer führten. Darüber hinaus wirkte sich die Dauer des Betrachtungszeitraums auf die Anzahl und Vielfalt der Wörter aus, die zur Beschreibung eines Bildes verwendet werden, wobei die Teilnehmer bei längerer Exposition zu kohärenteren Interpretationen übergingen.

  • 00:10:00 In diesem Abschnitt diskutiert der Dozent die Beziehung zwischen Bildentropie und menschlichen Vorlieben für mehrdeutige Bilder. Das Team fand heraus, dass es zwei Kategorien von Benutzern gibt, von denen die eine Bilder mit niedriger Entropie und die andere Bilder mit hoher Entropie bevorzugt. Das Gruppieren von Benutzern in diese Kategorien war jedoch nur bei der Vorhersage von Vorlieben für bestimmte Arten von Bildern erfolgreich und erfordert eine stärkere Verarbeitung natürlicher Sprache, um die richtigen Informationen zu extrahieren. Weiter geht es mit der Definition von Kunst und der Frage, ob Computer Kunst schaffen können. Die derzeitige Definition von Kunst erweist sich als unzureichend, da sie nicht verallgemeinert, um neue Kunstformen zu berücksichtigen, wie sie möglicherweise von Außerirdischen geschaffen werden. Stattdessen schlägt der Redner eine Evolutionstheorie der Kunst vor, wonach Kunst von Akteuren geschaffen wird, die zu sozialen Beziehungen und damit zu sozialer Aktivität fähig sind. Dies führt zu dem Schluss, dass Computer Künstler sein können, aber dieser Dialog ist fehlgeleitet, da er Laien ein falsches Verständnis vermitteln kann.

  • 00:15:00 In diesem Abschnitt erörtert der Referent die Verwendung von Ideen aus der Computertechnik, um die menschliche Wahrnehmung von Kunst und die Art und Weise ihrer Herstellung zu verstehen. Er argumentiert, dass Computer keine Künstler sein können, bis sie Persönlichkeit oder eine soziale Beziehung besitzen. Computer sind jedoch leistungsstarke Werkzeuge für die künstlerische Kreativität und bieten neue Werkzeuge für das künstlerische Schaffen. Der Redner widerlegt auch die Vorstellung, dass KI-Kunst ihren Wert verlieren wird, wenn sie zugänglicher wird, und weist darauf hin, dass die besten KI-Künstler mit Codierung experimentieren und Ergebnisse sorgfältig auswählen.

  • 00:20:00 In diesem Abschnitt diskutiert Hertzmann den Einsatz künstlicher Intelligenz (KI) in der Kunst und stellt die Frage, ob Maschinen, die Kunst auf der Grundlage menschlicher Vorlieben erzeugen können, als Künstler angesehen werden können. Er argumentiert, dass aktuelle KI-Algorithmen einfach Anweisungen folgen und nicht die Kreativität eines menschlichen Künstlers besitzen. Er ist jedoch begeistert von dem Potenzial von Algorithmen, den künstlerischen Prozess und die künstlerischen Vorlieben zu modellieren, wodurch sie nützliche Werkzeuge bei der Schaffung und Kuratierung von Kunst sein können. Letztlich glaubt Hertzmann nicht, dass Algorithmen menschliche Künstler ersetzen können, da Kunst ein Produkt von Kultur und Zeit ist.

  • 00:25:00 In diesem Abschnitt werden nach einer Diskussion über Konzepte wie Wert einige abschließende Bemerkungen gemacht. Es werden keine wesentlichen Informationen zu diesen Konzepten oder neuen Diskussionsthemen bereitgestellt. Dem Referenten sei für einen aufschlussreichen und inspirierenden Vortrag gedankt.
 

MIT 6.S192 - Vorlesung 17: "Using AI in the service of graphic design" von Zoya Bylinskii



MIT 6.S192 - Vorlesung 17: "Using AI in the service of graphic design" von Zoya Bylinskii

Zoya Bylinskii, Research Scientist bei Adobe, untersucht in diesem Vortrag die Schnittmenge von Grafikdesign und künstlicher Intelligenz (KI). Bylinskii betont, dass KI Designer eher unterstützen als ersetzen soll, indem sie mühsame Aufgaben automatisiert und Designvariationen generiert. Bylinskii gibt Beispiele für KI-unterstützte Tools, einschließlich interaktiver Designtools und KI-generierter Symbolideen. Bylinskii erörtert auch die Herausforderungen und Potenziale bei der Anwendung von KI im Grafikdesign, einschließlich der Notwendigkeit kreativen Denkens, der Kuration und der Zusammenarbeit mit Fachleuten aus verschiedenen Bereichen. Sie berät Kandidaten, die sich für KI und maschinelles Lernen für Grafikdesign interessieren, um Projekterfahrung zu präsentieren und Forschungsmöglichkeiten zu verfolgen.

  • 00:00:00 In diesem Abschnitt erklärt Zoya Bylinskii, Forschungswissenschaftlerin bei Adobe, wie KI im Dienste des Grafikdesigns eingesetzt werden kann. Bylinskii spricht über die Schnittmenge von Grafikdesign und KI und wie vielfältige stilistische Formen von Grafikdesign in Computermodule dekonstruiert werden können, aus denen gelernt und die automatisiert werden können. Sie betont, dass KI Designer nicht ersetzen soll, sondern Designer mit Automatisierung für langwierige Aufgaben und schnelle Erkundung befähigen soll, Designvarianten automatisch zu generieren, während der Designer im Mittelpunkt des Designprozesses und der Kuration steht. Bylinskii nennt zwei Beispiele für diese Ziele: Größenänderung und Layout eines Designs für unterschiedliche Formfaktoren und Seitenverhältnisse und das Durchlaufen vieler möglicher visueller Darstellungen beim Erstellen eines Symbols, Logos oder eines ähnlichen Designobjekts.

  • 00:05:00 In diesem Abschnitt erläutert Zoya Bylinskii, wie Designautomatisierung die Geschwindigkeit des Designprozesses erhöhen kann, indem Langeweile minimiert und ein effizienterer Iterationsprozess ermöglicht wird. Bylinskii erklärt weiter, wie maschinelles Lernen die visuelle Bedeutung im Design vorhersagen kann, wodurch eine effektivere Anleitung für Grafikdesigner geschaffen wird, indem gelernt wird, was in verschiedenen Designs visuell auffällig und aufmerksamkeitsstark ist. Durch die Verwendung eines Anmerkungswerkzeugs kuratierten Bylinskii und ihre Kollegen einen Datensatz mit tausend Bild-Anmerkungs-Paaren, um ihr Modell auf dieses Bedeutungskonzept zu trainieren, das Klassifizierungsmodule verwendete, um die auffälligsten Bereiche eines Designs zum Testzeitpunkt vorherzusagen und Designer weiterzuleiten wo andere Designelemente platziert werden sollen.

  • 00:10:00 In diesem Abschnitt diskutiert Zoya Bylinskii zwei Anwendungen für den Einsatz künstlicher Intelligenz (KI) im Grafikdesign. Die erste Anwendung umfasst ein interaktives Designtool, das ein kleines neuronales Netzwerk verwendet, um die vorhergesagte Wichtigkeit verschiedener Designelemente in Echtzeit kontinuierlich neu zu berechnen. Das Tool verfügt auch über ein Histogramm und ermöglicht es Benutzern, die Wichtigkeitsstufe jedes Elements anzupassen, um das Design zu manipulieren. Die zweite Anwendung umfasst die Ideenfindung für die Symbolgenerierung, bei der KI verwendet wird, um neue Symbole zu erstellen, die gängigen visuellen Konzepten entsprechen. Bylinskii erklärt, dass diese beiden Anwendungen vielversprechende neue Richtungen für die Verwendung von Wichtigkeitsmodellen in KI-unterstützten Grafikdesign-Tools bieten.

  • 00:15:00 In diesem Abschnitt erläutert der Redner die Herausforderung, der Designer gegenüberstehen, wenn sie versuchen, eine neue Ikonografie für ein Konzept zu schaffen, das keine bestehenden Symbole hat, wie z. B. die Sushi-Lieferung. Dieser Prozess erfordert manuelle Arbeit, die Suche nach verwandten Konzepten zur Inspiration sowie die Neukombination und Bearbeitung bestehender Symbole. Um diesen Prozess zu vereinfachen, stellt der Referent eine neue KI-gesteuerte Pipeline für die Generierung zusammengesetzter Symbole vor. Dieses System kombiniert Raum, Stil und Semantik, um zusammengesetzte Symbole zu erzeugen, die stilistisch kompatibel und semantisch relevant für das abgefragte Konzept sind. Die KI-gesteuerte Pipeline umfasst das Aufschlüsseln der Abfrage in verwandte Wörter, das Finden stilistisch kompatibler Symbole und deren Kombination, um die gewünschte Botschaft zu vermitteln.

  • 00:20:00 In diesem Abschnitt bespricht Bylinskii ein Projekt namens Iconate, das KI verwendet, um kompatible Symbolkombinationen und Layouts für die Erstellung neuer Designs vorzuschlagen. Das System lernt einen Einbettungsraum, um stilistisch kompatible Symbole vorzuschlagen, und einen vorlagenbasierten Ansatz, um das Layout für die konstituierenden Symbole zu definieren. Iconate wurde mit dem CompyCon1k-Datensatz von 1.000 zusammengesetzten Symbolen mit annotierten Einzelkomponenten trainiert. Bylinskii erklärt, dass das System es Benutzern ermöglicht, zusammengesetzte Symbole viel schneller zu erstellen als mit eigenständigen Design-Tools, und es könnte verwendet werden, um schnell Symbole für jedes Konzept zu erstellen, das einem Benutzer einfällt. Sie hebt auch andere KI-gestützte Designwerkzeuge hervor, wie Logosynthese und Layoutverfeinerungssysteme, die darauf abzielen, den Designprozess zu erleichtern, anstatt die Kreativität des Menschen zu ersetzen.

  • 00:25:00 In diesem Abschnitt erörtert der Referent die Verwendung von KI bei der Erstellung von Infografiken, einschließlich Text, Statistiken und kleinen Visualisierungen. Sie weist auch darauf hin, dass diese Arbeit über verschiedene Gemeinschaften und Konferenzen verteilt ist, und liefert Beispiele aus der Computervision, wie z. B. das Generieren von GUI-Designs mit GANs. Sie stellt fest, dass viele Ressourcen verfügbar sind, darunter Datensätze für computergestütztes Grafikdesign und Kreativität, und erwähnt kurz den Behance Artistic Media Data Set und den Automatic Understanding of Image and Video Advertisements Data Set.

  • 00:30:00 In diesem Abschnitt erörtert der Referent die verfügbaren Modelle und Tools zur Automatisierung von Komponenten innerhalb des Design-Workflows und stellt fest, dass viele der automatischen Tools nicht sehr kreativ sind, aber noch viel Potenzial für zukünftige Entdeckungen in der Bereich automatisierter und dennoch hochkreativer Arbeitsabläufe. Sie ermutigt die Studierenden, diesen Raum selbst zu erkunden und interdisziplinäre Gedanken zu generieren, die zu spannenden Anwendungen an der Schnittstelle von Berechnung und Design führen können. Die Diskussion berührt auch die Grenzen aktueller Text-to-Visual-Modelle im Grafikdesign und das Potenzial für neue Modelle, die Vektorgrafiken erzeugen können.

  • 00:35:00 In diesem Abschnitt diskutiert der Redner ein Projekt, bei dem das Ziel darin bestand, eine Bildunterschrift aus einer bestimmten Infografik zu erstellen, um Infografiken im Internet zu durchsuchen und sie für Sehbehinderte zu kommentieren. Sie stießen jedoch auf ein Problem, da sie vorhandene Objektdetektoren nicht verwenden konnten, um Bilder und Symbole aus Infografiken zu extrahieren. Dies führte zur Entwicklung einer Möglichkeit, einen Symboldetektor mit synthetischen Daten zu trainieren, was schließlich die Erkennung von Symbolen ermöglichte. Die Studenten erkundeten später die Möglichkeit, gemeinsame Einbettungen zwischen den Symbolen und dem Text in der Nähe zu lernen, die verwendet werden könnten, um zu verstehen, wie abstrakte Konzepte in komplexen Grafikdesigns visualisiert werden. Der Referent betont, dass KI Designer nicht ersetzen, sondern ihnen helfen soll und Kuratieren ein wichtiger Aspekt der Arbeit bleiben wird.

  • 00:40:00 In diesem Abschnitt diskutiert der Referent die Rolle von Designern im Bereich des KI-generierten Grafikdesigns. Während es möglich ist, Modelle zum Generieren von Designs zu trainieren, ist es schwierig, sie zu trainieren, um völlig neuartige Designs zu erstellen. Daher können Designer neue Assets und Komponenten einführen, die über die aktuelle Vielfalt hinausgehen, die dann verwendet werden können, um automatisch neue Designs zu manipulieren und zu generieren. Der Redner betont auch die Notwendigkeit der Kuration, da Designer dabei helfen können, Müll- und Nicht-Müll-Paare zu identifizieren, um den Trainingsprozess zu verbessern. Darüber hinaus stellt der Referent fest, dass die Anpassung von Designs an unterschiedliche Kulturen aufgrund des Mangels an ausreichenden Daten immer noch eine Herausforderung darstellt. Abschließend erläutert der Referent die Rolle von Forschungswissenschaftlern in Unternehmen wie Adobe, die darauf abzielen, große Forschungsideen vorzustellen, die in bestehende Produktteams zur weiteren Entwicklung integriert werden können.

  • 00:45:00 In diesem Abschnitt erörtert Zoya Bylinskii die Herausforderungen bei der Anwendung von KI im Grafikdesign zur Erstellung praktischer Produkte. Sie betont die Notwendigkeit, Probleme so zu konzipieren, dass sie auf verschiedene Technologieprodukte übertragbar sind, Unternehmen Forschungsideen vorzustellen und mit Fachleuten aus verschiedenen Bereichen zusammenzuarbeiten, um Fachwissen zu erhalten. Bylisnkii rät Studenten und Praktikanten, ein starkes rechnergestütztes Toolset zu entwickeln, um ihre Chancen auf eine Stelle als Ingenieur-, Forschungs- oder Produktpraktikant zu verbessern.

  • 00:50:00 In diesem Abschnitt konzentriert sich der Referent auf die Fähigkeiten, nach denen er bei einem Kandidaten sucht, der sich für KI und maschinelles Lernen für Grafikdesign interessiert. Sie betonen die Notwendigkeit von Kenntnissen in Softwaretools und maschinellem Lernen. Sie empfehlen, Erfahrungen nicht nur in Kursform, sondern auch in Projektform mit Beispielen auf Github zu präsentieren. Sie schlagen vor, dass die Kandidaten Kreativität und Innovation zeigen und über bestehende Modelle und Bibliotheken hinausgehen müssen, um neue Ideen zu konzipieren und sie auf neue Weise anzuwenden. Die Kandidaten sollten Forschungserfahrung oder technische Positionen in einem Universitätslabor anstreben. Sie empfehlen, auf Professoren zuzugehen und anzubieten, für einen bestimmten Zeitraum an bestimmten Problemen zu arbeiten. Schließlich betonen sie die Bedeutung von Referenzen anderer Forscher, die die Kreativität, die technische Stärke und die Eignung des Kandidaten für die Forschung bescheinigen.
 

MIT 6.S192 - Vorlesung 20: Generative Kunst mit Diffusion, Prafulla Dhariwal



MIT 6.S192 - Vorlesung 20: Generative Kunst mit Diffusion, Prafulla Dhariwal

In diesem Vortrag diskutiert Prafulla Dhariwal von OpenAI die Fortschritte der generativen Modellierung für harte kreative Aufgaben, insbesondere mit Diffusionsmodellen. Der Prozess beinhaltet, mit einem Bild zu beginnen und ihm langsam Gaußsches Rauschen hinzuzufügen, dann den Prozess umzukehren, indem etwas verrauschter Schaden genommen und entrauscht wird, um weniger verrauschte Bilder zu erzeugen. Das generative Modell wird erhalten, indem ein Modell so trainiert wird, dass es Rauschen umkehrt, wobei zur Testzeit ein Bild aus reinem Rauschen erzeugt wird, indem das Modell Schritt für Schritt rückwärts ausgeführt wird. Die umgekehrte Vorhersage des Prozesses sieht auch wie eine Gaußsche Verteilung aus, wenn die Menge des hinzugefügten Rauschens sehr gering ist, was verwendet wird, um den Mittelwert und die Varianz des Modells vorherzusagen. Dhariwal erörtert auch die Verwendung von Diffusionsmodellen für das In-Painting und den Umgang mit den potenziellen Gefahren von KI-generierten Inhalten.

  • 00:00:00 In diesem Abschnitt des Videos erläutert Prafulla Dhariwal von OpenAI seinen Hintergrund und seine Motivation für die Durchführung von KI-Forschung. Er präsentiert auch einige Beispiele für leistungsstarke kreative ML-Modelle wie GPT-3 und JukeBox, die aus nur wenigen Beispielen Poesie bzw. Musik erzeugen können. Das Video enthält auch eine Beispielausgabe von JukeBox, die die Musik und die Texte zusammen erzeugt hat, da sie voneinander abhängig sind. Die Zuschauer werden ermutigt, während der Präsentation jederzeit Fragen zu stellen.

  • 00:05:00 In diesem Abschnitt diskutiert Prafulla Dhariwal den Fortschritt der generativen Modellierung für schwierige kreative Aufgaben. Der Referent erklärt, dass eine Möglichkeit zu verstehen, ob Modelle wirklich etwas lernen, darin besteht, zu sehen, ob sie komplexe und schwer verständliche Dinge erstellen können. Das Trainieren von Modellen zum Erstellen von Bildern, Audio und Video ist eine der schwierigsten Aufgaben in diesen Bereichen, aber es gab viele Fortschritte bei dem Versuch, Dinge aus Modellen oder generativer Modellierung zu erstellen. Dhariwal erläutert, wie generative Modelle funktionieren, welche Eingaben sie benötigen und wie sie evaluiert werden. Der Referent spricht auch über die jüngsten Fortschritte bei Diffusionsmodellen, die realistische Gesichter und verschiedene Bildkategorien erzeugen können. Dhariwal zeigt, dass diese Modelle beim Generieren von Bildern besser sind als GANs.

  • 00:10:00 In diesem Abschnitt des Vortrags diskutiert Prafulla Dhariwal generative Kunst durch die Verwendung von Diffusionsmodellen. Die Modelle arbeiten, indem sie mit einem Bild beginnen und ihm langsam Gaußsches Rauschen hinzufügen, indem sie versuchen, den Prozess umzukehren, indem sie etwas verrauschten Schaden nehmen und ihn entrauschen, um weniger verrauschte Bilder zu erzeugen. Das generative Modell wird erhalten, indem ein Modell so trainiert wird, dass es Rauschen umkehrt, wobei zur Testzeit ein Bild aus reinem Rauschen erzeugt wird, indem das Modell Schritt für Schritt rückwärts ausgeführt wird. Die umgekehrte Vorhersage des Prozesses sieht auch wie eine Gaußsche Verteilung aus, wenn die Menge des hinzugefügten Rauschens sehr gering ist, was verwendet wird, um den Mittelwert und die Varianz des Modells vorherzusagen.

  • 00:15:00 In diesem Abschnitt diskutiert Prafulla Dhariwal den Prozess der Verwendung von Diffusion, um das einem Bild hinzugefügte Rauschen umzukehren. Der Prozess beinhaltet die Vorhersage eines Gaußschen in der umgekehrten Richtung und die Verwendung von Trainingstricks, um den Prozess zu vereinfachen. Das Modell nimmt ein Bild x0, zufälliges Rauschen und eine Kombination der beiden auf, um ein verrauschtes x_t zu erzeugen, und das Netzwerk wird darauf trainiert, das Rauschen vorherzusagen, das dem Bild unter Verwendung von L2-Verlust hinzugefügt wurde. Die für diese Aufgabe verwendeten Modelle sind normalerweise Faltungsmodelle im UNet-Stil, die das Bild herunterabtasten und Merkmale auf verschiedenen Granularitätsebenen lernen, bevor sie es wieder in eine Rauschvorhersage hochsampeln. Der Prozess kann verwendet werden, um ein generatives Modell zu erhalten, indem der Mittelwert des umgekehrten Prozesses vorhergesagt wird.

  • 00:20:00 In diesem Abschnitt erfahren Sie, wie Sie die Klasse des Diffusionsmodells bedingt machen, indem Sie dem Modell während der Trainingszeit Labels bereitstellen, sodass das Modell ein Bild aus p von x bei gegebenem y erzeugen kann, der Verteilung von Bildern, die durch ein Label dargestellt werden. Darüber hinaus kann das Modell auf Bildern mit niedriger Auflösung konditioniert und auf Bilder mit hoher Auflösung hochgerechnet werden. Diese Art von Modell erzeugt jedoch inkohärente Stichproben, sodass der Trick der Führung eingeführt wird. Dies umfasst das Trainieren eines Klassifikators an verrauschten Bildern und das anschließende Verwenden des Gradienten des Klassifikators, um das Diffusionsmodell dahingehend zu führen, Bilder zu erzeugen, die mit größerer Wahrscheinlichkeit als das gewünschte Etikett klassifiziert werden.

  • 00:25:00 In diesem Abschnitt erklärt Dhariwal die Notwendigkeit, den Klassifikator während des Sampling-Prozesses beizubehalten, da Gradienten direkt vom Klassifikator verwendet werden. Der modifizierte umgekehrte Prozess verwendet einen Term mit zusätzlicher Varianz, der die Schrittgrößensteuerung im Prozess ist, mit Skalierung von dem zusätzlichen Parameter, s. Der Parameter s hilft dem Modell, sich auf die Modi der Verteilung und engere Ergebnisse zu konzentrieren. Ein kleiner Wert von s beeinflusst den Klassifikator nicht sehr, während ein großer Wert ihn stark beeinflusst. Der Skalierungsfaktor steuert die vom Klassifikator empfangene Anleitung und beeinflusst die Verteilung, in der sie zusammenfällt.

  • 00:30:00 In diesem Abschnitt diskutiert Prafulla Dhariwal die Verwendung von Diffusionsmodellen zur Erstellung von Kunst auf der Grundlage von Textbeschreibungen. Indem die Diffusionsmodelle auf Textbeschreibungen konditioniert werden, kann das Modell dazu gebracht werden, Bilder zu erzeugen, die mit dem Text übereinstimmen. CLIP kann verwendet werden, um zu messen, wie genau das Bild und der Text ausgerichtet sind, und ein Gradient kann genommen werden, um den Generierungsprozess des Modells auf die Textbeschreibung zu lenken. Alternativ kann eine klassifiziererfreie Anleitung verwendet werden, um ein Diffusionsmodell mit und ohne Labels zu trainieren, und dann kann die Differenz zwischen den beiden Vorhersagen während der Testzeit als Anstoßrichtung verwendet werden. Der Skalierungsparameter wird verwendet, um die Stärke des Anstoßens in Richtung der labelbasierten Verteilung zu steuern.

  • 00:35:00 In diesem Abschnitt erörtert der Redner eine Form der Anleitung für textbedingte Modelle, die als klassifikatorfreie Anleitung bezeichnet wird. Dieses Verfahren beinhaltet die Verwendung des Diffusionsmodells selbst als Orientierungshilfe, indem das Modell aufgefordert wird, vorherzusagen, welchen Weg es gehen sollte, um die Wahrscheinlichkeit zu erhöhen, dass das generierte Bild aus der richtigen Klasse stammt. Der Referent spricht auch eine Frage zum schrittweisen Hinzufügen von Elementen zu einem Bild an und schlägt zwei mögliche Methoden vor, um dies zu erreichen, von denen eine darin besteht, das generierte Bild iterativ unter Verwendung von Rauschen zu modifizieren und den Prozess mit neuen Eingabeaufforderungen erneut auszuführen. Der Referent stellt Beispiele vor, in denen die Effektivität der CLIP-Führung und der klassifikatorfreien Führung verglichen wird, wobei letztere die besten Ergebnisse liefert.

  • 00:40:00 In diesem Abschnitt diskutiert Prafulla Dhariwal eine neue Modellklasse zum Erzeugen von Bildern, die eine Diffusionstechnik verwendet. Er erklärt, dass dieses Modell die Dinge nicht autoregressiv macht, sondern ein ganzes Bild generiert, das kompliziertere Aufgaben wie das Einmalen ermöglicht. Beim In-Painting wird ein Teil eines Bildes maskiert und dann das Modell verwendet, um diesen Teil auszufüllen. Dies kann auch mit In-Painting von Textbedingungen erreicht werden, wobei eine Textbezeichnung bereitgestellt wird, um dem Modell mitzuteilen, wie der Bereich in-Painting ausgeführt werden soll. Iteratives In-Painting kann verwendet werden, um Dinge nacheinander zum Bild hinzuzufügen, z. B. das Hinzufügen eines Gemäldes eines Corgi an einer Wand über einer Couch. Das Modell erzeugte realistischere Beispiele als ältere Modelle wie DALL·E und verwendete weniger Parameter.

  • 00:45:00 In diesem Abschnitt des Vortrags erörtert Prafulla Dhariwal, wie In -Painting verwendet werden kann, um Objekte aus einem Bild zu entfernen oder fehlende Informationen zu ergänzen. Er erklärt auch Out-Painting, bei dem das Rechteck aus dem Bild herausbewegt und das Modell gebeten wird, diesen Bereich auszufüllen. Darüber hinaus stellt Dhariwal fest, dass die veröffentlichten Notebooks ein gefiltertes GLIDE-Modell verwenden, da das Original problematische Bilder erzeugen könnte. Trotz des Leistungsabfalls kann das kleinere Modell immer noch realistisch wirkende Bilder erzeugen. Er demonstriert Beispiele von Kunstwerken, die von Benutzern auf Twitter erstellt wurden, indem er coole Eingabeaufforderungen findet und sie mit der Out-Painting-Technik erweitert. Schließlich gibt es noch die Frage nach der Gefahr, die vom ursprünglichen GLIDE-Modell ausgeht, zu der Dhariwal empfiehlt, das Papier für weitere Details zu lesen.

  • 00:50:00 In diesem Abschnitt erörtert der Referent die Kompromisse zwischen der Nützlichkeit der Modelle und der potenziellen Gefahr der generierten Inhalte. Der Redner hebt die Schwierigkeit hervor, sicherzustellen, dass Modelle nur sichere Inhalte produzieren, da es sich um leistungsstarke Werkzeuge handelt, die leicht irreführende oder gewalttätige Daten erzeugen könnten. Um unsichere Teile des Modells herauszufiltern, muss das Team Klassifikatoren trainieren, um potenziell problematische Datenpunkte zu identifizieren. Der Redner geht weiter auf praktische Bedenken bei der Bereitstellung des Modells ein, wie z. B. die Auswahl der Maßstäbe und Zeitschritte für den Diffusionsprozess sowie das Hinzufügen benutzerdefinierter Masken zu Bilddateien, um einen bestimmten Bereich einzufärben.

  • 00:55:00 In diesem Abschnitt empfiehlt Prafulla Dhariwal weiterführende Lektüre für diejenigen, die an der Theorie hinter den in der generativen Kunst verwendeten Modellen interessiert sind. Er schlägt vor, das „De-Noising Diffusion Probabilistic Models Paper“ von Jonathan Ho sowie ihr eigenes Paper „Diffusion Models Beat GANs on Image Synthesis“ zu lesen, um weitere Informationen zu CLIP-Anleitungen und klassifikatorfreien Anleitungen zu erhalten. Darüber hinaus empfiehlt Dhariwal das Papier von Yang Song, "Generative Modeling by Estimating Gradients of the Data Distribution", das das Problem aus einer anderen Perspektive des Score-Matching angeht, eine andere Linse zum Verständnis von Diffusionsmodellen. Während der Fragen und Antworten stellt Dhariwal fest, dass es eine Beziehung zwischen dem verwendeten zweidimensionalen Rauschen und den Ausgaben des Modells gibt, die jedoch indirekt ist. Er schlägt vor, das Rauschen zu Beginn einmal abzutasten und dann einen deterministischen umgekehrten Prozess auszuführen, um aus dem Modell abzutasten, um diese Beziehung klarer zu machen.

  • 01:00:00 In diesem Abschnitt diskutieren die Referenten den Prozess der Rauschunterdrückung und die Rolle der Textkonditionierung bei der Generierung von Bildern ohne CLIP. Sie erklären, dass das Trainieren eines Modells ohne Textkennzeichnungen es schwierig macht, ein Muster für eine bestimmte Textverteilung zu generieren, aber das Diffusionsmodell wird so trainiert, dass es textabhängig ist. Während die Anleitung sowohl auf unbedingten als auch auf bedingten Modellen verwendet werden kann, kann das Originalmodell auch Anleitung verwenden, um seine Fähigkeit zu verbessern, ein Bild bei gegebenem Text zu erzeugen. Die Referenten ermutigen die Zuschauer, Blogs zu lesen und andere Colab-Notizbücher zu durchsuchen, um weitere Informationen zu erhalten.
 

MIT 6.S192 - Vorlesung 19: Einfache Erstellung von 3D-Inhalten mit konsistenten neuronalen Feldern, Ajay Jain



MIT 6.S192 - Vorlesung 19: Einfache Erstellung von 3D-Inhalten mit konsistenten neuronalen Feldern, Ajay Jain

In diesem Vortrag stellt Ajay Jain seine Arbeit zu neuronalen Szenendarstellungen vor, wobei er sich speziell auf das Modell der neuralen Strahlungsfelder konzentriert, das spärlich abgetastete Eingabeansichten verwendet, um eine Darstellung der 3D-Geometrie und -Farbe einer Szene zu erstellen. Jain erörtert die Herausforderungen beim Anpassen eines neuralen Strahlungsfelds an eine einzelne Szene sowie Möglichkeiten zur Verbesserung der Dateneffizienz des Trainingsprozesses durch Hinzufügen von photometrischem Verlust und semantischem Konsistenzverlust. Er spricht auch über die Verwendung von CLIP zum Entfernen von Artefakten in NeRF und zum Generieren von 3D-Objekten aus Beschriftungen im Projekt Dream Fields. Weitere Themen sind das Erstellen konsistenter Vordergrundobjekte in Szenen, das Erfassen von beschrifteten 3D-Objektdatensätzen, das Reduzieren der Renderkosten und das Optimieren der Systemleistung.

  • 00:00:00 In diesem Abschnitt des Videos spricht Ajay Jain über seinen Werdegang und seine Forschungsinteressen an generativen Modellen und KI-Tools. Er erörtert auch die verschiedenen Arten von Szenendarstellungen, wobei er sich auf volumetrische Ansätze konzentriert, die im Vergleich zu Netzdarstellungen, die üblicherweise in Grafikanwendungen verwendet werden, einfacher zu trainieren und in einem Lernkontext zu verwenden sind. Jain hebt auch das jüngste Interesse an neuronalen Szenendarstellungen hervor.

  • 00:05:00 In diesem Abschnitt erörtert der Referent das Konzept der neuronalen Szenendarstellungen und konzentriert sich dabei insbesondere auf ein Modell namens Neural Radiance Fields. Dieses Modell befasst sich mit dem Problem der Ansichtssynthese, bei der spärlich abgetastete Eingabeansichten einer Szene verwendet werden, um eine Darstellung der 3D-Geometrie und -Farbe der Szene zu konstruieren, wodurch ein Rendern aus neuen Perspektiven ermöglicht wird. Das neurale Strahlungsfeld wird aus diesen Bildern geschätzt und ermöglicht eine reibungslose Interpolation der spärlich abgetasteten Ansichten. Das Modell ist auch in der Lage, ansichtsabhängige Effekte wie Spiegelungen auf glänzenden Oberflächen zu modellieren. Das neuronale Netzwerk wird als Funktionsabbildung von 3D-Raumkoordinaten und Betrachtungsrichtung dargestellt und sagt Farbe und Dichte für jede Koordinate voraus. Das Rendern erfolgt durch Raytracing und Volumenrendering.

  • 00:10:00 In diesem Abschnitt erörtert der Sprecher den Prozess der Farbwiedergabe gemäß der neuronalen Szenendarstellung, um die Gewichtungen des neuronalen Netzwerks zu optimieren, um die gewünschten Farben zu erzielen. Sie erklären, dass das MLP, das die Szene kodiert, ein differenzierbares Rendern von Blickwinkeln ermöglicht, was die Optimierung erleichtert. Dieser Prozess wird als inverse Grafik bezeichnet und umfasst den Übergang vom 2D-Raum zur Optimierung für die zugrunde liegende 3D-Darstellung, die diese Ansichten rekonstruiert. Der Referent erklärt auch, wie die Eingabekoordinaten in das neuronale Netzwerk eingespeist werden, indem ein sinusförmiger Positionscodierungsansatz verwendet wird, der die 5-dimensionale Eingabe in einen höherdimensionalen Raum projiziert.

  • 00:15:00 In diesem Abschnitt erörtert das Video die Herausforderungen beim Anpassen eines neuralen Strahlungsfelds an eine einzelne Szene, da im Allgemeinen eine große Datenmenge zum Trainieren erforderlich ist. Das Video zeigt eine synthetische Szene, die hundert Bilder benötigte, um in das Feld zu passen, während einige Außenszenen weniger Bilder erforderten. Das Video diskutiert dann eine Möglichkeit, die Dateneffizienz des Trainingsprozesses zu verbessern, indem an unbeobachteten Positionen ein zusätzlicher Verlust zum Training des neuralen Strahlungsfelds hinzugefügt wird, der als photometrischer Verlust bezeichnet wird. Dies ermöglicht das Rendern neuartiger Ansichten, noch bevor die Szene konvergiert ist.

  • 00:20:00 In diesem Abschnitt diskutiert der Referent das Konzept des semantischen Konsistenzverlusts, der die Regularisierung von Szenen aus jeder Perspektive während des Trainings ermöglicht. Unter Verwendung eines visuellen Kodierers wird jede Eingabeansicht im Merkmalsraum dargestellt, was die Kodierung der Objektidentität und anderer Merkmale ermöglicht, die über verschiedene Standpunkte hinweg konsistent sind. Die Funktionsauswahl ist entscheidend, da sie die Identität und Eigenschaften des Objekts anstelle von Details auf niedriger Ebene wie Pixelfarben codieren sollte. Der Sprecher schlägt vor, das CLIP-Netzwerk zu verwenden, da es gelernt hat, Bilder mit den zugehörigen Bildunterschriften abzugleichen, was es ihm ermöglicht, Klassen von Objekten, Posen von Objekten und Details über die gesamte Szene zu codieren. Der Referent zeigt, dass die Cosinus-Ähnlichkeit von Einbettungen aus dem Bildencoder von CLIP innerhalb einer bestimmten Szene aus unterschiedlichen Kameraposen sehr ähnlich, aber im Pixelraum sehr unterschiedlich ist.

  • 00:25:00 In diesem Abschnitt des Videos spricht der Sprecher über seine Experimente zur Verwendung von CLIP zum Entfernen von Artefakten in NeRF durch Maximieren der Ähnlichkeit des Merkmalsraums und diskutiert dann die Verwendung von CLIP zum Generieren von 3D-Objekten aus nur einer Bildunterschrift in seiner zweiten Arbeit. Traumfelder. Sie optimieren eine gemeinsame Szenendarstellung so, dass sie mit zusätzlichen Regularisierern einem Diät-NeRF ähnelt, und rendern dann neue Ansichten für jede Perspektive. Sie verwenden den Textcodierer von CLIP, um die Ähnlichkeit im Merkmalsraum zwischen der Szene und der Bildunterschrift zu maximieren, anstatt die Merkmalsähnlichkeit im Bildmerkmalsraum zu optimieren. Sie stellen fest, dass die automatische Untertitelung mit CLIP aufgrund der Schwierigkeit des Such- und Optimierungsprozesses eine Herausforderung darstellt.

  • 00:30:00 In diesem Abschnitt erläutert Ajay Jain den Prozess zum Erstellen konsistenter Vordergrundobjekte in 3D-Szenen mit Dream Fields. Durch zufälliges Sampling von Posen in der Szene und Rendern von Bildern versuchen sie sicherzustellen, dass semantische Merkmale mit den Untertitelmerkmalen übereinstimmen. Eine naive Anwendung dieses Ansatzes ohne Regularisierung kann jedoch zu entarteten Szenen führen. Daher regulieren sie die Szene durch zusammengesetzte, zufällig abgetastete Hintergründe und hochtransparente Vordergrundobjekte, um die Sparsity in der Szene zu fördern. Mit dieser Regularisierung können sie konsistentere Vordergrundobjekte in der Szene erstellen. Darüber hinaus experimentieren sie mit verschiedenen Untertitelvorlagen, um die kompositorische Verallgemeinerung des Modells zu messen.

  • 00:35:00 In diesem Abschnitt erörtert der Referent die Herausforderungen beim Erfassen von beschrifteten 3D-Objektdatensätzen und wie sie dieses Problem durch die Verwendung von CLIP, einem vortrainierten 2D-Bild- und Textcodierer, angegangen sind. Das Dream Fields-Projekt hebt diese 2D-Darstellung durch eine gemeinsame Darstellung von Geometrie in 3D. Der Referent spricht auch über die Techniken zur Verbesserung der Qualität von generierten 3D-Objekten und die Kosten des Optimierungsprozesses. Das Ziel des Projekts ist es, die Erstellung von 3D-Inhalten zu vereinfachen und Assets zu generieren, die für nachgelagerte Anwendungen nützlich sind, und der Code steht jedem zur Verfügung, der ihn ausprobieren möchte.

  • 00:40:00 In diesem Abschnitt erklärt Ajay Jain, dass die 3D-Struktur von Objekten nur durch die gemeinsame Darstellung entsteht, die CLIP aus jeder Perspektive genügt. Es gibt keine Vorstufe zu der aus Daten gelernten 3D-Struktur, daher fehlt eine gewisse Konsistenz bei den 3D-Daten, und das ist eine Gelegenheit für zukünftige Arbeiten. Jain erwähnt auch, dass die Konsistenz nicht erhalten bleibt, wenn die zugrunde liegende Geometrie nicht sichtbar ist, was zu wiederholten Strukturen führt. Das aus der Funktionszuordnung von Koordinaten generierte neuronale Netz muss nachbearbeitet werden, was die Konvertierung der Ausgabe des neuronalen Felds in eine .fbx-Datei oder ein Netz beinhaltet, wobei einige Algorithmen diese Konvertierung ermöglichen.

  • 00:45:00 In diesem Abschnitt erörtert der Referent Strategien zur Reduzierung der Renderingkosten in volumetrischen Darstellungen von neuronalen Strahlungsfeldern, einschließlich des Renderns von Bildern mit niedriger Auflösung und der Verwendung einer einzelnen GPU mit geringem Speicher, um den Prozess erheblich zu beschleunigen. Sie erklären auch, wie transparente Objekte innerhalb dieser Art der Darstellung gehandhabt werden können, und erwähnen zukünftige Schritte, um diesen Ansatz für 3D-Künstler praktischer zu machen, wie z. B. die Synthese deformierbarer Objekte und die Einbeziehung von menschlichem Feedback während des Trainings. Schließlich teilen sie sich ein Colab-Notebook, um das System zu implementieren und die Qualitätseinstellungen für verschiedene Eingabeaufforderungen anzupassen.

  • 00:50:00 In diesem Abschnitt erörtert der Referent die Lernkurven und den Optimierungsprozess, der mit der Erstellung von 3D-Inhalten unter Verwendung konsistenter neuronaler Felder verbunden ist. Sie erläutern verschiedene Faktoren, die sich auf den Optimierungsprozess auswirken, wie z. B. die Transparenz von Pixeln in der Szene und die Anzahl der Datenerweiterungen pro Iteration. Sie schlagen auch vor, die Konfigurationsparameter zu optimieren, um die Speichernutzung zu reduzieren, was die Reduzierung der Anzahl der Samples und die Verwendung von CLIP b32 anstelle des Standard-CLIP b16 umfasst. Schließlich erwähnen sie die Möglichkeit der Parallelisierung über mehrere GPUs hinweg, um die Leistung zu optimieren.