Maschinelles Lernen und neuronale Netze - Seite 23

 

Elektronische Patientenakte - Vorlesung 22



Elektronische Patientenakten - Vorlesung 22 - Deep Learning in Life Sciences (Frühjahr 2021)

Das Aufkommen des maschinellen Lernens im Gesundheitswesen ist auf die Einführung elektronischer Patientenakten in Krankenhäusern und die große Menge an Patientendaten zurückzuführen, die für aussagekräftige Erkenntnisse im Gesundheitswesen genutzt werden können. Die Modellierung des Krankheitsverlaufs wird anhand von Längsschnittdaten diskutiert, die in Krankheitsregistern gefunden werden, was aufgrund hochdimensionaler Längsschnittdaten, Fehlen und Links- und Rechtszensur zu Herausforderungen führen kann. Die Vorlesung untersucht die Verwendung von nichtlinearen Modellen wie tiefen Markov-Modellen, um diese Herausforderungen zu bewältigen und die nichtlineare Dichte von longitudinalen Biomarkern effektiv zu modellieren. Darüber hinaus erörtert der Referent die Verwendung von Domänenwissen zur Entwicklung neuer neuronaler Architekturen für die Übergangsfunktion und die Bedeutung der Einbeziehung von Domänenwissen in das Modelldesign für eine bessere Verallgemeinerung. Es gibt auch Experimente mit der Modellkomplexität in Bezug auf Behandlungseffektfunktionen, und der Referent plant, diese Frage in einer größeren Kohorte erneut zu prüfen, um weitere Erkenntnisse zu ermitteln.

  • 00:00:00 In diesem Abschnitt erklärt Rahul Krishnan, Senior Researcher bei Microsoft Research, die Entstehung des maschinellen Lernens im Gesundheitswesen aufgrund der Digitalisierung elektronischer Patientendaten. Die Einführung elektronischer Krankenaktensysteme in Krankenhäusern führte zu einer großen Menge an Patientendaten, die für aussagekräftige Erkenntnisse im Gesundheitswesen genutzt werden konnten. Krishnan hebt die Verwendung von Krankheitsregistern hervor, bei denen es sich um stärker fokussierte Datensätze zu einer einzelnen Krankheit handelt, die von gemeinnützigen Organisationen veröffentlicht werden, damit Forscher sie untersuchen und Fragen beantworten können. Techniken des maschinellen Lernens wie unüberwachtes Lernen werden verwendet, um die Unterstruktur dieser Datensätze zu untersuchen und Tools zur Unterstützung von Klinikern zu erstellen. Die Präsentation konzentriert sich auf die Modellierung des Krankheitsverlaufs und einige der Arbeiten, die von Forschern auf diesem Gebiet geleistet werden.

  • 00:05:00 In diesem Abschnitt erörtert der Referent die Modellierung des Krankheitsverlaufs unter Verwendung von Längsschnittdaten aus Krankheitsregistern. Die Modellierung des Krankheitsverlaufs existiert seit Jahrzehnten und versucht, statistische Modelle zu erstellen, die die komplexen und chaotischen Daten erfassen können, die in Krankheitsregistern gefunden werden, einschließlich Baseline-Kovariaten, Längsschnitt-Biomarkern und Behandlungsinformationen. Dieses Problem wird oft als unüberwachtes Lernen bezeichnet, bei dem Modelle darauf abzielen, die logarithmische Wahrscheinlichkeit zu maximieren, die Längsschnitt-Biomarkersequenz eines Patienten zu beobachten, die auf seinen Basislinieninformationen und der Abfolge von Interventionen bedingt ist. Der Referent stellt einen neuen Ansatz zur Modellierung des Krankheitsverlaufs vor, der dieses Jahr auf der ICML veröffentlicht wird.

  • 00:10:00 In diesem Abschnitt erörtert der Referent die Herausforderungen bei der Verwendung elektronischer Patientenakten zur Modellierung des Krankheitsverlaufs im Kontext des multiplen Myeloms, einer seltenen Krebserkrankung des Knochenmarks. Da die Krankheit so selten ist, gibt es oft nur eine kleine Anzahl von Patienten, von denen man lernen kann, was eine gute Modellierung und Dichteschätzung erschwert. Darüber hinaus stellen Gesundheitsdaten Herausforderungen dar, wie z. B. hochdimensionale Längsschnittdaten mit nichtlinearer Variation, Fehlen und Links- und Rechtszensur. Der Referent schlägt vor, nichtlineare Modelle wie tiefe Markov-Modelle zu verwenden, um diese Herausforderungen zu bewältigen und die nichtlineare Dichte von Längsbiomarkern effektiv zu modellieren.

  • 00:15:00 In diesem Abschnitt beschreibt die Vorlesung ein Latent-Variablen-Modell für elektronische Patientenakten, bei dem die Daten aus den latenten Variablen und Beobachtungen generiert werden, die im Laufe der Zeit gewonnen wurden. Das Modell geht davon aus, dass die Wahl des vom Arzt verschriebenen Medikaments von den Werten klinischer Biomarker abhängt, die aus früheren Beobachtungen gewonnen wurden. Der Referent geht auch auf das Problem fehlender Daten ein, das überwunden werden kann, indem die fehlenden Variablen während der Maximum-Likelihood-Schätzung an den Rand gedrängt werden. Für die Variationsinferenz unter Verwendung eines Inferenznetzwerks erfordert das Modell jedoch Annäherungen, um die fehlenden Daten zu schätzen, und es sind weitere Untersuchungen erforderlich, um zu verstehen, wie sich das Fehlen auf die Verzerrung der ungefähren A-posteriori-Verteilung auswirkt.

  • 00:20:00 In diesem Abschnitt erklärt der Referent, wie ein Modell verwendet werden kann, um die Krankengeschichte eines Patienten vorherzusagen, indem seine Interaktionen mit einem Arzt im Laufe der Zeit modelliert werden. Das Modell verwendet eine latente Darstellung, die sich im Laufe der Zeit ändert, um den Gesundheitszustand des Patienten vorherzusagen. Der Referent beleuchtet die Herausforderungen bei der Modellierung medizinischer Daten aufgrund von Nichtlinearität und der Seltenheit bestimmter Krankheiten. Sie untersuchen die Nutzung von Domänenwissen, um eine neue neuronale Architektur für die Übergangsfunktion zu entwickeln. Der Referent erörtert auch die Verwendung einer globalen Uhr und lokaler Uhren, um die Behandlungsdauer bzw. die verstrichene Zeit bis zu einem größeren Progressionsereignis zu verfolgen. Sie erklären, wie man die mechanistische Wirkung von Arzneimitteln annähern kann, und lassen dieses Wissen in das Modell einfließen.

  • 00:25:00 In diesem Abschnitt erörtert der Referent die Verwendung von Pharmakokinetik und Pharmakodynamik, um die Wirkung von Arzneimitteln, die zur Krebsbehandlung verschrieben werden, auf den Tumor eines Patienten abzuschätzen. Sie schlagen drei neue neuronale Architekturen vor, um die Wirkung mehrerer Medikamente zu modellieren, die Patienten gemeinsam verabreicht werden, und kombinieren sie mithilfe eines Aufmerksamkeitsmechanismus, um eine einzige Funktion zu erzeugen. Das Ziel ist eine bedingte Dichteschätzung unter Verwendung von Domänenwissen zur Bekämpfung von Überanpassung. Das als SSNPK bezeichnete Modell wird auf eine Kohorte von Patienten mit multiplem Myelom angewendet, die gemäß dem aktuellen Behandlungsstandard behandelt werden, mit 16 klinischen Biomarkern im Laufe der Zeit, neun Behandlungsindikationen und 16 Ausgangsmerkmalen.

  • 00:30:00 In diesem Abschnitt erörtert der Referent die Ergebnisse der Verwendung verschiedener Modelle zur Analyse klinischer Daten, wobei der Schwerpunkt insbesondere auf der Verwendung von Deep Learning und State-Space-Modellen liegt. Sie vergleichen die Effektivität der verschiedenen Modelle bei der Verallgemeinerung auf neue Daten und stellen fest, dass die Verwendung von ssnpkpd durchgehend zu einer besseren Leistung über lineare und nichtlineare Basislinien hinweg führt. Sie führen auch eine Ablationsanalyse durch, um festzustellen, welche Biomarker am meisten zu den in den Modellen beobachteten Gewinnen beitragen, und stellen fest, dass die Verwendung lokaler und globaler Uhren bei der Modellierung der Dynamik der Daten hilfreich ist. Darüber hinaus nutzen sie den latenten Raum des trainierten Modells, um das Verhalten der Daten im Laufe der Zeit weiter zu untersuchen und zu verstehen.

  • 00:35:00 In diesem Abschnitt des Vortrags erörtert der Referent die Ergebnisse der Verwendung des SSNPKPD-Modells zur Vorhersage der zukünftigen klinischen Biomarker eines Patienten auf der Grundlage seiner Basis-Biomarker. Das Modell zeigt im Vergleich zu einer linearen Basislinie eine bessere Anpassung an die Daten, was darauf hinweist, dass die von SSNPKPD erfassten latenten Repräsentationen die relevante Patientengeschichte für die Vorhersage zukünftiger klinischer Biomarker enthalten. Der Redner fasst die wichtigsten Erkenntnisse aus dem Vortrag zusammen, nämlich die Bedeutung der Einbeziehung von Domänenwissen in das Modelldesign für eine bessere Verallgemeinerung, und hebt die Möglichkeiten für zukünftige Forschung bei der Kombination verschiedener Datenmodalitäten im Gesundheitswesen hervor. Der Referent verweist auch auf die laufende Validierung der Ergebnisse in einer größeren Kohorte und die Möglichkeit, das Modell in klinische Entscheidungsunterstützungsinstrumente und modellbasierte Rahmenwerke für bestärkendes Lernen zu integrieren.

  • 00:40:00 In diesem Abschnitt diskutiert der Sprecher seine Experimente mit der Modellkomplexität in Bezug auf Behandlungseffektfunktionen. Sie versuchten Variationen des Modells, indem sie Kopien der Behandlungseffektfunktionen erstellten, die von drei bis zwölf reichten, und stellten fest, dass es einen Punkt gab, an dem die zusätzliche Komplexität die Leistung nicht wesentlich verbesserte oder sogar verringerte. Als sie jedoch einige der Behandlungseffektfunktionen entfernten, stellten sie einen Leistungsabfall fest, übertrafen aber immer noch das lineare Modell. Der Referent beabsichtigt, diese Frage der Verallgemeinerung an einer größeren Kohorte mit der VA erneut zu prüfen, um das Ausmaß dieser Befunde zu bestimmen.
 

Deep Learning und Neurowissenschaften - Vorlesung 23



Deep Learning and Neuroscience - Vorlesung 23 - Deep Learning in Life Sciences (Frühjahr 2021)

Der Vortrag diskutiert das Zusammenspiel von Deep Learning und Neurowissenschaften, speziell im Bereich Visual Science. Ziel ist es, die menschliche visuelle Intelligenz zurückzuentwickeln, die sich auf die Verhaltensfähigkeiten bezieht, die Menschen als Reaktion auf Photonen zeigen, die ihre Augen treffen. Der Referent legt Wert darauf, diese Fähigkeiten in der Sprache von Mechanismen zu erklären, wie z. B. Netzwerke simulierter Neuronen, um prädiktive gebaute Systeme zu ermöglichen, die sowohl den Hirnwissenschaften als auch der künstlichen Intelligenz zugute kommen können. Der Vortrag untersucht, inwiefern Deep-Learning-Modelle Hypothesen dafür sind, wie das Gehirn sensorische Systemprozesse ausführt, und die möglichen Anwendungen, die über die bloße Nachahmung der Evolution des Gehirns hinausgehen. Darüber hinaus zeigt der Vortrag praktische Beispiele, wie neuronale Netze Erinnerungen manipulieren und die Bedeutung von etwas verändern können.

Dieses Video erörtert das Potenzial von Deep Learning für das Verständnis der kognitiven Funktionen des Gehirns und die Nutzung dieses Verständnisses für technische Zwecke. Der Referent hebt die Relevanz rekurrenter neuronaler Netze mit ihren Gedächtnis- und Eigendynamikfähigkeiten in diesem Bereich hervor. Die Vorlesung untersucht die Fähigkeit neuronaler Systeme, durch Nachahmung zu lernen und wie dies genutzt werden kann, um Repräsentationen, Berechnungen und Manipulationen des Arbeitsgedächtnisses zu lernen. Das Video behandelt auch die Schwierigkeit, Beweise für Feedback-Lernen als Lernbedingung zu finden, und das Potenzial von Fehlerkorrekturmechanismen zur Abstimmung des Systems. Der Vortrag schließt mit einer Reflexion über die Vielfalt der im Kurs behandelten Themen und darüber, wie Deep Learning bei der Interpretation kognitiver Systeme in der Zukunft helfen kann.

  • 00:00:00 In diesem Abschnitt diskutiert der Referent das Zusammenspiel von Deep Learning und Neurowissenschaften, insbesondere im Bereich Visual Science. Er erklärt, wie Deep-Learning-Modelle als wissenschaftliche Hypothesen darüber angesehen werden können, wie Aspekte der Gehirnfunktion funktionieren können, und wie Neurowissenschaftler und Kognitionswissenschaftler die Qualität dieser Hypothesen in Bezug auf die Daten bewerten. Carlos Vortrag konzentriert sich auf das Ziel des Reverse Engineering der menschlichen visuellen Intelligenz, das sich auf die Verhaltensfähigkeiten bezieht, die Menschen als Reaktion auf Photonen zeigen, die ihre Augen treffen. Er betont, wie wichtig es ist, diese Fähigkeiten in der Sprache von Mechanismen zu erklären, wie z. B. Netzwerke von simulierten Neuronen, um prädiktive gebaute Systeme zu ermöglichen, die sowohl den Hirnwissenschaften als auch der künstlichen Intelligenz zugute kommen können.

  • 00:05:00 In diesem Abschnitt diskutiert der Dozent visuelle Intelligenz und wie das Gehirn einschätzt, was in einer Szene da draußen ist, wie zum Beispiel das Identifizieren von Autos oder Personen; Die Vorhersage, was als nächstes passieren wird, und andere physikalisch bedingte Probleme sind jedoch immer noch eine Herausforderung für Wissenschaftler. Trotzdem haben Wissenschaftler erhebliche Fortschritte bei der Modellierung der grundlegenden visuellen Elemente gemacht, die wir in jedem 200-Millisekunden-Blick auf eine Szene verarbeiten, was auch als Kernobjekterkennung bekannt ist. Der Dozent stellt Beispiele für Tests vor, die unsere Fähigkeit messen, Objekte zu erkennen und sie mit anderen Arten zu vergleichen, wie Computer-Vision-Systemen und nichtmenschlichen Primaten wie Rhesusaffen.

  • 00:10:00 In diesem Abschnitt diskutiert der Sprecher die Fähigkeit von Menschen und Primaten, zwischen Objekten zu unterscheiden. Er stellt fest, dass Menschen und Primaten bei visuellen Erkennungsaufgaben ähnlich abschneiden, wobei Menschen nur geringfügig besser abschneiden. Darüber hinaus erörtert der Referent die Deep-Learning-Systeme und wie sie mit den visuellen Erkennungsfähigkeiten von Menschen und Primaten verglichen werden. Der Sprecher wechselt dann zur Erörterung der Bereiche des Rhesusaffengehirns, die an visuellen Erkennungsaufgaben beteiligt sind, und hebt den infratemporalen Kortex als Bereich der höchsten Ebene hervor. Schließlich notiert der Sprecher die typischen Zeitskalen für neurale Aktivitätsmuster, die im infratemporalen Kortex entstehen, und wie sie mit der Zeit übereinstimmen, die für offene Verhaltensabtastfähigkeiten benötigt wird.

  • 00:15:00 In diesem Abschnitt des Videovortrags erörtert der Sprecher, wie Forscher die Reaktion einzelner Neuronen im visuellen Kortex von Tieren wie Affen auf Bilder mit invasiven Aufzeichnungselektroden untersuchen. Durch die Messung von Mustern der elektrischen Aktivität von Neuronen als Reaktion auf verschiedene Bilder können Forscher die Reaktion anhand mittlerer Spike-Raten quantifizieren. Diese Aktivitätsmuster können durch Ähnlichkeiten in ihrer Selektivität zusammengefasst werden, und im visuellen Kortex wurden spezielle Cluster-Bereiche für bestimmte Objekttypen wie Gesichter identifiziert. Die Verwendung von Arrays für chronische Aufzeichnungen ermöglicht es Forschern, wochen- oder monatelang von denselben neuralen Stellen aufzuzeichnen und die Reaktionen auf Tausende von Bildern zu messen.

  • 00:20:00 In diesem Abschnitt erklärt der Sprecher ein Experiment, bei dem neuronale Daten aufgezeichnet wurden, während ein Tier fixierte oder eine Aufgabe ausführte oder Bilder betrachtete. Durch das Training linearer Decoder mit kleinen Datenproben entstanden Muster, die von denen bei Menschen und Affen nicht zu unterscheiden waren. Dies ermöglichte die Entwicklung eines leistungsstarken Satzes von Merkmalsräumen, die in Gehirn-Maschine-Schnittstellenanwendungen verwendet werden könnten, um bestimmte Wahrnehmungen zu visualisieren. Der Redner diskutiert dann die nichtlinearen Transformationen, die zwischen der neuronalen Aktivität und dem Bild auftreten, und legt nahe, dass in diesem Bereich Deep Learning und Vision Science zusammenkommen.

  • 00:25:00 In diesem Abschnitt erörtert der Referent, wie tiefe Faltungsnetzwerke ursprünglich basierend auf in der Neurowissenschaft bekannten Prinzipien wie dem Konzept der Kantenerkennung, Filterung, Ausgabe-Nichtlinearitäten und Verstärkungssteuerung aufgebaut wurden. Da diese Modelle jedoch anhand neuronaler Daten in visuellen Bereichen des Gehirns getestet wurden, versagten sie und waren nicht in der Lage, die Reaktionsmuster einzelner Neuronen in V4 vorherzusagen. Während diese Modelle Hypothesen für Neurowissenschaftler waren, waren sie unzureichend, um zu erklären, wie das visuelle System funktioniert. Trotz des Scheiterns dieser frühen Modelle haben sie als Inspiration für die laufende Arbeit gedient, um die erlernten Filter in tiefen Netzwerken von den in V1 beobachteten zu trennen.

  • 00:30:00 In diesem Abschnitt erörtert der Referent, wie die Zusammenarbeit zwischen Neurowissenschaft und Deep Learning die Optimierung unbekannter Parameter in künstlichen neuronalen Netzen ermöglicht hat, was zu Modellen führte, die die neuronalen Reaktionsmuster des Primatengehirns genau nachahmen. Der Referent stellt fest, dass der Durchbruch in der Implementierung einer Schleife lag, die es Ingenieuren ermöglichte, die Mikroparameter der Filter in Deep Convolutional Neural Networks zu optimieren. Auf diese Weise wurden die erstellten Modelle als neue Hypothesen darüber angesehen, was im visuellen System vor sich gehen könnte, was einen Vergleich mit biologischen neuronalen Netzwerken im Gehirn ermöglichte. Der Redner fährt fort, Beispiele dafür zu zeigen, wie diese Vergleiche durchgeführt wurden, was zu frühen mechanistischen Hypothesen über die Gehirnfunktion führte. Insgesamt hat diese Zusammenarbeit die Entwicklung von in silico-Neuronen des ventralen Stroms ermöglicht, die diejenigen im biologischen ventralen Strom genau nachahmen, was zu einem besseren Einblick in die Verarbeitung visueller Informationen im Gehirn führt.

  • 00:35:00 In diesem Abschnitt erklärt der Referent, dass die von ihnen entwickelten Deep-Learning-Modelle Hypothesen dafür sind, wie das Gehirn sensorische Systemprozesse ausführt, insbesondere im Bereich der visuellen Objekterkennung. Sie stellen fest, dass diese Modelle nicht perfekt sind und einige Diskrepanzen aufweisen, die sie in Zukunft optimieren und verbessern wollen. Der Redner erörtert auch die breiteren Anwendungen von Deep Learning in den Bereichen Technik und KI und betont, dass diese Modelle als Hilfsmittel für das weitere wissenschaftliche Verständnis und die Optimierung verwendet werden können. Abschließend erklären sie den Bedarf an mehr Daten und Modellen für genauere Darstellungen der Gehirnprozesse.

  • 00:40:00 In diesem Abschnitt erörtert der Referent das Innovationspotenzial von Deep Learning und künstlicher Intelligenz, das über die Nachahmung der Evolution des Gehirns hinausgeht. Sie schlagen vor, dass die meisten Innovationen aus der Wahl der Architektur resultieren und die Optimierungstools verfügbar sein werden, um diese Optimierung zu ermöglichen. Wiederkehrende Fragen können Einblick in die unterbewussten Elemente der Kognition geben, und die Anatomie des Gehirns verbindet die Ideen der Wiederholung, was zu nachgelagerten Bereichen führen kann, die mehr an der Kognition beteiligt sind. Der Redner geht auch auf Sprungverbindungen, Grauzonen und darauf ein, wie die derzeitige Arbeit versucht, dieses Problem anzugehen.

  • 00:45:00 In diesem Abschnitt des Videos diskutiert der Sprecher das Konzept der Neotenie und wie es den Anteil fest codierter Funktionen und Filter im visuellen Kortex bei verschiedenen Arten beeinflusst. Wenn Sie sich im System nach oben bewegen, gibt es mehr Plastizität im Gehirn, und Affen haben Bereiche bis zu einem bestimmten Niveau, während Menschen mehr Gehirngewebe haben, was mehr Flexibilität ermöglicht. Der Sprecher glaubt, dass es im Gehirn viel Raum für Flexibilität gibt, und obwohl es Teil unseres Primatensystems ist, liegt ein Teil des Gehirns darüber hinaus, und das ist in Ordnung. Der nächste Redner diskutiert dann ihre Arbeit zum Nachdenken über Gehirne als wiederkehrende neuronale Netze und wie die Untersuchung der Schnittmenge zwischen künstlichen und realen neuronalen Systemen uns helfen kann, ihre Funktionsweise zu verstehen.

  • 00:50:00 In diesem Abschnitt liegt der Fokus darauf, wie effizientes und spärliches Codieren verwendet werden kann, um eine effiziente Repräsentationsbasis in künstlichen und realen neuronalen Systemen zu lernen. Durch die Untersuchung gehirnähnlicher Verhaltensweisen in rekurrenten Netzwerken können Prinzipien gefunden werden, die die Fähigkeiten künstlicher rekurrenter Netzwerke erweitern und helfen zu verstehen, wie die echten funktionieren. Wiederkehrende neuronale Netze lernen, interne Repräsentationen und Erinnerungen zu speichern und zu modifizieren, wodurch sie in der Lage sind, überlappende Signale ähnlich wie beim Cocktailparty-Effekt zu trennen. Echte neuronale Systeme sind hervorragend darin, Repräsentationen zu speichern und zu manipulieren, wie in der Gehirnregion, die als Arbeitsgedächtnis in rekurrenten Netzwerken bezeichnet wird, zu sehen ist. Ziel ist es, Prinzipien zu finden, die die Fähigkeiten künstlicher rekurrenter Netzwerke erweitern und helfen zu verstehen, wie die realen funktionieren.

  • 00:55:00 In diesem Abschnitt der Vorlesung wird die Position einer Ratte von Neuronen entschlüsselt, die Ortszellen genannt werden, die die Bewegung der Ratte verfolgen, während sie sich im Raum bewegt. Die Ratte kann auch ihre neuronale Repräsentation manipulieren, um zukünftige Flugbahnen zu planen, bevor sie sich überhaupt bewegt. Der Vortrag untersucht dann, wie neuronale Netze Erinnerungen manipulieren können, wie zum Beispiel die Fähigkeit des Singvogels, das Singen zu lernen, indem er Erwachsene imitiert. Der Vortrag diskutiert anhand von Beispielen, wie neuronale Netze komplexe Prozesse der Manipulation von Informationen lernen können, und stellt das Konzept eines chaotischen Attraktors als Gedächtnismodell und ein einfaches nichtlineares dynamisches System namens Reservoir als neuronales Netzmodell vor. Der Kontrollparameter des Reservoirs wird verwendet, um die Repräsentation des Netzwerks von dem, was es gelernt hat, zu modifizieren, und die Vorlesung liefert praktische Beispiele dafür, wie diese Kontrolle die Bedeutung von etwas ändern kann.

  • 01:00:00 In diesem Abschnitt erörtert der Referent, wie sich die Fähigkeit zur Kontextmodulation auf das Lernen und die Kapazität des neuronalen Netzwerks auswirkt. Sie erklären, dass die Voreingenommenheit des Netzwerks mit Kontextvariablen bedeutet, dass mehr Daten für das Training benötigt werden, um gemeinsame Parameter zu lernen. Der Redner spricht auch über die Verwendung der Reservoir-Computing-Methode zum Speichern von Erinnerungen in neuronalen Netzen und wie einfache Lernschemata zum Imitieren beobachteter Eingaben ausreichen, um Erinnerungen zu speichern. Anschließend diskutieren sie das Modifizieren von Erinnerungen in neuronalen Netzwerken, indem sie die Übersetzung von Attraktoren in x1-Richtung betrachten und den Wert des Kontextparameters c für jede Übersetzung ändern.

  • 01:05:00 In diesem Abschnitt diskutiert der Referent die Fähigkeit von Reservoirs zu lernen, Transformationsoperationen auf ihre interne Repräsentation von Attraktor-Mannigfaltigkeiten zu interpolieren und zu extrapolieren. Das Team stellte vier Trainingsbeispiele eines in x1-Richtung gequetschten Lorenz-Attraktors bereit und führte Training und Feedback durch. Es wurde festgestellt, dass die Reservoire lernen, Transformationsoperationen zu interpolieren und zu extrapolieren, die willkürlich sein können, einschließlich einer Dehnung oder einer Multivariation. Das Team fand auch heraus, dass Reservoire die globale Bifurkationsstruktur des Lorenz-Attraktors und die Bifurkationsdiagramme mehrerer anderer dynamischer Normalformen vorhersagen können, wie z. B. Sattelmodus und überkritische Pitchfork-Bifurkationen. Die neuronalen Netze können sogar lernen, nicht-dynamische kinematische Trajektorien vorherzusagen, wie am Beispiel einer modifizierten Jansen-Verknüpfung.

  • 01:10:00 In diesem Abschnitt des Vortrags diskutiert der Referent eine Methode namens invertierbare generalisierte Synchronisation, die eine Möglichkeit darstellt, die Idee der Abbildung von Stimuli auf die Neurodynamik in einem neuralen System zu formalisieren. Der Referent erklärt, dass Neuronen, um eine Repräsentation zu bilden, eine verteilte Repräsentation bilden müssen, anstatt bestimmte Teile der Eingangsreize einzeln zu codieren. Sie müssen auch in der Lage sein, sich selbst mit ihrer eigenen Darstellung zu steuern, was der Schlüsselmechanismus hinter dem Speichern von Eingaben als Erinnerungen ist. Schließlich demonstriert der Referent, dass rekurrente neuronale Netze chaotische Erinnerungen aufrechterhalten können, sodass sie Erinnerungen übersetzen und transformieren können.

  • 01:15:00 In diesem Abschnitt erörtert der Referent die Lernfähigkeit neuronaler Systeme durch Nachahmung gesehener Beispiele und wie dies zum Erlernen von Repräsentationen, Berechnungen und Manipulationen des Arbeitsgedächtnisses verwendet werden kann. Das Gespräch verlagert sich dann auf die Frage des Feedback-Lernens und wie es auf die vorgestellten Modelle angewendet wird. Während es Hinweise auf eine lineare Trennbarkeit und Rekonstruierbarkeit von Begriffen in bestimmten Teilen des visuellen Kortex gibt, weist der Sprecher auf die Schwierigkeit hin, Hinweise auf Feedback-Lernen zu finden, da es sich um eine ziemlich extreme Lernbedingung handelt. Es gibt einen Vorschlag zur Verwendung von Fehlerkorrekturmechanismen zur Abstimmung des Systems, aber auch die Idee eines festen Parametersatzes, bei dem das Ergebnis anhand der Erwartung der Außenwelt beurteilt wird, und die Bildung hervorstechender Erinnerungen, wenn die Erwartung stark abweicht, wird ebenfalls diskutiert.

  • 01:20:00 In diesem Abschnitt betont der Dozent das Potenzial von Deep Learning, um die kognitiven Funktionen des Gehirns zu verstehen und zu entwickeln. In diesem Bereich sind rekurrente neuronale Netze mit ihrer Fähigkeit zum Gedächtnis und zur internen Dynamik besonders relevant. Der Dozent ermutigt, diese Systeme als lebende und atmende Einheiten zu betrachten und nicht nur als funktionale Näherungswerte. Der Kern dieser kognitiven Systeme liegt im RNN, obwohl sie mit Convolutional Neural Networks für Eingaben und Ausgaben erweitert werden können. Der Hippocampus und die Verbindungen, die er mit verschiedenen Aspekten des Nervensystems herstellt, werden als faszinierendes Beispiel dafür angeführt, wie Erinnerungen über ein interagierendes System von gemeinsam feuernden Neuronen kodiert werden. Der Vortrag schließt mit einer Reflexion über die Vielfalt der im Kurs behandelten Themen und darüber, wie Deep Learning bei der Interpretation kognitiver Systeme in der Zukunft helfen kann.
 

MIT 6.S192 - Vorlesung 1: Computational Aesthetics, Design, Art | Lernen durch Generieren



MIT 6.S192 - Vorlesung 1: Computational Aesthetics, Design, Art | Lernen durch Generieren

Diese Vorlesung behandelt eine Vielzahl von Themen im Zusammenhang mit Computerästhetik, Design und Kunst. Die Rolle der KI bei der Demokratisierung des Zugangs zur Kunstschöpfung, der Designautomatisierung und der Überschreitung der Grenzen der Kunst wird ebenso diskutiert wie die Herausforderungen bei der Quantifizierung der Ästhetik und dem Erreichen eines visuellen Gleichgewichts im Design unter Verwendung von Darstellungen auf hoher und niedriger Ebene. Der Dozent zeigt auch das Potenzial des Computerdesigns auf, um Muster aufzudecken und Botschaften effektiv zu vermitteln, mit Beispielen zur Farbsemantik und zur Gestaltung von Zeitschriftencovern. Mittels Crowdsourcing-Experimenten werden Farbzuordnungen zu verschiedenen Themen ermittelt und die Anwendungsmöglichkeiten dieser Methode in unterschiedlichen Bereichen ausgelotet. Insgesamt stellt der Vortrag die Rolle der KI in kreativen Anwendungen und das Potenzial vor, die Art und Weise, wie wir Kunst, Design und andere Formen des kreativen Ausdrucks schaffen, zu revolutionieren.

Das Video diskutiert die Verwendung von Computerästhetik, Design und Kunst zur Erstellung kreativer Arbeiten mit generativen Modellen wie StyleGAN und DALL-E. Der Dozent betont auch die Bedeutung des Lernens durch Generieren und ermutigt die Zuschauer, Probleme aufzuschlüsseln und Daten zu nutzen, um innovative und kreative Lösungen zu finden. Der Referent geht jedoch auch auf die Grenzen generativer Modelle ein, wie z. B. voreingenommene Daten und die Fähigkeit, zu verallgemeinern und über den Tellerrand hinaus zu denken. Nichtsdestotrotz weist der Dozent die Studenten an, den bereitgestellten Code zu überprüfen und mit den verschiedenen Techniken zur Erzeugung ästhetisch ansprechender Bilder zu experimentieren und gleichzeitig die Teilnahme an einer sokratischen Debatte zwischen Berkeley und dem MIT über Computerästhetik und -design zu fördern.

  • 00:00:00 In diesem Abschnitt des Vortrags diskutiert der Referent die Motivationen für die Implementierung von KI in Kunst, Ästhetik und Kreativität. Sie erklären, dass Kunst ein Schlüsselaspekt der menschlichen Evolution und Kommunikation ist und KI den Zugang zum künstlerischen Schaffen demokratisieren, die Kreativität fördern und die Grenzen der Kunst erweitern kann. Mit Millionen von Fotos, die jeden Tag hochgeladen werden, und 650 geschalteten Anzeigen pro Tag, kann KI dabei helfen, gute Designs automatisch zu entwerfen und zu verstehen, was ein gutes oder schlechtes Design ausmacht. Abschließend argumentiert der Redner, dass KI in der Zukunft eine entscheidende Rolle spielen wird, in der KI jede Sekunde Filme, Theaterstücke und mehr erstellen wird, was zu der Frage führt, ob wir diese Zukunft gestalten wollen.

  • 00:05:00 In diesem Abschnitt diskutiert der Referent die Rolle der KI in Kunst, Ästhetik und Kreativität. Er erklärt, dass Convolutional Neural Networks (CNNs) in Richtung Texturen voreingenommen sein können, aber dies kann durch die Generierung verschiedener Stile und deren Integration in die Daten entzerrt werden. Außerdem erwähnt er, dass 2018 ein Gemälde, das mit einem generativen Modell hergestellt wurde, für eine halbe Million Dollar verkauft wurde. Er geht auch auf die Frage ein, ob Ästhetik quantifizierbar ist, und stellt fest, dass Philosophen und Künstler dieses Thema seit Generationen diskutieren. Abschließend geht er auf die Ziele des Kurses ein, bei denen es darum geht, zu lernen, wie man KI-Algorithmen auf kreative Anwendungen anwendet und interessante Probleme löst.

  • 00:10:00 In diesem Abschnitt des Videos antwortet der Kursleiter auf die Frage, ob für den Kurs Vorkenntnisse in Deep Learning erforderlich sind. Er erklärt, dass der Kurs Deep Learning zwar berühren wird, dies aber nicht der Hauptfokus ist und dass es andere Ressourcen zum Erlernen des Themas gibt. Anschließend geht er auf seine frühere Arbeit zur Quantifizierung von Ästhetik ein und stellt fest, dass die Messung von Ästhetik kein neues Konzept ist und dass es bereits etablierte Modelle wie Birkhoffs Modell aus dem frühen 20. Jahrhundert gibt, die zur Quantifizierung von Ästhetik in verschiedenen Kontexten verwendet werden können, z als visuelles Design, Poesie und sogar Interfaces.

  • 00:15:00 In diesem Abschnitt diskutiert der Referent die Quantifizierung von Ästhetik und die Herausforderungen dabei am Beispiel der visuellen Balance. Gute Repräsentationen sind notwendig, sowohl auf hoher als auch auf niedriger Ebene. Darstellungen auf hoher Ebene können visuelles Gleichgewicht und Rhythmus umfassen, während Darstellungen auf niedriger Ebene auf Merkmalen beruhen, die unter Verwendung neuronaler Netze extrahiert werden. Daten sind auch notwendig, um die Ästhetik zu quantifizieren, einschließlich der Art der verwendeten Daten und ihrer Herkunft. Der Referent erklärt, wie Designern oft durch Intuition das Gleichgewicht beigebracht wird, Ingenieure es jedoch quantifizieren und seine Bedeutung im Design bestimmen möchten.

  • 00:20:00 In diesem Abschnitt diskutiert der Redner den Begriff der visuellen Korrektheit und Ausgewogenheit im Design, auch bekannt als Harmonie. Er spricht über die Arbeit von Arnheim, der vorschlug, dass die Platzierung von Designelementen an bestimmten Hotspots ein visuelles Gleichgewicht schaffen könnte. Der Referent untersucht, ob diese Hypothese durch datengesteuerte Analyse bestätigt werden kann, und untersucht die markanten Teile eines Bildes mit einem Salienzalgorithmus, der seine Ergebnisse auf das strukturelle Netz legt. Er verwendet einen Crawler, um über 120.000 Bilder von einer Fotografie-Website zu sammeln, um die Hervorhebungsmuster auf diesen Bildern zu untersuchen.

  • 00:25:00 In diesem Abschnitt wurde ein Datensatz mit einem Salienzalgorithmus verwendet, um eine Mischung von Gauß-Verläufen anzupassen, um Muster in aggregierten Bildern verschiedener Kategorien wie Porträts, Architektur und Mode zu finden. In Anlehnung an Arnheims Theorie über Schwerpunkt und Drittelregel wurden die Hot Spots of Salience analysiert. Die Ergebnisse können jedoch durch die Art und Weise beeinflusst werden, wie Fotografen Bilder zuschneiden, wie in Studien zur Gültigkeit der Drittelregel gezeigt wurde.

  • 00:30:00 In diesem Abschnitt behandelt der Dozent das Thema Computational Aesthetics and Design. Sie erwähnen die Verfügbarkeit des AVA-Datensatzes, der Anmerkungen zu Ästhetik, Semantik und Fotografiestil enthält. Der Dozent demonstriert dann, wie Deep-Learning-Algorithmen Ästhetikbewertungen lernen und vorhersagen können, und schlägt vor, dass dies zur Verbesserung und Optimierung von Bildern verwendet werden kann. Der Vortrag geht dann auf die Diskussion des Potenzials des Computerdesigns und seiner Bedeutung für das Aufdecken von Mustern im Design und die bessere Selbstdarstellung ein.

  • 00:35:00 In diesem Abschnitt des Vortrags stellt der Referent das Konzept des Computerdesigns vor und diskutiert den Unterschied zwischen Design und Kunst. Das Problem im Design ist gegeben, und die Aufgabe des Designers besteht darin, eine Botschaft zu vermitteln, um dieses Problem zu lösen, während Künstler das Problem selbst definieren und künstlerische Techniken anwenden, um es zu lösen. Die Prinzipien des Designs, wie z. B. Kommunikation statt Dekoration, können einer Maschine schwer zu vermitteln sein, aber verschiedene Theorien, Metriken und Regeln, einschließlich Gestalt- und Farbharmonie, können verwendet werden, um Inhalte automatisch zu erstellen und zu empfehlen. Der Referent liefert auch ein Beispiel für eine automatisierte Designsoftware, die Text und Designelemente auf einem gegebenen Hintergrundbild anordnen kann.

  • 00:40:00 In diesem Abschnitt des Videos erläutert der Sprecher, wie er ein automatisches Design für Zeitschriftencover erstellte, indem er Komplementärfarben auswählte und die Arbeit von Itten und Matsuda sowie Kobiashi studierte, die 30 Jahre lang Farbkombinationen studierten, und wie Farben können mit Wörtern wie romantisch, weich und ordentlich assoziiert werden. Basierend auf dieser Arbeit erstellte der Referent ein automatisches Designsystem, das Benutzern basierend auf den von ihnen gewählten Farben Empfehlungen geben und Stile für Zeitschriftencover erstellen kann. Darüber hinaus untersuchte der Referent, ob Daten von professionellen Designern Muster in Farbpaletten für Titelseiten von Zeitschriften extrahieren könnten.

  • 00:45:00 In diesem Abschnitt des Videos erläutert der Sprecher sein Projekt, bei dem es darum ging, einen Datensatz von Zeitschriftencovern aus 12 verschiedenen Genres zu sammeln, um gleichzeitig den Text, das Genre und die Farbkombinationen zu finden, die auf den Covers verwendet wurden. Der Referent verwendete Themenmodellierung, um verschiedene Themen zu extrahieren, die eine Kombination aus Wörtern und Farben sind, und zeigte, wie Wortwolken und Farbpaletten verwendet werden können, um diese Themen zu visualisieren. Der Redner erörterte auch den Einsatz von Crowdsourcing, um festzustellen, ob die Ergebnisse des Projekts universell sind oder nicht.

  • 00:50:00 In diesem Abschnitt diskutiert der Redner ein Crowdsourcing-Experiment, das sie durchgeführt haben, um zu verstehen, ob verschiedene Kulturen und Demografien sich auf Farbassoziationen zu verschiedenen Themen einigen. Das Experiment bestand darin, eine Farbpalette zu zeigen, die zufällig aus einem Thema ausgewählt wurde, und dann verschiedene Wortwolken zu zeigen und die Probanden zu bitten, sie zuzuordnen. Über 1.000 Teilnehmer aus verschiedenen Ländern nahmen teil, und die resultierende Korrelations- oder Relevanzmatrix offenbarte einige interessante Muster. Das Experiment zeigte, dass sich die Teilnehmer größtenteils auf die Farbassoziationen zu verschiedenen Themen einig waren, obwohl es einige Ausnahmen gab. Der Referent hob auch die potenziellen Anwendungen dieser Methode beim Entwerfen von Farbpaletten für verschiedene Arten von Produkten hervor.

  • 00:55:00 In diesem Abschnitt des Vortrags erörtert der Referent verschiedene Anwendungen der Farbsemantik bei Aufgaben wie der Empfehlung von Farbpaletten, dem Abrufen von Bildern, dem Umfärben und sogar dem Webdesign. Sie demonstriert, wie Algorithmen verwendet werden können, um Farben und Zeitschriftencover basierend auf bestimmten Konzepten oder Themen zu empfehlen, sowie um Muster im Webdesign im Laufe der Zeit zu analysieren und zu visualisieren. Die Verwendung von Convolutional Neural Networks wird auch bei der Identifizierung von Farbpaletten und Website-Design-Trends aus bestimmten Epochen demonstriert.

  • 01:00:00 In diesem Abschnitt erörtert der Referent die Verwendung von Computerdesign und Ästhetik bei der Vorhersage des Jahres eines Designs. Sie erklären, dass das Modell nicht nur Farben berücksichtigt, sondern auch allgemeine Merkmale wie Typografie. Die Genauigkeit der Klassifizierung wurde nicht erwähnt, aber es wurde festgestellt, dass sie höher als zufällig ist. Computational Design wurde auch verwendet, um Anzeigen zu analysieren, Logos und Symbole zu erstellen und Modefarbpaletten zu entwerfen.

  • 01:05:00 In diesem Abschnitt diskutiert der Referent die Verwendung generativer Modelle in Mode, Produktdesign und Kunst. Er zeigt Beispiele von Datensätzen, die verwendet werden, um Modeelemente wie Farben und Tags zu verstehen, und erwähnt Kollegen, die ähnliche Datensätze verwenden, um Produktdesign zu empfehlen. Der Referent spricht auch über generative Modelle, die eine Eingabeskizze nehmen und ein Produktdesign ausgeben oder ein Bild so ändern können, dass es wie ein anderes Modeartikel aussieht. Darüber hinaus berührt er Themen im Zusammenhang mit Computerkunst und Kreativität, einschließlich Stiltransfer und Tools zur Inhaltsgenerierung.

  • 01:10:00 In diesem Abschnitt des Videos erörtert der Professor die Verwendung von Computerkunst und künstlicher Intelligenz bei der Erstellung kreativer Werke, einschließlich Bild- und Stilübertragung, Inhaltsgenerierung und generative Modelle für Videos. Die Diskussion umfasst mehrere Beispiele neuerer Arbeiten in diesen Bereichen, darunter StyleGAN, DALL-E von OpenAI und generative Modelle für die Modifikation von Videoposen. Trotz dieser Fortschritte bleibt die Frage, ob Maschinen wirklich Künstler sein können oder ob Kreativität und Kunst nur dem Menschen gehören.

  • 01:15:00 In diesem Abschnitt diskutiert der Sprecher seine Begeisterung für das Lernen durch Generieren und teilt einige Ergebnisse mit. Sie erklären, dass Lernen durch Generieren interessant ist, weil es eine Möglichkeit ist, KI zu trainieren, Algorithmen zu entwickeln, die darauf basieren, wie Menschen lernen, Probleme zu lösen. Der Redner geht auch auf eine Frage zur Quantifizierung von Ästhetik ein und erwähnt, dass eine Möglichkeit, die Kluft zwischen hochrangigen Begriffen in der menschlichen Sprache und Computerbegriffen zu überbrücken, darin besteht, Daten und Modelle zu verwenden, kulturelle Konzepte einzubeziehen und sogar Menschen durch Crowdsourcing nach ihrer Meinung zu fragen.

  • 01:20:00 In diesem Abschnitt des Videos erörtert der Sprecher die Bedeutung der Verwendung von Daten beim maschinellen Lernen, um Vorurteile zu vermeiden und interessante Ergebnisse zu erzielen. Er ermutigt die Zuhörer, darüber nachzudenken, wie man Algorithmen oder Darstellungen entwirft, die zu innovativen und kreativen Lösungen führen können. Der Referent hält Kreativität und Innovation für wesentliche Bestandteile der künstlichen Intelligenz und nennt Beispiele, wie sie bei der Gestaltung von Objekten und Konzepten eingesetzt wurden. Er betont, dass Lernen durch Generieren ein effektiver Weg ist, um Problemlösungsfähigkeiten zu entwickeln, und ermutigt die Zuhörer, größere Probleme in kleinere Teilmengen zu zerlegen und sie einzeln zu lösen.

  • 01:25:00 In diesem Abschnitt des Videos diskutiert der Sprecher das Konzept der Verallgemeinerung und des Denkens über den Tellerrand hinaus in Kreativität und KI. Der Referent stellt die Frage, ob generative Modelle zu Generalisierung und Out-of-Distribution-Denken fähig sind. Um dieses Thema zu untersuchen, stellt der Referent das Konzept der Steuerbarkeit von Generative Adversarial Networks (GANs) vor und demonstriert die Fähigkeit, Bilder zu manipulieren, indem er einen Spaziergang im latenten Raum des Generators findet. Sie zeigen, dass aktuelle GAN-Modelle Transformationen wie Vergrößern und Verkleinern, Verschieben und Drehen aufweisen können. Der Referent erläutert den Prozess der Suche nach einem latenten Vektor zur Manipulation des Bildes und zeigt anhand dessen das Potenzial generativer Modelle in Kreativität und Innovation auf.

  • 01:30:00 In diesem Abschnitt des Videos erörtert der Sprecher die Grenzen generativer Modelle wie BigGAN und warum sie diese haben. Er erklärt, dass Verzerrungen in das Modell eingeführt werden können, die auch in der Semantik der Klassen vorhanden sind. Das bedeutet, dass ein Modell verallgemeinern kann, aber nicht so gut wie ein Mensch. Der Referent zeigt weiter, dass das Modell die Verteilung des Datensatzes verlassen und die Art und Weise, wie Bilder aussehen, bis zu einem gewissen Grad verändern kann, aber nur, wenn der zugrunde liegende Datensatz vielfältig ist. Das Papier schlägt vor, dass eine Möglichkeit, die Einschränkungen von voreingenommenen Daten zu überwinden, darin besteht, sie zu erweitern, z. B. durch Vergrößern oder Drehen von Bildern.

  • 01:35:00 In diesem Abschnitt des Videos diskutiert der Dozent die Nutzung des latenten Raums, um durch Transformationen ästhetisch ansprechende Bilder zu erzeugen. Die Transformationen können durch Gehen oder Steuern im latenten Raum erreicht werden, um die Bildfarbe, Zoomen, Drehen, kameraähnliche Änderungen und mehr zu ändern. Der Dozent diskutiert auch die Verwendung eines neuronalen Netzwerks zur Erkennung der Bildästhetik und gibt Feedback darüber, ob eine Gehrichtung oder -transformation ästhetisch ansprechendere Bilder erzeugt. Die Vorlesung ermutigt die Studierenden, sich an einer bevorstehenden sokratischen Debatte zwischen Berkeley und dem MIT über Computerästhetik und -design zu beteiligen. Darüber hinaus weist der Dozent die Studenten an, den bereitgestellten Code zu überprüfen und mit den verschiedenen Techniken zur Erzeugung ästhetisch ansprechender Bilder zu experimentieren.

  • 01:40:00 In diesem Abschnitt des Videos diskutiert der Sprecher das Repository seiner Arbeit und ermutigt die Zuschauer, PyTorch anstelle von TensorFlow zu verwenden, um die bereitgestellten Notebooks auszuführen. Sie erklären auch das Colab-System, das verwendet wird, um die Ergebnisse des Codes zu visualisieren, und betonen, wie wichtig es ist, Bilder zu generieren und die Ergebnisse zu melden. Der Sprecher erinnert die Zuschauer auch daran, dass sie ihnen Fragen per E-Mail stellen können, und dankt ihnen für die Teilnahme am Kurs.
 

MIT 6.S192 - Vortrag 2: Eine sokratische Debatte, Alyosha Efros und Phillip Isola



MIT 6.S192 - Vortrag 2: Eine sokratische Debatte, Alyosha Efros und Phillip Isola

In diesem Video diskutieren Alyosha Efros und Phillip Isola die Idee, Bilder zu verwenden, um gemeinsame Erlebnisse zu schaffen. Sie argumentieren, dass dies helfen kann, Erinnerungen zu wecken und ein Gefühl von Nostalgie zu erzeugen.

Dieses Video ist eine Debatte zwischen zwei Professoren am MIT über die Rolle von Daten in der künstlichen Intelligenz. Efros argumentiert, dass Daten für die KI unerlässlich sind, während Isola kontert, dass Daten ein Hindernis für die KI-Entwicklung sein können.

  • 00:00:00 In diesem Vortrag diskutieren Alyosha Efros und Phillip Isola die Sicht auf generative Modelle als eine neue Art von Daten. Efros argumentiert, dass die aktuelle Ära der generativen Modelle genau wie Daten ist, aber besser. Isola beschreibt, wie generative Modelle funktionieren und wie sie verwendet werden können, um interessante Inhalte zu erstellen.

  • 00:05:00 In diesem Vortrag diskutieren Alyosha Efros und Phillip Isola die Leistungsfähigkeit generativer Modelle. Generative Modelle ermöglichen es uns, Datenpunkte zu erstellen, die mit zusätzlichen Funktionen ausgestattet sind, z. B. eine latente Variable, die zum Ändern des Bildes verwendet werden kann. Dies eröffnet viele Möglichkeiten für Kreativität und wissenschaftliche Visualisierung.

  • 00:10:00 Das Video diskutiert die Idee, Bilder durch latenten Raum zu manipulieren. Sie erklären, wie dies bewerkstelligt werden kann, indem sie nach einer Richtung suchen, die zu einer sinnvollen Transformation im Bildraum führt. Sie geben das Beispiel, wie man ein Bild einprägsamer macht, indem man hineinzoomt. Schließlich diskutieren sie, wie diese Technik verwendet werden kann
    um das Konzept zu visualisieren, was es bedeutet, dass etwas unvergesslich ist.

  • 00:15:00 In diesem Video wird das Konzept generativer Modelle erörtert, bei denen es sich um eine Art von Daten handelt, die manipuliert werden können, um neue Bilder zu erstellen. Das Video zeigt die Fähigkeit dieser Modelle, neue Bilder kompositorisch zu erstellen, indem sie verschiedene Teile verschiedener Bilder zusammenfügen. Das Video diskutiert auch die Grenzen generativer Modelle, wie z. B. ihre Ausrichtung auf bestimmte Objekte oder ihre Unfähigkeit, bestimmte Szenen genau darzustellen.

  • 00:20:00 Alyosha Efros und Phillip Isola sprechen über das Konzept von Data Plus Plus, einer Denkweise über Daten, die sowohl die Daten selbst als auch die zu ihrer Generierung verwendeten Methoden umfasst. Efros argumentiert, dass diese Perspektive nützlich ist, weil sie eine aussagekräftigere Interpolation zwischen Datenpunkten ermöglicht. Isola fragt, wie man den Weg zwischen zwei Datenpunkten wählt, und Efros erklärt, dass das Modell den kürzesten Weg wählt, der oft am natürlichsten aussieht.

  • 00:25:00 In diesem Video debattieren Phillip Isola und Alyosha Efros über die Vorzüge des „Dall-E“-Algorithmus. Efros argumentiert, dass der Algorithmus beeindruckend ist, weil er in der Lage ist, Sprache zu verstehen. Isola entgegnet, dass der Algorithmus nicht wirklich Sprache versteht, sondern Wörter und Grammatik.

  • 00:30:00 Der Sprecher argumentiert, dass GANs nicht wirklich kreativ sind, weil sie nur auf hochgradig kuratierten Daten trainiert werden. Er schlägt vor, dass bidirektionales Mapping der beste Weg ist, wenn Sie es sich leisten können.

  • 00:35:00 In diesem Vortrag erörtern Alyosha Efros und Phillip Isola die Vorzüge von datengetriebenen vs. modellbasierten Ansätzen in der künstlichen Intelligenzforschung. Efros argumentiert, dass Modelle zunehmend zur primären Schnittstelle zu Daten werden und dass Datenwissenschaftler lernen müssen, wie man mit Modellen statt mit Datensätzen arbeitet. Isola stimmt dem zu und fügt hinzu, dass die zum Trainieren dieser Modelle verwendeten Datensätze immer größer und komplexer werden.

  • 00:40:00 Dieses Video ist ein Vortrag von Alyosha Efros und Phillip Isola zum Thema Kontext in der Kunst. Efros spricht darüber, wie ein Foto aus einem Kunstwerk von Michael Galinsky mit dem Titel „Malls Across America“ ihn tief beeindruckt hat und wie der Kontext, in dem das Foto betrachtet wird, seine Bedeutung beeinflussen kann. Isola spricht darüber, wie ein Foto eines Mädchens, das auf das Meer blickt, Erinnerungen und Empfindungen für diejenigen wecken kann, die während der Zeit, in der es aufgenommen wurde, am Leben waren.

  • 00:45:00 Dieses Video ist eine Diskussion zwischen zwei Professoren über das Konzept der Nostalgie und wie es verwendet werden kann, um Kunst zu schätzen. Sie verwenden das Beispiel eines Fotos von zwei Freunden vor einer Tür, das für die beiden nur aufgrund ihrer gemeinsamen Erinnerungen von Bedeutung ist. Sie argumentieren, dass diese Art von Nostalgie in vielen verschiedenen Formen zu finden ist und dass sie eine angenehme Erfahrung für diejenigen sein kann, die sich an Erinnerungen erinnern können.

  • 00:50:00 In diesem Video diskutieren Alyosha Efros und Phillip Isola die Idee, Bilder zu verwenden, um gemeinsame Erfahrungen zwischen Menschen aus einer bestimmten Stadt hervorzurufen. Sie argumentieren, dass dies helfen kann, Erinnerungen zu wecken und ein Gefühl von Nostalgie zu erzeugen.

  • 00:55:00 Das Gemälde „Olympia“ von Edouard Monet war bei seiner Veröffentlichung im Jahr 1865 aufgrund seiner Nacktheit und seines abgeflachten Hauttons ein großer Skandal. Einige glauben, dass die Handplatzierung in dem Gemälde die Menschen in den Wahnsinn getrieben hat.

  • 01:00:00 In diesem Vortrag geht es darum, wie Kunst unterschiedlich interpretiert werden kann, je nachdem in welchem Kontext sie betrachtet wird. Als Beispiel diente das Gemälde "Reclining Venus" von Amedeo Modigliani, das bei seiner ersten Präsentation für Empörung sorgte, weil es als Parodie auf ein berühmtes Gemälde einer nackten Frau angesehen wurde. Im Zusammenhang mit anderen Gemälden nackter Frauen kann es jedoch als gültiges Kunstwerk angesehen werden.

  • 01:05:00 In dem YouTube-Video "MIT 6.S192 - Lecture 2: A Socratic debatte, Alyosha Efros and Phillip Isola" diskutieren die beiden über die Bedeutung von Gemälden des russischen Malers Zlotnikov und des amerikanischen Malers Hurst. Efros argumentiert, dass die Richtung der Gemälde durch das Gefühl von Freiheit und Enge bestimmt wird, das sie hervorrufen. Isola entgegnet, dass die Richtung durch das Gemälde des schwarzen Quadrats von Malewitsch bestimmt wird, das er als die endgültige Auflösung einer bestimmten Richtung ansieht.

  • 01:10:00 Phillip Isola und Alyosha Efros debattieren über die Bedeutung von Kunst, insbesondere über ein Gemälde mit schwarzen Quadraten von Malewitsch. Isola argumentiert, dass das Gemälde ein Zeichen für nichts ist, während Efros argumentiert, dass es eine natürliche Weiterentwicklung für Malevich ist.

  • 01:15:00 Der Punkt dieses Videos ist, dass wir die Komplexität von Maschinen möglicherweise überschätzen und dass das, was für uns wie Magie aussieht, möglicherweise nur das Ergebnis einfacher Prozesse ist. Braiterbergs Buch „Vehicles“ wird als Beispiel dafür herangezogen, wie aus einfachen Interaktionen komplexe Verhaltensweisen entstehen können.

  • 01:20:00 In diesem Vortrag debattieren Efros und Isola über die Natur von Kreativität und Neuheit. Efros argumentiert, dass beide das Ergebnis inkrementeller Änderungen sind und dass der kreative Prozess normalerweise sehr reibungslos verläuft. Isola kontert, dass Neuheit oft das Ergebnis von Zufall und Glück ist.

  • 01:25:00 Dies ist eine Debatte zwischen zwei Personen über die Rolle des Kontexts in Kunst und Wissenschaft. Eine Person argumentiert, dass Kontext notwendig ist, damit Kunst sinnvoll ist, während die andere argumentiert, dass Kontext nicht notwendig ist und dass Kunst ohne ihn neuartig sein kann.

  • 01:30:00 In diesem Vortrag debattieren Efros und Isola über die Rolle des Glücks beim wissenschaftlichen Erfolg. Efros argumentiert, dass Glück eine bedeutende Rolle spielt, während Isola argumentiert, dass es Möglichkeiten gibt, Größe zu planen.

  • 01:35:00 In diesem Vortrag diskutieren Alyosha Efros und Phillip Isola die Rolle des Glücks in der Kreativität, wobei Efros argumentiert, dass mehr dahinterstecken muss als nur Glück. Isola argumentiert, dass Daten plus plus (die Kombination von Daten und Operationen) der Schlüssel zur Kreativität sind und dass die Möglichkeiten endlos sind, sobald Sie die richtigen Daten haben.

  • 01:40:00 Dieses YouTube-Video ist eine Debatte zwischen Alyosha Efros und Phillip Isola über die Unterschiede zwischen der Arbeit mit Daten und Modellen und darüber, ob Daten obsolet werden oder nicht. Efros argumentiert, dass Daten bereits an Bedeutung verlieren, da Modelle immer fortschrittlicher werden, und dass Modelle schließlich Menschen an Intelligenz übertreffen werden. Isola argumentiert, dass Daten immer noch der Goldstandard sind und dass Modelle niemals mehr können als die Daten, auf denen sie basieren.

  • 01:45:00 In dieser Debatte diskutieren die MIT-Professoren Alyosha Efros und Phillip Isola die Beziehung zwischen Kunst und KI. Efros argumentiert, dass Berechnungen der beste Weg sind, um über die Beziehung nachzudenken, und dass es eine starke Verbindung zwischen Kunst und Evolution gibt. Isola stimmt zu, dass es eine Verbindung zwischen den beiden gibt, argumentiert jedoch, dass aktuelle Modelle nicht in der Lage sind, neue Informationen aus Daten zu extrapolieren, und dass dies der Schlüssel zu wirklich kreativer KI ist.

  • 01:50:00 Es war toll, mit Phillip und Alyosha über Kunst und Computer zu plaudern. Sie glauben beide, dass Kunst an der Spitze eines neuen Denkparadigmas steht und dass Berechnungen verwendet werden können, um neue Ideen zu erforschen.

  • 01:55:00 In diesem Vortrag führen Alyosha Efros und Phillip Isola eine sokratische Debatte über die Rolle von Daten in der künstlichen Intelligenz. Efros argumentiert, dass Daten für die KI unerlässlich sind, während Isola kontert, dass Daten ein Hindernis für die KI-Entwicklung sein können.
 

MIT 6.S192 - Vortrag 3: "Effiziente GANs" von Jun-Yan Zhu



MIT 6.S192 - Vortrag 3: "Effiziente GANs" von Jun-Yan Zhu

Die Vorlesung behandelt die Herausforderungen beim Training von GAN-Modellen, einschließlich der Notwendigkeit hoher Rechenleistung, großer Datenmengen und komplizierter Algorithmen, die umfangreiche Schulungssitzungen erfordern. Der Dozent stellt jedoch neue Methoden vor, mit denen GANs schneller lernen und mit weniger Datensätzen trainieren können, z. Der Vortrag demonstriert auch die interaktive Bildbearbeitung mit GANs und betont die Bedeutung großer und vielfältiger Datensätze für ein erfolgreiches GAN-Training. Die Codes zum Ausführen des Modells sind auf GitHub mit Schritt-für-Schritt-Anleitungen zum Ausführen des Modells für verschiedene Datentypen verfügbar. Die Vorlesung schließt mit einer Diskussion über die Bedeutung der Modellkomprimierung für praktische Zwecke.

  • 00:00:00 In diesem Abschnitt stellt der Referent das Konzept effizienter GANs vor und erklärt, wie teuer GANs sind. Während GANs für verschiedene Aufgaben der Inhaltserstellung und Kreativität verwendet wurden, erfordert die Entwicklung neuer Algorithmen oder die Durchführung von Echtzeitleistung High-End-GPUs. Für die Entwicklung des GauGAN-Projekts benötigte der Forscher Hunderte von High-End-GPUs für das Training, und selbst nach einem Jahr Entwicklung musste das Team einen teuren Laptop kaufen, um das Projekt herumzutragen. Die Kosten für das Training von GANs und die Entwicklung von Algorithmen sind hoch, und derzeit ist es für Universitäten eine Herausforderung, mit großen Unternehmen wie NVIDIA oder DeepMind zu konkurrieren.

  • 00:05:00 In diesem Abschnitt erläutert der Referent die drei Haupthindernisse für mehr Benutzer, um GANs effektiv zu nutzen, nämlich die Notwendigkeit hoher Rechenleistung, großer Datenmengen und eines komplizierten Algorithmus, der viele Schulungssitzungen erfordert. Er erklärt, dass GANs aufgrund der hochwertigen Bilder und Vorverarbeitungsschritte, die zum Trainieren des Modells erforderlich sind, rechenintensiv sind. Darüber hinaus machen die großen Datensätze und die Notwendigkeit von Etiketten das Training von GANs noch schwieriger. Er stellt jedoch neue Methoden vor, mit denen GANs schneller lernen und mit weniger Datensätzen trainieren können, was Erstellern von Inhalten und Künstlern mit begrenztem Zugang zu Ressourcen helfen kann, ihre eigenen Modelle zu trainieren und zu testen.

  • 00:10:00 In diesem Abschnitt der Vorlesung stellt Jun-Yan Zhu eine Methode zum Komprimieren von Lehrermodellen vor, die das allgemeine Framework der GANs-Komprimierung verwendet. Das Ziel besteht darin, ein Schülermodell mit weniger Filtern zu finden, das die gleiche Art von Ausgabe wie das Lehrermodell erzeugen kann. Die Methode beinhaltet das Erstellen einer Verlustfunktion, um sicherzustellen, dass die Verteilung der Zebraausgabe des Schülers der Ausgabe des Lehrers sehr ähnlich sieht, die Zwischenmerkmalsdarstellung des Schülers der des Lehrers sehr ähnlich ist und die Ausgabe des Schülers gemäß einem gegnerischen Verlust wie ein Zebra aussieht . Der Prozess beinhaltet auch die Suche nach der optimalen Anzahl von Kanälen, die dieselben Ergebnisse liefern kann, während die Größe des Modells und die Trainingszeit reduziert werden. Der Prozess des Teilens von Gewichten über verschiedene Konfigurationen hinweg ermöglicht es, mehrere Konfigurationen zu trainieren, ohne sie einzeln zu trainieren, wodurch die Trainingszeit verkürzt wird.

  • 00:15:00 In diesem Abschnitt erläutert Jun-Yan Zhu den Prozess des Trainierens und Bewertens von GAN-Modellen durch verschiedene Konfigurationen sowie die Verwendung verschiedener Verlustfunktionen, um Lehrermodelle nachzuahmen und Gewichtungen über verschiedene Konfigurationen hinweg zu teilen. Es wurden Ergebnisse für Modelle unterschiedlicher Größen und Rechenkosten vorgestellt, zusammen mit der Idee, Modelle zu komprimieren, um Echtzeitleistung auf mobilen Geräten zu erreichen. Die Anwendung dieser Idee auf StyleGAN2 wurde ebenfalls vorgestellt und zeigte, wie kostengünstige Modelle für die Bildbearbeitung verwendet werden können, bevor die endgültige Ausgabe des Originalmodells angewendet wird.

  • 00:20:00 In diesem Abschnitt demonstriert der Referent eine Demo der interaktiven Bildbearbeitung mit GANs. Das Ziel der Demo ist es, Benutzern zu ermöglichen, ein Bild in verschiedenen Attributen zu bearbeiten, z. B. ein Lächeln hinzuzufügen oder die Haarfarbe zu ändern, und basierend auf ihren Änderungen sofortiges Feedback zu erhalten. Das System verwendet ein kleineres Modell, das eine konsistente Ausgabe mit dem großen Modell erzeugt, um sicherzustellen, dass die Vorschau informativ bleibt. Sobald die Bearbeitungen abgeschlossen sind, kann das ursprüngliche Modell ausgeführt werden, um eine qualitativ hochwertige Ausgabe zu erzeugen. Die interaktive Bearbeitung ist schneller und liefert qualitativ hochwertige Ergebnisse im Vergleich zu bestehender Software zur Erstellung von Inhalten ohne Deep Learning.

  • 00:25:00 In diesem Abschnitt des Vortrags erörtert Professor Jun-Yan Zhu die Herausforderungen beim Training von GAN-Modellen und verweist auf die Notwendigkeit großer Mengen hochwertiger Daten für eine effektive Leistung. Während es möglich ist, Rendering-Software oder andere Tools zu verwenden, um den Prozess zu beschleunigen und Vorschauen zu erstellen, erfordert das Training benutzerdefinierter Modelle das Sammeln erheblicher Mengen an kommentierter Daten. Zhu gibt das Beispiel des Trainierens eines stylegan2-Modells mit einem Datensatz von nur 50 oder 100 Gesichtern, was zu verzerrten Bildern führte. Der Vortrag unterstreicht die Bedeutung großer und vielfältiger Datensätze für ein erfolgreiches GAN-Training.

  • 00:30:00 In diesem Abschnitt erörtert der Referent die Bedeutung einer ausreichenden Menge an Trainingsdaten in GAN-Modellen. Sie zeigen, dass der Diskriminator beim Training mit kleineren Datensätzen alle Bilder leicht überanpassen und korrekt klassifizieren kann, aber Probleme haben wird, auf echte Bilder zu verallgemeinern. Dies führt dazu, dass der Generator viele Müllbilder produziert oder zusammenbricht. Der Referent betont, dass bei der Verwendung von GANs für eigene Zwecke oder auf kleinen Datensätzen die Überanpassung viel schwerwiegender wird und die Beschaffung ausreichender Daten für die Erstellung effizienter GANs von entscheidender Bedeutung ist.

  • 00:35:00 In diesem Abschnitt erörtert der Professor die Idee der Datenerweiterung zur Bekämpfung der Überanpassung beim maschinellen Lernen, bei der mehrere Versionen eines einzelnen Bildes erstellt werden, um den Datensatz zu erweitern, ohne neue Stichproben zu sammeln. Die Anwendung dieser Methode auf das GAN-Training ist jedoch komplizierter, da die erzeugten Bilder auch den Effekt der gleichen Transformation oder Erweiterung haben, die auf die realen Bilder angewendet wird, was zu replizierten Artefakten führen kann. Um dieses Problem zu vermeiden, schlägt der Professor vor, sowohl echte als auch gefälschte Bilder zu erweitern und dies nur für das Diskriminatortraining zu tun, um die Unterschiede in den erweiterten Daten zwischen dem Generator und dem Diskriminator auszugleichen.

  • 00:40:00 In diesem Abschnitt erörtert der Referent das Konzept der differenzierbaren Erweiterung als Ansatz zur Überbrückung der Lücke zwischen den Zielen des Generators und des Diskriminators in GANs. Die Hauptidee besteht darin, sowohl gefälschte als auch echte Bilder auf differenzierbare Weise zu erweitern, sodass die Gradienten vom Diskriminator zum Generator zurückgeleitet werden können. Der Referent demonstriert anhand von Beispielen, dass differenzierbare Augmentation bessere Ergebnisse mit minimalen Trainingsdaten ermöglicht und somit den Bedarf an großen Datensätzen reduziert. Der Referent kommt zu dem Schluss, dass die differenzierbare Augmentation eine entscheidende Technik ist, an die man sich beim Training von GANs erinnern sollte.

  • 00:45:00 In diesem Abschnitt erklärt der Dozent, dass alle Codes zum Ausführen des Modells auf GitHub verfügbar sind, mit Schritt-für-Schritt-Anleitungen zum Ausführen des Modells mit verschiedenen Arten von Daten, sogar mit persönlichen Gesichtsbildern. Sie diskutieren auch die spezifischen Tools, die Designern und Künstlern zur Verfügung stehen, und der Dozent erwähnt, dass David Bau über Online-Tools zur Visualisierung und Überwachung interner Einheiten sprechen wird. Der Modellkomprimierungsprozess wird ebenfalls erörtert, mit dem Ziel, die Möglichkeit zu entwickeln, ein Modell einmal zu komprimieren und auf mehreren Geräten bereitzustellen, was für praktische Zwecke wichtig ist, da es Entwicklern Zeit spart und gleichzeitig die Zeit reduziert, die Benutzer für den Zugriff auf das Modell benötigen .
 

MIT 6.S192 - Vortrag 3: "Effiziente GANs" von Jun-Yan Zhu



MIT 6.S192 - Vortrag 3: "Effiziente GANs" von Jun-Yan Zhu

Die Vorlesung behandelt die Herausforderungen beim Training von GAN-Modellen, einschließlich der Notwendigkeit hoher Rechenleistung, großer Datenmengen und komplizierter Algorithmen, die umfangreiche Schulungssitzungen erfordern. Der Dozent stellt jedoch neue Methoden vor, mit denen GANs schneller lernen und mit weniger Datensätzen trainieren können, z. Der Vortrag demonstriert auch die interaktive Bildbearbeitung mit GANs und betont die Bedeutung großer und vielfältiger Datensätze für ein erfolgreiches GAN-Training. Die Codes zum Ausführen des Modells sind auf GitHub mit Schritt-für-Schritt-Anleitungen zum Ausführen des Modells für verschiedene Datentypen verfügbar. Die Vorlesung schließt mit einer Diskussion über die Bedeutung der Modellkomprimierung für praktische Zwecke.

  • 00:00:00 In diesem Abschnitt stellt der Referent das Konzept effizienter GANs vor und erklärt, wie teuer GANs sind. Während GANs für verschiedene Aufgaben der Inhaltserstellung und Kreativität verwendet wurden, erfordert die Entwicklung neuer Algorithmen oder die Durchführung von Echtzeitleistung High-End-GPUs. Für die Entwicklung des GauGAN-Projekts benötigte der Forscher Hunderte von High-End-GPUs für das Training, und selbst nach einem Jahr Entwicklung musste das Team einen teuren Laptop kaufen, um das Projekt herumzutragen. Die Kosten für das Training von GANs und die Entwicklung von Algorithmen sind hoch, und derzeit ist es für Universitäten eine Herausforderung, mit großen Unternehmen wie NVIDIA oder DeepMind zu konkurrieren.

  • 00:05:00 In diesem Abschnitt erläutert der Referent die drei Haupthindernisse für mehr Benutzer, um GANs effektiv zu nutzen, nämlich die Notwendigkeit hoher Rechenleistung, großer Datenmengen und eines komplizierten Algorithmus, der viele Schulungssitzungen erfordert. Er erklärt, dass GANs aufgrund der hochwertigen Bilder und Vorverarbeitungsschritte, die zum Trainieren des Modells erforderlich sind, rechenintensiv sind. Darüber hinaus machen die großen Datensätze und die Notwendigkeit von Etiketten das Training von GANs noch schwieriger. Er stellt jedoch neue Methoden vor, mit denen GANs schneller lernen und mit weniger Datensätzen trainieren können, was Erstellern von Inhalten und Künstlern mit begrenztem Zugang zu Ressourcen helfen kann, ihre eigenen Modelle zu trainieren und zu testen.

  • 00:10:00 In diesem Abschnitt der Vorlesung stellt Jun-Yan Zhu eine Methode zum Komprimieren von Lehrermodellen vor, die das allgemeine Framework der GANs-Komprimierung verwendet. Das Ziel besteht darin, ein Schülermodell mit weniger Filtern zu finden, das die gleiche Art von Ausgabe wie das Lehrermodell erzeugen kann. Die Methode beinhaltet das Erstellen einer Verlustfunktion, um sicherzustellen, dass die Verteilung der Zebraausgabe des Schülers der Ausgabe des Lehrers sehr ähnlich sieht, die Zwischenmerkmalsdarstellung des Schülers der des Lehrers sehr ähnlich ist und die Ausgabe des Schülers gemäß einem gegnerischen Verlust wie ein Zebra aussieht . Der Prozess beinhaltet auch die Suche nach der optimalen Anzahl von Kanälen, die dieselben Ergebnisse liefern kann, während die Größe des Modells und die Trainingszeit reduziert werden. Der Prozess des Teilens von Gewichten über verschiedene Konfigurationen hinweg ermöglicht es, mehrere Konfigurationen zu trainieren, ohne sie einzeln zu trainieren, wodurch die Trainingszeit verkürzt wird.

  • 00:15:00 In diesem Abschnitt erläutert Jun-Yan Zhu den Prozess des Trainierens und Bewertens von GAN-Modellen durch verschiedene Konfigurationen sowie die Verwendung verschiedener Verlustfunktionen, um Lehrermodelle nachzuahmen und Gewichtungen über verschiedene Konfigurationen hinweg zu teilen. Es wurden Ergebnisse für Modelle unterschiedlicher Größen und Rechenkosten vorgestellt, zusammen mit der Idee, Modelle zu komprimieren, um Echtzeitleistung auf mobilen Geräten zu erreichen. Die Anwendung dieser Idee auf StyleGAN2 wurde ebenfalls vorgestellt und zeigte, wie kostengünstige Modelle für die Bildbearbeitung verwendet werden können, bevor die endgültige Ausgabe des Originalmodells angewendet wird.

  • 00:20:00 In diesem Abschnitt demonstriert der Referent eine Demo der interaktiven Bildbearbeitung mit GANs. Das Ziel der Demo ist es, Benutzern zu ermöglichen, ein Bild in verschiedenen Attributen zu bearbeiten, z. B. ein Lächeln hinzuzufügen oder die Haarfarbe zu ändern, und basierend auf ihren Änderungen sofortiges Feedback zu erhalten. Das System verwendet ein kleineres Modell, das eine konsistente Ausgabe mit dem großen Modell erzeugt, um sicherzustellen, dass die Vorschau informativ bleibt. Sobald die Bearbeitungen abgeschlossen sind, kann das ursprüngliche Modell ausgeführt werden, um eine qualitativ hochwertige Ausgabe zu erzeugen. Die interaktive Bearbeitung ist schneller und liefert qualitativ hochwertige Ergebnisse im Vergleich zu bestehender Software zur Erstellung von Inhalten ohne Deep Learning.

  • 00:25:00 In diesem Abschnitt des Vortrags erörtert Professor Jun-Yan Zhu die Herausforderungen beim Training von GAN-Modellen und verweist auf die Notwendigkeit großer Mengen hochwertiger Daten für eine effektive Leistung. Während es möglich ist, Rendering-Software oder andere Tools zu verwenden, um den Prozess zu beschleunigen und Vorschauen zu erstellen, erfordert das Training benutzerdefinierter Modelle das Sammeln erheblicher Mengen an kommentierter Daten. Zhu gibt das Beispiel des Trainierens eines stylegan2-Modells mit einem Datensatz von nur 50 oder 100 Gesichtern, was zu verzerrten Bildern führte. Der Vortrag unterstreicht die Bedeutung großer und vielfältiger Datensätze für ein erfolgreiches GAN-Training.

  • 00:30:00 In diesem Abschnitt erörtert der Referent die Bedeutung einer ausreichenden Menge an Trainingsdaten in GAN-Modellen. Sie zeigen, dass der Diskriminator beim Training mit kleineren Datensätzen alle Bilder leicht überanpassen und korrekt klassifizieren kann, aber Probleme haben wird, auf echte Bilder zu verallgemeinern. Dies führt dazu, dass der Generator viele Müllbilder produziert oder zusammenbricht. Der Referent betont, dass bei der Verwendung von GANs für eigene Zwecke oder auf kleinen Datensätzen die Überanpassung viel schwerwiegender wird und die Beschaffung ausreichender Daten für die Erstellung effizienter GANs von entscheidender Bedeutung ist.

  • 00:35:00 In diesem Abschnitt erörtert der Professor die Idee der Datenerweiterung zur Bekämpfung der Überanpassung beim maschinellen Lernen, bei der mehrere Versionen eines einzelnen Bildes erstellt werden, um den Datensatz zu erweitern, ohne neue Stichproben zu sammeln. Die Anwendung dieser Methode auf das GAN-Training ist jedoch komplizierter, da die erzeugten Bilder auch den Effekt der gleichen Transformation oder Erweiterung haben, die auf die realen Bilder angewendet wird, was zu replizierten Artefakten führen kann. Um dieses Problem zu vermeiden, schlägt der Professor vor, sowohl echte als auch gefälschte Bilder zu erweitern und dies nur für das Diskriminatortraining zu tun, um die Unterschiede in den erweiterten Daten zwischen dem Generator und dem Diskriminator auszugleichen.

  • 00:40:00 In diesem Abschnitt erörtert der Referent das Konzept der differenzierbaren Erweiterung als Ansatz zur Überbrückung der Lücke zwischen den Zielen des Generators und des Diskriminators in GANs. Die Hauptidee besteht darin, sowohl gefälschte als auch echte Bilder auf differenzierbare Weise zu erweitern, sodass die Gradienten vom Diskriminator zum Generator zurückgeleitet werden können. Der Referent demonstriert anhand von Beispielen, dass differenzierbare Augmentation bessere Ergebnisse mit minimalen Trainingsdaten ermöglicht und somit den Bedarf an großen Datensätzen reduziert. Der Referent kommt zu dem Schluss, dass die differenzierbare Augmentation eine entscheidende Technik ist, an die man sich beim Training von GANs erinnern sollte.

  • 00:45:00 In diesem Abschnitt erklärt der Dozent, dass alle Codes zum Ausführen des Modells auf GitHub verfügbar sind, mit Schritt-für-Schritt-Anleitungen zum Ausführen des Modells mit verschiedenen Arten von Daten, sogar mit persönlichen Gesichtsbildern. Sie diskutieren auch die spezifischen Tools, die Designern und Künstlern zur Verfügung stehen, und der Dozent erwähnt, dass David Bau über Online-Tools zur Visualisierung und Überwachung interner Einheiten sprechen wird. Der Modellkomprimierungsprozess wird ebenfalls erörtert, mit dem Ziel, die Möglichkeit zu entwickeln, ein Modell einmal zu komprimieren und auf mehreren Geräten bereitzustellen, was für praktische Zwecke wichtig ist, da es Entwicklern Zeit spart und gleichzeitig die Zeit reduziert, die Benutzer für den Zugriff auf das Modell benötigen.
 

MIT 6.S192 - Vorlesung 5: "Malen mit den Neuronen eines GAN" von David Bau



MIT 6.S192 - Vorlesung 5: "Malen mit den Neuronen eines GAN" von David Bau

David Bau diskutiert die Entwicklung des maschinellen Lernens und das Potenzial zur Erstellung selbstprogrammierender Systeme. Er stellt Generative Adversarial Networks (GANs) vor und erklärt, wie sie trainiert werden können, um realistische Bilder zu erzeugen. Bau diskutiert seinen Prozess zur Identifizierung von Korrelationen zwischen spezifischen Neuronen in einem progressiven GAN und bestimmten semantischen Merkmalen in generierten Bildern. Er demonstriert, wie er mit Hilfe eines GAN verschiedene Elemente wie Türen, Gräser und Bäume zu einem Bild hinzufügen kann. Darüber hinaus erörtert er die Herausforderung, einem GAN neue Elemente hinzuzufügen, und die ethischen Bedenken im Zusammenhang mit realistischen Darstellungen der Welt.

  • 00:00:00 In diesem Abschnitt erörtert David Bau die Entwicklung des maschinellen Lernens, von seinen Wurzeln in der statistischen Analyse bis zu seinem Potenzial für die Erstellung selbstprogrammierender Systeme. Als akademischer Forscher glaubt er, dass jetzt ein interessanter Zeitpunkt ist, um Fragen zur Richtung des Feldes und den Auswirkungen von Modellen des maschinellen Lernens zu stellen. Das Hauptproblem, das er in seinem Vortrag ansprechen wird, ist die Bilderzeugung, und er stellt den Prozess vor, einen Datensatz mit echten Bildern zu sammeln und ein Generatornetzwerk zu trainieren, um sie nachzubilden.

  • 00:05:00 In diesem Abschnitt stellt David Bau Generative Adversarial Networks (GANs) vor und erklärt, wie sie trainiert werden können, um realistische Bilder zu erzeugen. Er beschreibt, wie der Trick bei GANs darin besteht, zuerst einen Diskriminator zu trainieren, um zu klassifizieren, ob ein Bild echt oder falsch ist, und diesen Diskriminator dann mit dem Generator zu verbinden, um Bilder zu erzeugen, die den Diskriminator täuschen. Er stellt jedoch fest, dass der Generator lernen kann, den Diskriminator mit einfachen Mustern auszutricksen, die keinen realistischen Bildern ähneln, und daher besteht der Trick bei GANs darin, den Prozess zu wiederholen und zwischen Generator und Diskriminator hin und her zu wechseln, um immer mehr zu erzeugen realistische Bilder. Abschließend zeigt er Beispiele von Bildern, die von GANs erzeugt werden, die oft schwer von echten Bildern zu unterscheiden sind.

  • 00:10:00 In diesem Abschnitt diskutiert der Sprecher einige der Artefakte, die in GAN-generierten Bildern zu sehen sind, wie Wasserzeichen, und ihre Ursprünge aus dem Trainingssatz. Der Referent erklärte weiter, wie er die mit Wasserzeichenimpressionen verbundenen Neuronen fand und wie er sie ausschalten kann. Durch das Abschalten der Wasserzeichen-Neuronen wird die vom Generator erhaltene Ausgabe frei von Wasserzeichen oder verwandten Artefakten, was es zu einem aufregenden Fund macht, der beweist, dass es Schalter innerhalb von Netzwerken gibt, die verschiedene Merkmale der generierten Bilder steuern.

  • 00:15:00 In diesem Abschnitt erläutert David Bau seinen Prozess zur Identifizierung von Korrelationen zwischen bestimmten Neuronen in einem progressiven GAN und bestimmten semantischen Merkmalen in generierten Bildern. Er erklärt, dass dies erreicht wurde, indem jedes Neuron einzeln getestet wurde, um zu sehen, wo es am stärksten aktiviert wurde, was auf bestimmte Merkmale hinweist, mit denen es verbunden war. Durch diesen Prozess konnte er Neuronen identifizieren, die mit Bäumen, Gebäudeteilen wie Fenstern und Türen, Stühlen und sogar Kuppeln korrelierten. Bau stellt fest, dass dies ohne beaufsichtigtes Training oder Etiketten erreicht wurde, und zeigt, wie das Netzwerk gelernt hat, zwischen verschiedenen Beispielen dieser Merkmale zu unterscheiden und sie in verschiedenen Komponenten darzustellen.

  • 00:20:00 In diesem Abschnitt diskutiert David Bau das Ziel, all die verschiedenen Neuronen in einem Modell zur Generierung von Küchen abzubilden, was zu Katalogen verschiedener Arten von korrelierten Neuronen führte. Bau fand heraus, dass mittlere Schichten des Modells Neuronen hatten, die stark mit semantischen Objekten korrelierten, während spätere Schichten mehr physikalische Korrelationen aufwiesen. Bau entdeckte, dass die Korrelationen so auffallend waren, dass sie zu interessanten Anwendungen führten, darunter das Ein- und Ausschalten verschiedener Objekte in einer Bilderzeugung. Bau demonstrierte, wie das Abschalten einiger Baumneuronen die Bäume aus der Szene entfernte und der Generator auffüllte, was sich hinter den Bäumen befand. Umgekehrt führte das Einschalten von Neuronen dazu, dass eine Tür in der Szene erschien, wo der Generator die entsprechende Größe, Ausrichtung und den Stil der Tür einfüllte.

  • 00:25:00 In diesem Abschnitt des Videos zeigt David Bau, wie er einem Bild mithilfe eines GAN verschiedene Elemente wie Türen, Gras und Bäume hinzufügen kann. Indem er nur bestimmte Neuronen aktiviert, die mit einem bestimmten Objekt oder Element korrelieren, kann er die Semantik des Bildes manipulieren. Er erörtert auch die Einschränkungen von GANs, beispielsweise dass nur zufällig generierte Bilder bearbeitet werden können, was mit einem Inversionsproblem gelöst werden kann, bei dem gelernt werden muss, wie das Modell rückwärts ausgeführt wird.

  • 00:30:00 In diesem Abschnitt erörtert David Bau die Einschränkungen bei der Verwendung eines Generative Adversarial Network (GAN) zur Generierung von Bildern, da es Dinge offenbaren kann, die das Netzwerk nicht leisten kann. Es ist jedoch möglich, die Netzwerkgewichtungen fein abzustimmen, um ein sehr nahes Netzwerk zu erzeugen, das genau auf ein Zielbild trifft, während das Netzwerk relativ unverändert bleibt, wodurch eine Bearbeitung immer noch möglich ist. Bau demonstriert die Verwendung dieser Technik zum Modifizieren echter Fotos durch Invertieren des Fotos durch das Netzwerk, Erhalten eines Startbildes, Feinabstimmen des Netzwerks zur Ausgabe des Zielbildes und anschließendes Bearbeiten des Bildes. Der Prozess ermöglicht das Hinzufügen oder Entfernen von Objekten wie Kuppeln und Türen, die zum architektonischen Stil des Bildes passen.

  • 00:35:00 In diesem Abschnitt des Videos erklärt David Bau, wie er mithilfe der GAN-Technologie Bilder modifizierte, indem er ein fein abgestimmtes Netzwerk verwendete, um ein bestimmtes Bild zu überpassen. Indem die vortrainierten Gewichtungen des Netzwerks so geändert wurden, dass versucht wurde, die Kernbildschirmschichten nicht zu sehr zu ändern, konnte Bau Bilder bearbeiten und eine grobe Annäherung an das Zielbild erstellen. Das Netzwerk verallgemeinert dieses Wissen jedoch nicht, was bedeutet, dass es keine sinnvollen Änderungen für irgendein anderes Bild als das Zielbild erzeugen kann.

  • 00:40:00 In diesem Abschnitt erörtert David Bau die Herausforderung, einem Generative Adversarial Network (GAN) neue Elemente hinzuzufügen. Obwohl das System darauf trainiert werden kann, Bilder eines bestimmten Objekts zu erzeugen, ist es schwierig, ihm neue Konzepte beizubringen, wenn kein vorheriger Datensatz oder keine Regel codiert ist. Bau entwickelte daher eine Technik, um die Gewichte eines vortrainierten Modells zu ändern, um neue Regeln zu berücksichtigen, wie z. B. das Hinzufügen von Bäumen auf der Spitze von Türmen oder das Zeichnen von Cadillacs vor Gebäuden, ohne das Modell neu zu trainieren. Er demonstriert die Anwendung in StyleGAN2, wo Benutzer eine Regel festlegen und die Ausgabe nach ihren Vorlieben manipulieren können.

  • 00:45:00 In diesem Abschnitt erläutert David Bau, wie er mithilfe des GAN einige Beispiele aus seinen generierten Bildern auswählen und die gemeinsamen Neuronen finden kann, die für ihre Form verantwortlich sind. Einmal ausgewählt, kann er ihre Darstellung neu definieren und neue Bilder erzeugen, indem er die richtigen Änderungen am GAN-Modell berechnet, um beispielsweise die Spitzen spitzer Türme in Bäume zu verwandeln. Bau zeigt, dass dieser Prozess von allen Bildern von Spitztürmen in seinen Suchergebnissen beeinflusst wird, was zu einer völlig neuen Darstellung der Spitzturmbilder führt. Darüber hinaus erklärt Bau, dass jede Schicht des GAN als Lösung eines einfachen Problems des Abgleichs von Schlüssel-Wert-Paaren betrachtet werden kann, die als Speicher für die Kontextdarstellung verwendet werden. Er stellt fest, dass die Gewichtsmatrix die Lösung für das Problem der kleinsten Quadrate ist, und das Ändern einer Regel im Schlüssel-Wert-Paar einer Schicht ist auch ein Problem der kleinsten Quadrate, das zum Vergleich auf die gleiche Weise geschrieben werden kann.

  • 00:50:00 In diesem Abschnitt diskutiert David Bau eine Methode, um eine Sache zu ändern, die ein Netzwerk gespeichert hat, ohne die gesamte Regel zu ändern, was die Erstellung von Modellen ermöglicht, die Dinge darstellen, die noch nicht existieren. Dies wird erreicht, indem ein Schlüssel gefunden und ein neuer Wert geschrieben wird, wobei Rang-Eins-Aktualisierungen in bestimmten Richtungen verwendet werden, um nur die Werte des Schlüssels zu ändern. Auf diese Weise können Benutzer die Regeln in einem GAN ändern und sie verwenden, um Dinge basierend auf ihrer Vorstellungskraft und nicht nur auf den Trainingsdaten zu erstellen. Diese Methode kann auch dort eingesetzt werden, wo nicht genügend Daten vorhanden sind, und bietet einen potenziellen Weg zur Schaffung neuer Welten mithilfe von maschinellem Lernen.

  • 00:55:00 In diesem Abschnitt diskutiert David Bau das Potenzial seiner Methode, die Regeln der Welt zu ändern, indem sie sie für Menschen sichtbarer und manipulierbarer macht und es den Menschen ermöglicht, eine bessere Welt aufzubauen. Er geht auch auf die Frage ein, ob diese Methode mit mehreren verschiedenen Modellen funktionieren kann oder nur erfolgreich ist, wenn man einen Hut aus diesem Modell nimmt und ihn auf ein Horn setzt. Er erklärt, dass die Methode derzeit nur in der Lage ist, ein Modell neu zu verdrahten, aber es ein offensichtliches Ziel ist, eine Berechnung von einem neuronalen Netzwerk zu einem anderen verschieben zu können. Abschließend spricht er über die ethischen Bedenken rund um die realistische Darstellung der Welt und wie sie bereits missbraucht wird, und verweist auf das Phänomen der Deep Fakes und die Erstellung von Millionen gefälschter Facebook-Profile mithilfe von Gesichtsgeneratoren.

  • 01:00:00 In diesem Abschnitt erörtert David Bau die Implikationen und potenziellen Folgen der Erzeugung realistischer Bilder mithilfe tiefer neuronaler Netze. Während forensische Arbeiten zur Erkennung gefälschter Bilder notwendig sind, betont er, dass es spannender ist, die interne Struktur zu verstehen und zu erfahren, wie diese Modelle im Inneren funktionieren. Transparenz beim Verständnis des tiefen Netzwerks ist unerlässlich, da diese neuronalen Netze die Frage, warum sie bestimmte Entscheidungen treffen, nicht gut beantworten können. Baus Ziel ist es, die Regeln zu zerlegen, die innerhalb des Netzwerks angewendet werden, um seine Entscheidung zu treffen, und eine Methode zu entwickeln, nach dem Warum zu fragen, um dabei zu helfen, Transparenz als einen entscheidenden ethischen Aspekt von tiefen neuronalen Netzwerken zu definieren. Darüber hinaus zeigt Baus Arbeit zur Scan-Dissektion, dass Sie Neuronen identifizieren können, die zu schlecht aussehenden Artefakten beitragen, was die Qualität der Ausgabe in diesen Netzwerken verbessern kann.

  • 01:05:00 In diesem Abschnitt erläutert David Bau, wie einige GANs Artefakte oder Verzerrungen in ihren erzeugten Bildern aufweisen, die manchmal mit bestimmten Lernmethoden entfernt oder reduziert werden können. Er schlägt vor, dass es sich dennoch lohnen würde, zu untersuchen, ob dieses Phänomen immer noch auftritt, obwohl die aktuelle Generation von GANs weiter fortgeschritten sein könnte als das, womit er experimentiert hat. David merkt an, dass es in diesem Bereich unerlässlich ist, die richtigen Fragen zu stellen und zu lernen, wie man sie stellt, und lädt jeden ein, der sich für seine Arbeit interessiert, sich an ihn zu wenden.
 

MIT 6.S192 - Vorlesung 7: "The Shape of Art History in the Eyes of the Machine" von Ahmed Elgemal



MIT 6.S192 - Vorlesung 7: "The Shape of Art History in the Eyes of the Machine" von Ahmed Elgemal

Ahmed Elgamal, Professor für Informatik und Gründer des Art and Artificial Intelligence Lab, diskutiert den Einsatz von KI zum Verständnis und zur Generierung kreativer Produkte auf menschlicher Ebene. Elgamal diskutiert die wissenschaftliche Herangehensweise an die Kunstgeschichte und die Bedeutung der Weiterentwicklung der KI, um Kunst wie Menschen zu verstehen. Er erörtert auch die Verwendung von maschinellem Lernen zur Klassifizierung von Kunststilen, die Analyse der internen Repräsentationen, die Identifizierung von Unterschieden zwischen Kunststilen und die Quantifizierung der Kreativität in der Kunst durch KI. Elgamal schlägt auch das Konzept der primären Objekte in der Kunstgeschichte vor und untersucht das Potenzial der KI zur Erzeugung von Kunst, wobei er die Grenzen der aktuellen KI-Ansätze bei kreativen Aktivitäten erkennt. Elgamal diskutiert jedoch auch laufende Experimente, um die Grenzen des KI-Netzwerks zu erweitern und abstrakte und interessante Kunst zu schaffen.

Ahmed Elgammal diskutiert auch die Ergebnisse eines Abstimmungstests, um festzustellen, ob Menschen Kunst, die von einem GAN geschaffen wurde, von der von Menschen unterscheiden können, wobei Kunstwerke als Grundlage dienen. Menschen dachten, dass Kunst, die von GAN-Maschinen hergestellt wurde, zu 75 % der Zeit von Menschen produziert wurde, was das Konzept der Stilmehrdeutigkeit und seine Bedeutung für die Verbindung von Computer Vision und maschinellem Lernen mit Kunstgeschichte und künstlerischen Interessen betont.

  • 00:00:00 In diesem Abschnitt spricht Professor Ahmed Elgammal, Professor am Department of Computer Science an der Rutgers University und Gründer des Art and Artificial Intelligence Lab, über seine Leidenschaft für Kunst und wie er die Bedeutung der Kombination von KI und Kunst erkannt hat . Er erklärt, dass Kunst viel mehr ist als Objekterkennung und Kontextschichten, das Verständnis von Emotionen sowie historische und soziale Kontexte beinhaltet, die kognitive und intellektuelle Fähigkeiten erfordern, die denen des Menschen ähneln. Er glaubt, dass das Verständnis und die Generierung kreativer Produkte auf menschlicher Ebene von grundlegender Bedeutung sind, um zu zeigen, dass KI-Algorithmen intelligent sind, und diskutiert die Frage der Kombination von Ästhetik und Subjektivität mit Objektivität und Wissenschaft. Professor Elgammal befürwortet einen wissenschaftlichen Ansatz zur Kunstgeschichte und betont die Bedeutung der Weiterentwicklung der KI, um Kunst so zu verstehen, wie es der Mensch tut.

  • 00:05:00 In diesem Abschnitt diskutiert Ahmed Elgemal die Idee, dass jeder Aspekt der Kunst, selbst die kreativen und subjektiven Elemente, objektiv durch die Augen einer Maschine untersucht werden kann. Er erklärt, dass sein Ziel darin besteht, die Auswirkungen der Betrachtung von Kunst durch KI zu verstehen und wie sie die KI und das Verständnis der Kunstgeschichte voranbringen kann. Elgemal spricht über seine Arbeit bei der Quantifizierung der verschiedenen Elemente und Prinzipien von Kunst und Stil, einschließlich der Charakterisierung der Abfolge und Entwicklung von Kunststiländerungen im Laufe der Zeit und welche Faktoren diese Änderungen beeinflussen. Er diskutiert auch die Grenzen aktueller KI-Ansätze beim Verständnis des Stilkonzepts in der Kunst.

  • 00:10:00 In diesem Abschnitt erörtert der Referent ein Problem des überwachten maschinellen Lernens zur Klassifizierung verschiedener Kunststile, wobei visuelle Kodierungen verwendet werden, um verschiedene Ebenen von Merkmalen zu erfassen. Der Fortschritt dieser Art von Forschung wird von den Schweinejahren bis zum Deep Learning verglichen. Die Maschine ist in der Lage, Kunststile auf dem gleichen Niveau wie ein Kunstgeschichtsstudent im ersten Jahr zu klassifizieren. Der Redner argumentiert, dass die Klassifizierung von Kunst durch die Maschine wichtig ist, um die Charakteristik des Stils zu verstehen und was Stiländerungen antreibt. Die internen Repräsentationen dieser Stile durch die Maschine sind schwer zu interpretieren, aber die Untersuchung der Beziehung zwischen der Art und Weise, wie die Maschine Stile identifiziert, und der Art und Weise, wie Kunsthistoriker über Stil denken, kann nützliche Informationen liefern. Beispielsweise schlägt die Stiltheorie von Heinrich Wolfflin visuelle Schemata vor, die die Elemente verschiedener Stile unterscheiden.

  • 00:15:00 In diesem Abschnitt erörtert Elgemal die Verwendung von maschinellem Lernen zur Klassifizierung von Kunststilen und zur Analyse der internen Repräsentation der maschinellen Klassifizierung. Sie trainierten mehrere CNN-Modelle, einschließlich VGGNet und ResNet, um die Stilklassifizierung auf überwachte Weise durchzuführen. Durch die Analyse der internen Darstellung fanden sie heraus, dass eine kleine Anzahl von Faktoren die meisten Variationen in der westlichen Kunstgeschichte erklären können, wobei die ersten beiden Variationsarten bis zu 74 % der Varianz erklären, unabhängig vom verwendeten Netzwerk. Sie fanden auch heraus, dass es bei der Klassifizierung von Kunststilen nicht auf Objekt oder Komposition ankommt. Dieser Ansatz bietet eine datengesteuerte Methode, um zu verstehen, wie die Maschine Kunst klassifiziert, und gibt Einblicke in die Struktur der Kunstgeschichte.

  • 00:20:00 In diesem Abschnitt erörtert der Dozent, wie Maschinen, obwohl sie nicht über die Zeitachsen verschiedener Kunststile informiert sind, anhand der bereitgestellten Bilder lernen können, diese Stile selbst zu klassifizieren. Dies wird durch die Tatsache bestätigt, dass die Maschine die Kunst in eine historische Ordnung bringt, da zwischen dem Fortschreiten der Stile und der Zeit eine Korrelation von 0,7 besteht. Der Dozent geht auf die beiden Faktoren ein, die helfen, 75 % der Kunstgeschichte zu erklären, nämlich planar versus rezessiv und linear versus malerisch. Er stellt fest, dass die Kunstgeschichte in den letzten 500 Jahren in der westlichen Zivilisation einen 360-Grad-Zyklus durchlief, und dies ist in einem Diagramm festgehalten, das aus der Darstellung erstellt wurde, die die Maschine aus der Betrachtung von Kunststilen gelernt hat.

  • 00:25:00 In diesem Abschnitt erörtert der Sprecher die Verwendung von KI bei der Bestimmung der Unterschiede zwischen Kunststilen. Während einige Stile wie Renaissance und Barock anhand bestimmter Faktoren wie Farbe und Textur unterschieden werden können, können andere Stile wie der Impressionismus nicht anhand dieser Faktoren identifiziert werden. Die Aktivierungsverteiler der KI-Netzwerke zeigen, wie sich Kunstbewegungen im Laufe der Zeit verändert haben, mit besonderem Schwerpunkt auf den Werken von Cezanne, der als Brücke zwischen dem Impressionismus und Stilen des frühen 20. Jahrhunderts wie Kubismus und Abstraktion fungierte. Darüber hinaus werden bestimmte Renaissance-Kunstwerke aus der Renaissance-Wolke herausgezogen, wobei bestimmte Künstler wie El Greco und Dürer die moderne Kunst beeinflussen. Der Vortrag geht dann über in eine Diskussion über die Quantifizierung von Kreativität in der Kunst durch KI.

  • 00:30:00 In diesem Abschnitt diskutiert Elgemal die Entwicklung eines Algorithmus zur Bewertung der Kreativität eines Gemäldes in Anbetracht seines Kontexts und seiner Kunstgeschichte. Er argumentiert, dass die Fähigkeit, Kreativität zu bewerten, für Maschinen, die Kunst schaffen, von entscheidender Bedeutung ist und dass der Algorithmus Kreativität auf quantifizierbare Weise definieren muss. Elgemal schlägt vor, dass es zwei Hauptbedingungen dafür gibt, dass ein Produkt als kreativ bezeichnet wird: Es muss im Vergleich zu früheren Arbeiten neuartig sein, und es muss einen gewissen Wert haben, was bedeutet, dass es einflussreich wird. Er untersucht verschiedene Möglichkeiten, Kreativität zu beschreiben, und untersucht die Grenzen von Algorithmen, die Kreativität bewerten, und argumentiert, dass sie den Kontext der Kunstgeschichte berücksichtigen müssen.

  • 00:35:00 In diesem Abschnitt diskutiert Ahmed Elgamal die Grenzen von Algorithmen in der Kunstgeschichte, einschließlich dessen, was er die „Beschränkung der geschlossenen Welt“ der verfügbaren Daten und die „Beschränkung der Quantifizierung künstlerischer Konzepte“ der verwendeten visuellen Kodierung nennt. Er schlägt vor, dass die Parameter des Algorithmus verwendet werden können, um Kreativitätswerte zu interpretieren und zu verstehen, wie sie die Ergebnisse beeinflussen. Elgamal schlägt einen gerichteten Graphen zwischen Gemälden mit einem Gewicht vor, das ihre visuelle Ähnlichkeit widerspiegelt, und verwendet dies, um eine Formulierung für Kreativität zu schaffen, die auf Einfluss und Neuheit basiert. Die resultierende Formel ist ein Beispiel für ein Netzwerkzentralitätsproblem und kann als Random Walk in einer Markov-Kette interpretiert werden, bei der Alpha auf Eins gesetzt ist.

  • 00:40:00 In diesem Abschnitt diskutiert der Dozent, wie die Eigenvektorzentralität zur Messung der Netzwerkzentralität in sozialen Netzwerken verwendet werden kann, indem die gewichtete Variante des Pageranks invertiert wird. Dies kann sogar erweitert werden, um Originalität von Einfluss zu trennen, und die Genauigkeit des Algorithmus kann anhand von Sets wie Wikiart und Archiv bewertet werden, die nicht überwacht wurden. Der Dozent erklärt, dass die Ergebnisse bei Tests zeigten, dass die Maschine verschiedene kreative Kunstwerke wie Picassos Damen von Algier als den Beginn des Kubismus identifizieren konnte.

  • 00:45:00 In diesem Abschnitt diskutiert Ahmed Elgemal die Bewertung der Kreativität von Kunstwerken mithilfe einer Archivmaschine, die aufgrund eines Fehlers bei der Datierung von Mondrians Kunstwerken zustande kam. Die Methode bestand darin, Kunstwerke aus der Renaissance- oder Barockzeit zu nehmen und sie in eine spätere Zeit zu verschieben, während auch moderne Kunstwerke genommen und in die Renaissancezeit zurückversetzt wurden. Die Ergebnisse zeigten einen beständigen Rückgang der Kreativität, wenn Kunstwerke der Renaissance und des Barock zeitlich nach vorne verschoben wurden, und eine Zunahme der Kreativität, wenn moderne Kunstwerke in die Renaissance zurückversetzt wurden. Der verwendete Algorithmus war in der Lage, Kreativität zu quantifizieren und eine Bewertung zu geben, die Neuheit und Einfluss erfasste und die Fähigkeit des Algorithmus bestätigte, die Kreativität von Kunstwerken zu bewerten.

  • 00:50:00 In diesem Abschnitt diskutiert Ahmed Elgemal das Konzept der primären Objekte in der Kunstgeschichte und wie sie neue Stile hervorbringen können. Er vergleicht Primobjekte mit Primzahlen in der Mathematik und zieht Parallelen zwischen ihrer unvorhersehbaren Natur und ihrer Fähigkeit, nachfolgende Arbeiten zu beeinflussen. Elgemal untersucht auch das Potenzial der KI, Kunst zu erzeugen, und diskutiert Creative Adversarial Networks und ihre Fähigkeit, etwas über Stil zu lernen und von Normen abzuweichen. Elgemal erkennt jedoch an, dass der Generator in GANs begrenzt ist, da er darauf trainiert ist, Samples zu erstellen, die den Diskriminator täuschen, ohne Motivation für Kreativität.

  • 00:55:00 In diesem Abschnitt erörtert der Redner, wie Künstler die ganze Zeit über innovativ sein müssen, um der Gewöhnung entgegenzuwirken, aber wenn sie zu viel innovativ sind, wird es für die Menschen schwierig sein, sich daran zu erfreuen. Sie zielen darauf ab, das Netzwerk innovativ zu machen, aber es innerhalb der gleichen Verteilung zu halten, um die Grenzen zu verschieben. Der Sprecher erklärt, dass sie dem Diskriminator Stilambiguitätsverlust hinzugefügt haben, um zu sehen, ob die vom Generator erstellte Kunst in Stile passt oder in Bezug auf die Klassifizierung mehrdeutig ist, was der Maschine helfen wird, verschiedene Grenzen zu erkunden. Sie führten Experimente durch und kamen zu dem Schluss, dass die Maschine durch das Hinzufügen von mehrdeutigen Stilen interessante abstrakte Kunstwerke mit neuen Kompositionen und Farbkombinationen erzeugte, die in der Verteilung dessen waren, was ansprechend ist.

  • 01:00:00 In diesem Abschnitt untersucht Ahmed Elgammal die Ergebnisse eines Abstimmungstests, um festzustellen, ob ein Mensch zwischen Kunst, die von einem GAN geschaffen wurde, und der eines Menschen unterscheiden kann. Die Kunstwerke einer berühmten Ausstellung dienen als Grundlage, und es wurde festgestellt, dass Menschen dachten, dass Kunst, die von GAN-Maschinen hergestellt wurde, zu 75 Prozent der Zeit von Menschen hergestellt wurde, verglichen mit 85 Prozent bei abstrakter Kunst und nur 48 Prozent bei Kunst aus der Kunst Basler Sammlung. Elgammal diskutiert auch das Konzept der Stilmehrdeutigkeit und seine Fähigkeit, die Schaffung von Kunst zu ermöglichen, die zu Kunst ohne einen bestimmten Stil gehört. Er betont, wie wichtig es ist, Computer Vision und maschinelles Lernen mit Kunstgeschichte und künstlerischen Interessen zu verbinden.
 

MIT 6.S192 - Vorlesung 8: "How Machine Learning Can Benefits Human Creators" von Rebecca Fiebrink



MIT 6.S192 - Vorlesung 8: "How Machine Learning Can Benefits Human Creators" von Rebecca Fiebrink

Rebecca Fiebrink, Forscherin im Bereich Musik und KI, betont die Bedeutung der menschlichen Interaktion und das Halten der Menschen bei der Nutzung und Entwicklung von maschinellem Lernen für kreative Zwecke. Sie spricht über ihr Tool Wekinator, das den Einsatz von maschinellem Lernen in Echtzeitmusik für die menschliche Schöpfung ermöglicht. Sie demonstriert den Bau verschiedener gestengesteuerter Instrumente wie einer Trommelmaschine, eines Klangsynthesealgorithmus namens Blotar und eines Blasinstruments namens Blowtar. Sie hebt hervor, wie maschinelles Lernen für Entwickler von Vorteil sein kann, da sie komplexe und nuancierte Klangpaletten erkunden und die Datenanalyse für Sensoren und Echtzeitdaten erleichtern können. Sie geht auch auf die Vorteile der interaktiven Manipulation von Trainingsdaten ein und erklärt, wie wir durch maschinelles Lernen auf natürlichere Weise mit Computern kommunizieren können, und fügt dem kreativen Arbeitsprozess Überraschungen und Herausforderungen hinzu.

  • 00:00:00 In diesem Abschnitt des Videos spricht Rebecca Fiebrink, Forscherin im Bereich Musik und künstliche Intelligenz (KI), über die Bedeutung der menschlichen Interaktion und darüber, wie wichtig es ist, Menschen bei der Entwicklung und Nutzung von maschinellem Lernen auf dem Laufenden zu halten kreative Zwecke. Sie stellt die Annahme in Frage, dass der Einsatz von maschinellem Lernen zur autonomen Generierung menschenähnlicher kreativer Ergebnisse an sich schon eine Unterstützung für menschliche Schöpfer ist. Fiebrinks Forschung hat sich auf andere Bereiche wie künstlerische Praxis und Spiele ausgeweitet, und sie betont die Notwendigkeit, über den theoretischen und praktischen Nutzen des maschinellen Lernens für menschliche Schöpfer nachzudenken.

  • 00:05:00 In diesem Abschnitt erörtert der Redner die Lücke im Toolset, das Entwicklern zur Verfügung steht, die mit Daten oder maschinellem Lernen in den Bereichen Musik und Kunst arbeiten möchten. Während mehrere Leute C-Plus-Bibliotheken oder Python verwendeten, gab es kaum verfügbare Tools, um sie in Echtzeit zu verwenden oder mit Mediendaten zu arbeiten, insbesondere mit Tondaten. Viele Entwickler hatten bereits in Informatik oder Elektrotechnik promoviert, und es gab Raum für zugänglichere Tools für Entwickler, die mit Daten arbeiten wollten. Maschinelles Lernen kann ein großartiges Werkzeug für Ersteller sein, die verschiedene Arten von Daten, die sie umgeben, verstehen möchten, wie z. B. Online-Repositories oder Online-Quellen wie Google-Bilder, Biosensoren oder Daten aus sozialen Medien.

  • 00:10:00 In diesem Abschnitt erläutert Rebecca Fiebrink ihre Arbeit beim Erstellen einer Software namens Wekinator, die den Einsatz von maschinellem Lernen in Echtzeitmusik in menschlichen Kreationen ermöglicht. Sie hebt hervor, dass sich der Bau eines neuen Instruments, das auf Gesten reagiert, von der Arbeit mit handelsüblichen Ground-Truth-Trainingssets unterscheidet. Um die Dinge einfacher zu machen, ermöglicht Wekinator den Benutzern, Beispiele für das Training in Echtzeit zu demonstrieren und dann das Modell zu testen, um zu sehen, wo es Fehler macht. Wekinator ermöglicht es den Benutzern auch, die Trainingsbeispiele vor Ort zu ändern. Anschließend demonstrierte sie den Bau einer sehr einfachen gestengesteuerten Drum-Maschine mit der Wekinator-Software, die eine Webcam verwendet, um Bewegungen zu erfassen und Eingaben auf ein 10 x 10-Farbraster herunterzusampeln, das 100 Zahlen enthält, um die Vorhersage von Gesten oder Bewegungen zu erleichtern.

  • 00:15:00 In diesem Abschnitt demonstriert der Sprecher, wie man Wekinator mit Regression verwendet, um ein Musikinstrument zu erstellen, das einen Klangsynthesealgorithmus namens Blotar steuert. Mit diesem Instrument kann ein Benutzer einen großen Bereich von Sounds steuern, einschließlich vieler verschiedener Presets, wobei neun Steuerparameter geändert werden. Der Referent zeigt, wie maschinelles Lernen professionellen Komponisten zugute kommen kann, indem es ihnen ermöglicht, komplexe und nuancierte Klangpaletten zu erkunden.

  • 00:20:00 In diesem Abschnitt demonstriert Rebecca Fiebrink, wie sie maschinelles Lernen einsetzt, um ein Blasinstrument namens Blowtar mit einem Gamecontroller zu steuern. Sie erklärt, dass das manuelle Finden guter Positionen im neundimensionalen Raum des Instruments für einen erfahrenen Programmierer eine Herausforderung wäre, aber maschinelles Lernen ermöglicht es, komplexe Funktionen einfach zu schreiben. Sie zeigt, wie das Instrument durch Training des Systems bis zum gewünschten Ergebnis verfeinert, gespeichert und bei Aufführungen oder bei der Kompositionsarbeit verwendet werden kann. Als Forscher des Tools diskutiert Fiebrink die verschiedenen Möglichkeiten, wie Entwickler maschinelles Lernen zur Verbesserung ihrer Arbeit eingesetzt haben, und was dies lehrt.

  • 00:25:00 In diesem Abschnitt erörtert der Referent, wie maschinelles Lernen Schöpfern zugute kommen und es mehr Menschen ermöglichen kann, effektiv mit Daten zu arbeiten, insbesondere mit Sensoren und Echtzeit-Datenanalyse, und verwendet dabei Beispiele wie die Komposition von Anne Hege durch Wekinator und die von Michelle Nagai Musikinstrument. Sie heben auch hervor, wie maschinelles Lernen den Aufbau von Interaktionen kreativ und einfacher gestalten kann, wenn Wekinator in Bereichen wie Kunst, Puppentheater, Technologien für Menschen mit Behinderungen und dem Entwerfen interaktiver Prototypen eingesetzt wird. Der Autor erklärt, dass der kreative Aufbau von Interaktionen durch maschinelles Lernen normalerweise einen anderen Ansatz erfordert als herkömmliches maschinelles Lernen, da es darauf abzielt, ein Modell zu erstellen, das glaubwürdige Ergebnisse generiert, und wie sich das Modell verhält, wenn es die Zwecke nicht erfüllt, wird zu einer Herausforderung.

  • 00:30:00 In diesem Abschnitt untersucht Fiebrink die Unterschiede zwischen dem Erstellen eines Modells für maschinelles Lernen mit dem Ziel, genaue Vorhersagen zu treffen, und dem Erstellen eines interaktiven Modells für maschinelles Lernen mit dem Ziel, etwas Nützliches oder Unterhaltsames zu erstellen. Beim Aufbau eines interaktiven maschinellen Lernmodells werden die Daten als Schnittstelle für die Kommunikation zwischen einem Ersteller und dem Computer betrachtet, was bedeutet, dass die Daten subjektiv ausgewählt werden und wahrscheinlich nicht unabhängig und identisch verteilt sind (iid), was eine gängige Annahme ist beim maschinellen Lernen. Dies kann dazu führen, dass aus sehr wenigen strategisch platzierten Beispielen gelernt wird. Fiebrink demonstriert, wie ein einfacher Algorithmus wie k nächster Nachbar bei interaktiver Verwendung immer noch gute Entscheidungsgrenzen mit einer kleinen Datenmenge erzeugen kann, was praktisches Experimentieren und Datenpflege ermöglicht.

  • 00:35:00 In diesem Abschnitt erörtert Rebecca Fiebrink die Vorteile der interaktiven Bearbeitung der Trainingsdaten in kreativen Bereichen. Sie erklärt, dass es wichtig ist, den Menschen zu erlauben, viele alternative Ideen zu erforschen, um etwas zu schaffen, das die Designanforderungen erfüllt. Fiebrink stellte fest, dass die Verwendung von Algorithmen für maschinelles Lernen wie Wekinator es Menschen ermöglicht, Modelle sehr schnell neu zu trainieren und die Ergebnisse sofort zu sehen, wodurch es möglich ist, Rapid Prototyping sehr effektiv zu unterstützen. Sie stellt auch fest, dass es selbst für erfahrene Programmierer eine Herausforderung ist, menschliche Praktiken oder Handlungen in Codes zu erfassen, in Bereichen wie Malen oder Spielen von Musikinstrumenten.

  • 00:40:00 In diesem Abschnitt erklärt Rebecca Fiebrink, wie maschinelles Lernen es uns ermöglicht, auf natürlichere Weise mit Computern zu kommunizieren, da es Menschen ermöglicht, ihre Ideen anhand von Beispielen zu kommunizieren, ähnlich wie wir kommunizieren, wenn wir darüber sprechen kreative Aktivitäten miteinander. Maschinelles Lernen erleichtert Anfängern auch die Erstellung, indem große Datensätze genutzt werden, um einem Standard zu entsprechen. Das jüngste Projekt von Fiebrink mit dem Namen Sound Control zeigt jedoch die Möglichkeit, mehr Menschen die Möglichkeit zu geben, Schnittstellen zu personalisieren und mit maschinellem Lernen Dinge für sich und andere zu erstellen. In Zusammenarbeit mit Musiklehrern und Therapeuten ermöglicht Sound Control ihnen, maßgeschneiderte Instrumente für Kinder herzustellen, aber es hat sie auch dazu gebracht, andere unerwartete und nützliche Dinge zu tun, wie z. B. Hörspiele, Improvisationsspiele und Aufführungsaktivitäten.

  • 00:45:00 In diesem Abschnitt erläutert Rebecca Fiebrink, wie maschinelles Lernen für produktive Überraschungen und Herausforderungen im kreativen Arbeitsprozess sorgen kann. Mit Tools wie Wekinator betont sie die Bedeutung kreativer Tools, die unerwartete Ideen in den Arbeitsprozess einbringen. Sie warnt daher davor, andere Arten des maschinellen Lernens oder gar nicht-maschinelle Lernverfahren der Arbeit mit Daten zu übersehen. Sie schlägt vor, dass das Bauen mit Daten und maschinellem Lernen Menschen in die Lage versetzen kann, Dinge zu tun, die sie vorher nicht konnten, und untersucht, wie kreative Anwendungen als Fallstudien dienen können, um die anderen Erfahrungen der Menschen mit Daten und maschinellem Lernen stärker zu machen.

  • 00:50:00 In diesem Abschnitt geht der Redner auf eine Frage aus dem Publikum zu den Herausforderungen bei der Verwendung von maschinellem Lernen mit Ton ein. Der Redner räumt ein, dass Ton einige einzigartige Herausforderungen in Bezug auf die kulturelle Subjektivität darstellt, aber insgesamt kann Ton mithilfe typischer maschineller Lernprozesse mit ähnlichen Ergebnissen wie bei anderen Medien angegangen werden. Der Referent betont, dass Daten und deren Nutzung zur Adressierung von Problemfeldern wichtiger sind als das Medium selbst. Der Referent erörtert auch, wie maschinelles Lernen als Schnittstelle zum Erstellen von Dingen verwendet werden kann und wie wichtig es ist, die menschliche Ausrichtung mit Maschinen zu diskutieren und wer die Ziele definieren sollte.

  • 00:55:00 In diesem Abschnitt erörtert der Referent die Schwierigkeit, ein Ziel für maschinelles Lernen zu definieren, und wie viel davon ein experimenteller Prozess ist, bei dem der Ersteller einen Datensatz erstellt, etwas ausprobiert und dann die Daten verwendet, um das Modell zu steuern in eine bestimmte Richtung. Der Erfahrungsaspekt des Prozesses ermöglicht es dem Entwickler, durch Versuch und Irrtum etwas über maschinelles Lernen in einem bestimmten Kontext zu lernen, und dieser Aspekt kann ein leistungsstarkes Werkzeug für Menschen sein, um etwas über maschinelles Lernen zu lernen. Jüngste Forschungen von Carrie Cai und anderen zeigen auch, dass ähnliche experimentelle Untersuchungsverfahren Menschen dabei helfen können, Vertrauen aufzubauen und zu verstehen, was modelliert wird, selbst in Anwendungen, in denen diese Menschen möglicherweise nicht über Vorkenntnisse im maschinellen Lernen verfügen.
 

MIT 6.S192 - Vorlesung 9: "Neural Abstractions" von Tom White



MIT 6.S192 - Vorlesung 9: "Neural Abstractions" von Tom White

In diesem Video diskutiert der Künstler und Dozent Tom White seinen Ansatz, maschinelle Wahrnehmung und neuronale Netze in seine künstlerische Praxis einzubeziehen. White teilt seinen Hintergrund aus dem Studium der Mathematik und des Grafikdesigns am MIT und seine derzeitige Arbeit als Lehrer für kreatives Programmieren an der Victoria University. Er spricht auch über seine Forschung zum Bau von Werkzeugen, um anderen zu helfen, das Medium kreativ zu nutzen, und über seine eigenen Kunstwerke, die die maschinelle Wahrnehmung erforschen. White zeigt seine Skizzen und Drucke, die mit KI-Algorithmen erstellt wurden, und spricht über seine Zusammenarbeit mit Musikgruppen und seine jüngsten Kunstausstellungen. Er diskutiert auch die Herausforderungen der Zusammenarbeit mit neuronalen Netzen und die unbeabsichtigten Folgen, wenn KI-generierte Kunst in die Wildnis gebracht wird.

  • 00:00:00 In diesem Abschnitt des Videos stellt sich der Künstler und Dozent Tom White vor und spricht über seinen Werdegang, der sein Studium der Mathematik und des Grafikdesigns am Media Lab des MIT einschließt. Er spricht über sein Interesse an der Erforschung des Programmierens als kreative Disziplin und darüber, wie er jetzt kreatives Programmieren an der Victoria University in Wellington unterrichtet. White erwähnt auch seine Forschung, die sich auf die Entwicklung praktischer Werkzeuge konzentriert, um anderen zu helfen, das Medium kreativ zu nutzen. Darüber hinaus spricht er über seine eigene separate künstlerische Praxis, die er in seinem Vortrag weiter diskutieren wird, und hofft, Studenten zu inspirieren, die daran interessiert sind, ähnliche Wege einzuschlagen.

  • 00:05:00 In diesem Abschnitt gibt der Redner einen Überblick über seinen Vortrag über neuronale Abstraktionen und sein Kunstwerk, das die maschinelle Wahrnehmung erforscht. Er erklärt, dass Maschinen ihre eigene einzigartige Art haben, die Welt zu sehen, und seine Kunstwerke zielen darauf ab, diese einem breiteren Publikum zugänglich zu machen. Der Referent geht auch auf das Thema KI-Repräsentation und -Abstraktion ein und wie er die Repräsentationen neuronaler Netz-Vision-Systeme untersucht, um sie in einem künstlerischen Kontext zu vermitteln. Er veranschaulicht dies, indem er einige seiner Kunstwerke zeigt, die auf Datensätzen mit tatsächlichen Bildern wie Augen, Gesichtern und Hühnern basieren, und wie er Diagnosen in den Prozess einführt, um die innere Welt des Systems zu verstehen. Der Vortrag schließt mit den Implikationen der Erforschung der maschinellen Wahrnehmung in der Kunst und wie sie uns dabei helfen kann, die unterschiedlichen Arten, wie Maschinen die Welt wahrnehmen, zu verstehen.

  • 00:10:00 In diesem Abschnitt diskutiert Tom White einige seiner ersten Projekte während seiner Zeit am MIT, einschließlich seiner Erforschung von maschinellen Lerntechniken zur Erstellung von Echtzeit-Videofiltern, seiner Entwicklung einer benutzerdefinierten Handschnittstelle für Multi-Touch-Interaktion , und sein Kunstprojekt Stream of Consciousness, das KI-Techniken wie WordNet einbezog, um verwandte Wörter zu finden. White spricht auch über seine Beteiligung an der Erstellung der zentralen Softwarebibliothek Acu, die später als Grundlage für Systeme wie Processing und OpenFrameworks diente, und wie seine aktuelle Arbeit darin besteht, Skizzen und Zeichnungen für maschinelle Lernprozesse zu erstellen.

  • 00:15:00 In diesem Abschnitt diskutiert der Redner den Vorrang in der Kunst, der ihre Arbeit inspiriert hat, beginnend mit dem Künstler Stuart Davis, der gewöhnliche Gegenstände nahm und sich zwang, sie immer wieder zu malen, bis er etwas Neues darin fand. Harold Cohen war ein weiterer Künstler, der mit generativen Zeichensystemen experimentierte, indem er seine Ideen zur Markierung auf formale Weise durch künstliche Intelligenz kodifizierte. Später im Leben mehr als Mitarbeiter mit diesen Systemen arbeitend, blieb Cohens Kernfrage „Was ist ein Bild?“. Der Redner spricht dann über die technische Seite von Andy Warhol und Roy Lichtensteins Arbeit im Siebdruck als eine Technik, die sie bei der Ausführung ihrer Kunstwerke teilen.

  • 00:20:00 In diesem Abschnitt erläutert der Künstler und Dozent Tom White seine künstlerische Technik zum Erstellen von Drucken mit Siebdruck anstelle einer Pinseltechnik, die er mit einem Computer-Vision-System erstellt, das die Wahrnehmung optimiert, um Bilder zu erstellen, die wie elektrische Ventilatoren aussehen oder Ferngläser mit Algorithmen der künstlichen Intelligenz. White diskutiert, wie Stuart Davis lernte, vertraute Objekte auf neue Weise wahrzunehmen und darzustellen, indem er jeden Tag auf die gleichen Objekte starrte. In ähnlicher Weise versucht White, Computer-Vision-Systeme einzusetzen, um neue Wege der Wahrnehmung und Darstellung vertrauter Objekte einzuführen.

  • 00:25:00 In diesem Abschnitt des Videos diskutiert der Sprecher seine Demos zur Verwendung eines neuronalen Netzwerksystems zum Erstellen einfacher Skizzen mit sehr wenigen Strichen, die manipulieren können, um verschiedene Bilder zu erstellen. Er erklärt, wie er mit der gleichen Anzahl von Schlägen Skizzen eines Hammerhais und eines Eisens erstellt hat, und zeigt dann, dass er durch Umdrehen der Position der Schläge die neuronalen Netzwerke dazu bringen kann, ein Eisen als Hai zu sehen und umgekehrt. Der Referent demonstriert, wie das neuronale Netzwerk Skizzen verschiedener Objekte erstellen kann, und zeigt, dass das System nicht von links- oder rechtshändiger Ausrichtung beeinflusst wird, sondern von Farben im bereitgestellten Trainingsdatensatz beeinflusst wird.

  • 00:30:00 In diesem Abschnitt spricht Tom White über verschiedene Beispiele für maschinelles Lernen und wie sie funktionieren. Ein Beispiel ist ein Computer-Vision-System, das eine Stichprobe von Messbechern verwendet, die überwiegend grün sind, wodurch das System glaubt, dass grüne Messbecher häufiger vorkommen, als sie tatsächlich sind. White diskutiert auch einen Druck, den er von einem Häkchen gemacht hat, das stärker registriert wurde als alle Validierungsbeispiele, die er mit Kunst und Design vergleicht, wo Verstärkung durch Vereinfachung verwendet wird, um eine bessere Abstraktion von Konzepten zu schaffen. Schließlich präsentiert White seine Serie der synthetischen Abstraktionen, die aus abstrakten Drucken besteht, die explizite oder für die Arbeit unsichere Bilder nachahmen, die Filter in Suchmaschinen auslösen.

  • 00:35:00 In diesem Abschnitt teilt der Redner Beispiele dafür, wie seine Systeme mit Online-APIs arbeiten, darunter Datensätze für Wale, Pinguine und Augen. Er spricht auch über seine Zusammenarbeit mit einer Musikgruppe, in der er benutzerdefinierte Datensätze erstellt hat, sowie über seine jüngsten Kunstausstellungen mit Bildgruppen, die der Computer für Knoten, Ameisen oder andere Objekte hält. Der Redner spricht weiter über verschiedene Ansätze generativer Techniken und wie sich seine Kunstwerke auf die reale Welt auswirken. Er erwähnt sein Interesse an Geschlechternetzwerken und wie er ein Kunstwerk mit neuronalen Netzausgaben von Gesichtern erstellt hat.

  • 00:40:00 In diesem Abschnitt spricht Tom White über seine Erforschung generativer Netzwerke und seine Arbeit mit Studenten im Aufbaustudium, um ein Tabellenkalkulationstool zu erstellen, das Proben aus einem generativen Modell als Kreativitätswerkzeug über die Schnittstelle einer Tabellenkalkulation verwendet. Andere Künstler wie Lena Sarin, Mario Klingemann, Robbie Barrett und Edmund Bellamy werden ebenfalls erwähnt. White diskutiert auch die Herausforderungen der Zusammenarbeit mit diesen Systemen für die Kunstproduktion und betont die Rolle sowohl des Künstlers als auch des Systems im Co-Creation-Prozess. Abschließend spricht er über die unbeabsichtigten Konsequenzen, wenn KI-generierte Kunst in die Wildnis gebracht wird, und wie wir sie durch Visualisierungstechniken verstehen können und indem wir das System fragen, was es sieht.

  • 00:45:00 In diesem Abschnitt spricht der Sprecher über Techniken, die dem tiefen Traum ähneln, bei denen ein Bild in ein System eingespeist wird, um zu visualisieren, wie es sich verhält. Der Redner erwähnt, wie ihre Kunstwerke auf reale Systeme wie den Filter für nicht jugendfreie Inhalte von Tumblr, die Amazon-API und die akademischen Büros von Sloan Kettering stoßen. Sie diskutieren auch Beispiele dafür, wie diese Sehsysteme zusammenbrechen, wenn sie Kunstwerke unter demselben Etikett kategorisieren, das sie für die Objekte der realen Welt haben. Der Redner erklärt, dass die Kernidee ihrer Kunstwerke darin besteht, sie durch die Augen von Maschinen zu verstehen, wodurch Kunst für und durch Maschinen geschaffen wird, die es Menschen ermöglicht, sie unabhängig von ihrem Hintergrund im maschinellen Lernen zu schätzen.

  • 00:50:00 In diesem Abschnitt erklärt Tom White, warum er den Siebdruck als bevorzugtes Medium für seine physischen Kunstwerke gewählt hat. Er hebt hervor, dass physische Arbeit den Menschen ermöglicht, sich anders darauf zu beziehen als interaktive Installationen mit Bildschirmen und Kameras. Er erklärt auch, dass der Siebdruck es ihm ermöglicht, präzisere Arbeiten zu erstellen, und dass es einen Präzedenzfall für Pop-Künstler in der Kunstwelt gibt. Tom erklärt weiter, dass es schwieriger ist, körperliche Arbeit zu leisten, da es schwierig ist, mit möglichen Fotos umzugehen, aber es ist eine interessante Möglichkeit, gegnerische Angriffe auf die physische Welt zu übertragen. Darüber hinaus spricht er darüber, wie Kunst dabei helfen kann, algorithmische Verzerrungen oder andere Aspekte von KI und Cybersicherheit besser zu verstehen.

  • 00:55:00 In diesem Abschnitt erörtert Tom White, wie Vorurteile im Celeb-A-Datensatz, bei denen Frauen eher als lächelnd bezeichnet werden als Männer, zu Vorurteilen in generativen Netzwerken führen können, die darauf abzielen, Gesichtsausdrücke zu verändern. Er stellt fest, dass sich seine Arbeit nicht auf gegnerische Beispiele konzentriert, sondern auf die Visualisierung und das Verständnis der Stimuli, die neuronale Netze auslösen. White spricht auch über das Experimentieren mit einfachen Darstellungen, wie etwa minimalen Strichen, um die Generierung visueller Ausgaben zu erleichtern. Er stellt fest, dass Menschen Bilder in Formaten mit niedriger Auflösung erkennen können, wobei er sich von der psychologischen Forschung inspirieren lässt, die diese Fähigkeit getestet hat.

  • 01:00:00 In diesem Abschnitt ermutigt Tom White die Zuschauer, sich die Forschung im Raum für neuronale Abstraktionen anzusehen, und verweist sie auf die Videos des letztjährigen Workshops, um weitere Informationen zu erhalten. Er betont den Wert der Forschung und begrüßt alle Fragen, die die Zuschauer haben könnten.