Maschinelles Lernen und neuronale Netze - Seite 2

 

MIT 6.S191: Tiefe generative Modellierung



Vorlesung 4. MIT 6.S191: Deep Generative Modeling

In diesem Video wird erläutert, wie eine tiefe generative Modellierung verwendet werden kann, um eine glattere und vollständigere Darstellung der Eingabedaten zu lernen, die dann zum Generieren neuer Bilder verwendet werden kann. Der Schlüssel zu DGM ist die Einführung einer Wahrscheinlichkeitsverteilung für jede latente Variable, die es dem Netzwerk ermöglicht, Stichproben aus dieser latenten Verteilung zu ziehen, um neue Daten zu generieren.

  • 00:00:00 In diesem Vortrag erklärt Ava, wie tiefe generative Modelle verwendet werden können, um Wahrscheinlichkeitsverteilungen zu lernen, die Datensätzen zugrunde liegen. Er zeigt, wie zwei Methoden, Dichteschätzung und Probengenerierung, in der Praxis funktionieren.

  • 00:05:00 In diesem Video erklärt der Moderator, wie generative Modelle verwendet werden können, um die zugrunde liegenden Merkmale eines Datensatzes zu lernen. Dies kann in Anwendungen wie Gesichtserkennung oder Ausreißererkennung nützlich sein.

  • 00:10:00 Der Autoencoder ist ein leistungsstarker Algorithmus für maschinelles Lernen, der die Komprimierung hochdimensionaler Eingabedaten in einen niedrigerdimensionalen latenten Raum ermöglicht. Dieser latente Raum kann dann verwendet werden, um die Daten für eine spätere Rekonstruktion zu codieren. Bei einem Variations-Autoencoder ist der latente Raum probabilistisch, was realistischere und genauere Rekonstruktionen der Eingabedaten ermöglicht.

  • 00:15:00 Das Video erläutert, wie Deep Generative Modeling (DGM) verwendet werden kann, um eine glattere und vollständigere Darstellung der Eingabedaten zu lernen, die dann zur Generierung neuer Bilder verwendet werden können. Der Schlüssel zu DGM ist die Einführung einer Wahrscheinlichkeitsverteilung für jede latente Variable, die es dem Netzwerk ermöglicht, Stichproben aus dieser latenten Verteilung zu ziehen, um neue Daten zu generieren. Der Verlust des Netzwerks setzt sich nun aus dem Rekonstruktionsterm und dem Regularisierungsterm zusammen, was der Wahrscheinlichkeitsverteilung der latenten Variablen eine gewisse Struktur auferlegt. Das Netzwerk wird trainiert, um den Verlust in Bezug auf die Gewichtungen des Netzwerks zu optimieren, und die Gewichtungen werden während des Trainings iterativ aktualisiert.

  • 00:20:00 Das Video erläutert, wie ein Regularisierungsterm, d, dabei hilft, den Abstand zwischen der abgeleiteten latenten Verteilung und einem Prior zu minimieren. Es zeigt auch, wie der normale Prior dabei helfen kann.

  • 00:25:00 Das Video erläutert, wie tiefe generative Modellierung verwendet wird, um eine Eingabe aus einer Reihe von Datenpunkten zu rekonstruieren. Das Verfahren beinhaltet, dem latenten Raum eine auf Normalen basierende Regularisierung aufzuerlegen, die hilft, ihn zu glätten und zu vervollständigen. Dies ermöglicht wiederum eine Rückwärtsausbreitung von Gradienten durch die Abtastschicht, was das Problem der Stochastik löst, die eine direkte Ausbreitung von Gradienten durch das Netzwerk verhindert.

  • 00:30:00 Dieses Video erklärt, wie latente Variablenmodelle (wie Variational Autoencoders oder Beta Vaes) verwendet werden können, um Merkmale zu codieren, die in einem Datensatz wichtig sind. Dies ermöglicht unvoreingenommenere Modelle für maschinelles Lernen, da die wichtigen Merkmale automatisch codiert werden.

  • 00:35:00 GANs verwenden ein Generatornetzwerk, um Samples zu generieren, die echten Daten ähneln, während ein gegnerisches Netzwerk versucht, die gefälschten Samples von den echten zu unterscheiden. Nach dem Training sind der Generator und der Diskriminator in der Lage, die gefälschten Daten mit nahezu perfekter Genauigkeit von den echten Daten zu trennen.

  • 00:40:00 Das Video diskutiert die Verlustfunktion für Deep Generative Models, die auf Konzepte hinausläuft, die in früheren Vorlesungen eingeführt wurden. Das Ziel des Discriminator-Netzwerks ist es, gefälschte Daten zu identifizieren, und das Ziel des Generator-Netzwerks ist es, Daten zu erzeugen, die der wahren Datenverteilung so nahe wie möglich kommen. Das Zuggeneratornetzwerk synthetisiert neue Dateninstanzen, die auf einer Verteilung von vollständig zufälligem Gauß'schem Rauschen basieren. Wenn wir einen Punkt in dieser Rauschverteilung, einen Punkt in der wahren Datenverteilung und einen Punkt in der Zieldatenverteilung betrachten, können wir sehen, dass der Generator lernt, Daten zu generieren, die irgendwo zwischen diesen Punkten liegen. Diese Idee der Domänentransformation und Traversierung in komplexen Datenverzweigungen wird detaillierter diskutiert und es wird gezeigt, wie Gans eine leistungsstarke Architektur zur Generierung realistischer Datenbeispiele sind.

  • 00:45:00 Das Video diskutiert einige aktuelle Fortschritte in der tiefen generativen Modellierung, einschließlich Verbesserungen an Architektur und Stilübertragung. Anschließend wird das Cyclegan-Modell beschrieben, das die Übersetzung zwischen Domänen mit vollständig ungepaarten Daten ermöglicht.

  • 00:50:00 In diesem Teil erörtert Ava die beiden wichtigsten generativen Modelle, die beim Deep Learning verwendet werden, Variations-Autoencoder und Auto-Encoder, und erklärt, wie sie funktionieren. Er erwähnt auch den Cycle Gan, einen leistungsstarken Verteiltransformator, der in Verbindung mit diesen Modellen verwendet werden kann. Der Autor beendet den Vortrag, indem er die Teilnehmer auffordert, den Laborteil des Kurses zu besuchen, der unmittelbar danach folgt.
MIT 6.S191 (2022): Deep Generative Modeling
MIT 6.S191 (2022): Deep Generative Modeling
  • 2022.04.01
  • www.youtube.com
MIT Introduction to Deep Learning 6.S191: Lecture 4Deep Generative ModelingLecturer: Ava SoleimanyJanuary 2022For all lectures, slides, and lab materials: ht...
 

MIT 6.S191: Verstärkungslernen



Vorlesung 5. MIT 6.S191: Reinforcement Learning

In diesem Video diskutiert Alexander Amini das Konzept des Reinforcement Learning und wie es zum Trainieren eines neuronalen Netzes verwendet werden kann. Er erklärt zunächst, wie Reinforcement Learning funktioniert und wie es in realen Szenarien eingesetzt werden kann. Anschließend erläutert er, wie ein Policy-Gradienten-Netzwerk trainiert werden kann. Schließlich schließt er das Video ab, indem er erläutert, wie der Richtliniengradient bei jeder Iteration der Trainingsschleife aktualisiert werden kann.

  • 00:00:00 In diesem Video lernen wir Reinforcement Learning kennen, eine Art des maschinellen Lernens, bei der ein Deep-Learning-Modell ohne vorherige Kenntnis der Eingabedaten trainiert wird. Beim Reinforcement Learning wird das Deep-Learning-Modell in eine dynamische Umgebung gestellt und hat die Aufgabe, zu lernen, wie eine Aufgabe ohne menschliche Anleitung ausgeführt wird. Dies hat enorme Auswirkungen auf eine Vielzahl von Bereichen wie Robotik, Gameplay und selbstfahrende Autos.

  • 00:05:00 Beim bestärkenden Lernen ist der Agent die Entität, die in der Umgebung Aktionen ausführt, und die Umgebung ist die Welt, in der der Agent existiert und Aktionen ausführt. Der Agent kann Befehle in Form von Aktionen an die Umgebung senden, und ein Zustand ist eine konkrete und unmittelbare Situation, in der sich der Agent zu diesem Zeitpunkt befindet. Der Agent kann auch Belohnungen aus der Umgebung zurückerhalten.

  • 00:10:00 Dieser Teil der Vorlesung über bestärkendes Lernen beschreibt die Konzepte von Belohnung, Gamma und der q-Funktion. Die q-Funktion nimmt den aktuellen Zustand und die aktuelle Aktion als Eingabe und gibt die erwartete Gesamtsumme der zukünftigen Belohnungen zurück, die ein Agent nach dieser Aktion erhalten kann. Die q-Funktion kann verwendet werden, um die beste Aktion zu bestimmen, die in einem bestimmten Zustand unter Berücksichtigung des aktuellen Zustands und der aktuellen Aktion durchzuführen ist.

  • 00:15:00 In diesem Teil stellt Alexander Amini das Breakout-Spiel von Atari und die damit verbundene q-Funktion vor. Er fährt fort, Wertlernalgorithmen zu diskutieren, die darauf basieren, eine q-Funktion zu finden, die zukünftige Belohnungen maximiert. Anschließend stellt er einen Policy-Learning-Algorithmus vor, der eine direktere Methode zur Modellierung des Problems des Reinforcement Learning darstellt. Sowohl Wertelernen als auch Politiklernen werden kurz diskutiert, und die Ergebnisse einer Studie zum Wertelernen werden gezeigt.

  • 00:20:00 Das Video diskutiert Reinforcement Learning oder den Prozess des Lernens, um eine Entscheidung zu optimieren, indem man mit einer Vielzahl möglicher Aktionen und Ergebnisse experimentiert. Das Video zeigt zwei Beispiele dafür, wie sich ein Agent verhalten könnte, eines, bei dem der Agent sehr konservativ ist, und das andere, bei dem der Agent aggressiver ist. Das Video fährt dann fort, um zu diskutieren, wie man ein neuronales Netzwerk trainiert, um die q-Funktion zu lernen, die die optimale Aktion ist, um einen Zustand und eine Aktion zu erfüllen.

  • 00:25:00 In diesem Teil wird erläutert, wie ein q-Wert-Reinforcement-Learning-Agent trainiert wird. Der q-Wert ist ein Maß für die relative Bedeutung verschiedener Ergebnisse und wird verwendet, um das neuronale Netzwerk zu strukturieren. Die erwartete Rendite für jede mögliche Aktion wird berechnet, und die beste Aktion wird bestimmt, indem diese erwartete Rendite maximiert wird. Die q-Wert-Verlustfunktion wird verwendet, um das neuronale Netzwerk zu trainieren, und der Zielwert wird bestimmt, indem die Belohnungen beobachtet werden, die für jede Aktion erhalten werden.

  • 00:30:00 Beim bestärkenden Lernen wird das Verhalten eines Agenten modifiziert, indem Feedback aus einer Umgebung verwendet wird, um eine Belohnung zu maximieren. Policy-Gradient-Methoden sind eine neue Klasse von Reinforcement-Learning-Algorithmen, die flexibler und effizienter sind als Value-Learning-Algorithmen.

  • 00:35:00 In diesem Teil stellt Alexander Amini Reinforcement Learning vor, eine Methode, um zu lernen, wie man sich in Gegenwart von Belohnungen und Bestrafungen verhält. Beim Reinforcement Learning wird die Richtlinie eines Agenten als eine Funktion definiert, die einen Zustand annimmt (die Umgebung, in der sich der Agent befindet) und eine Wahrscheinlichkeit ausgibt, in diesem Zustand eine bestimmte Aktion auszuführen. Diese Wahrscheinlichkeit wird dann verwendet, um ein neuronales Netzwerk zu trainieren, um die nächste Aktion des Agenten auf der Grundlage des aktuellen Zustands und vergangener Belohnungen und Bestrafungen vorherzusagen. Die Vorteile dieses Lernansatzes bestehen darin, dass er mit kontinuierlichen Aktionsräumen umgehen kann und dass Policy-Gradient-Methoden verwendet werden können, um kontinuierliche Aktionen mit hoher Genauigkeit zu modellieren.

  • 00:40:00 In diesem Video erläutert Alexander Amini, wie Richtliniengradienten verwendet werden können, um die Leistung von Reinforcement-Learning-Algorithmen zu verbessern. Er beginnt mit der Beschreibung eines kontinuierlichen Raums und wie Integrale anstelle von diskreten Summationen verwendet werden können. Anschließend geht er auf die Funktionsweise von Policy-Gradienten an einem konkreten Beispiel ein und erläutert, wie ein Policy-Gradienten-Netzwerk trainiert werden kann. Er schließt das Video mit einer Erläuterung, wie der Richtliniengradient bei jeder Iteration der Trainingsschleife aktualisiert werden kann.

  • 00:45:00 Dieser Teil stellt eine Methode zum Trainieren eines neuronalen Netzwerks unter Verwendung von Verstärkungslernen vor. Das Video erklärt, wie Reinforcement Learning funktioniert und wie es in realen Szenarien eingesetzt werden kann.

  • 00:50:00 In diesem Video diskutiert Alexander Amini einige der jüngsten Fortschritte im Reinforcement Learning, insbesondere im Go-Bereich. Alpha Zero, ein Google DeepMind-Projekt, konnte die weltbesten menschlichen Spieler übertreffen. Im nächsten Vortrag wird Nielsen auf Deep-Learning-Literatur und deren Grenzen eingehen. Dies wird die Schüler hoffentlich dazu motivieren, weiter zu lernen und sich auf dem Gebiet weiterzuentwickeln.
MIT 6.S191 (2022): Reinforcement Learning
MIT 6.S191 (2022): Reinforcement Learning
  • 2022.04.08
  • www.youtube.com
MIT Introduction to Deep Learning 6.S191: Lecture 5Deep Reinforcement LearningLecturer: Alexander AminiJanuary 2022For all lectures, slides, and lab material...
 

MIT 6.S191 (2022): Deep Learning New Frontiers



Vorlesung 6. MIT 6.S191 (2022): Deep Learning New Frontiers

Der Vortrag „Deep Learning New Frontiers“ des MIT 6.S191 behandelt eine Reihe von Themen. Die Dozentin Ava Soleimany erläutert die verschiedenen Fristen im Studiengang, stellt die Gastvorträge vor und diskutiert aktuelle Forschungsgrenzen. Einschränkungen von Deep Neural Networks in Bezug auf Universal Approximation Theorem, Generalisierung, Datenqualität, Unsicherheit und gegnerische Angriffe werden ebenfalls angesprochen. Darüber hinaus werden Graph Convolution Neural Networks und ihre potenziellen Anwendungen in verschiedenen Bereichen wie Arzneimittelforschung, urbane Mobilität und COVID-19-Prognose diskutiert. Abschließend befasst sich die Vorlesung mit dem Thema des automatisierten maschinellen Lernens (autoML) und wie es beim Entwurf von leistungsstarken maschinellen Lern- und Deep-Learning-Modellen helfen kann. Der Dozent betont abschließend die Bedeutung der Verbindung und Unterscheidung zwischen menschlichem Lernen, Intelligenz und Deep-Learning-Modellen.

  • 00:00:00 In diesem Abschnitt stellt Ava einige logistische Informationen zu den Klassen-T-Shirts und bevorstehenden Fristen für Labore und Abschlussprojekte bereit. Sie stellen auch die verbleibenden Gastvorträge vor und gehen auf neue Forschungsgrenzen ein, die abgedeckt werden. Das Reinforcement Learning Lab wurde veröffentlicht und der Abgabetermin für alle drei Labs ist morgen Abend, aber das Einreichen ist nicht erforderlich, um eine bestandene Note zu erhalten. Für die Anrechnung im Kurs ist die Einreichung einer Deep Learning Paper Review oder einer abschließenden Projektpräsentation erforderlich. Der endgültige Projektvorschlagswettbewerb erfordert die Einreichung von Gruppennamen bis Mitternacht heute Abend, und die Anweisungen für den Deep-Learning-Papierbericht sind zusammengefasst.

  • 00:05:00 In diesem Abschnitt erörtert der Referent die erstaunliche Reihe von Gastvorträgen, die für die kommenden Sitzungen des Kurses geplant sind. Zu den Gastrednern zählen Vertreter des aufstrebenden selbstfahrenden Autoherstellers Innoviz, Google Research und Google Brain, Nvidia und Caltech sowie Rev AI. Der Referent betont, wie wichtig es ist, die Vorlesungen synchron zu besuchen, um den vollen Zugang zu den Inhalten zu gewährleisten. Der Referent fasst auch die bisher im Kurs behandelten Inhalte zusammen und betont die Leistungsfähigkeit von Deep-Learning-Algorithmen und ihr Potenzial, eine Reihe von Bereichen zu revolutionieren. Der Referent hebt auch die Rolle neuronaler Netze als leistungsstarke Funktionsapproximatoren hervor, die Daten auf Entscheidungen oder umgekehrt abbilden.

  • 00:10:00 In diesem Abschnitt erörtert der Redner das universelle Approximationstheorem, das besagt, dass ein neuronales Feed-Forward-Netz mit einer einzigen Schicht ausreicht, um jede beliebige kontinuierliche Funktion mit beliebiger Genauigkeit zu approximieren. Obwohl dies eine starke Aussage ist, hat das Theorem einige Vorbehalte, einschließlich des Fehlens von Behauptungen oder Garantien bezüglich der Anzahl der erforderlichen Neuronen und wie man Gewichte findet, die das Problem lösen könnten. Außerdem erhebt das Theorem keine Behauptungen über die Verallgemeinerbarkeit des neuronalen Netzwerks über die Umgebung hinaus, in der es trainiert wurde. Der Redner betont, wie wichtig es ist, bei der Vermarktung und Bewerbung dieser Algorithmen vorsichtig zu sein, da potenzielle Bedenken auftreten könnten. Der Abschnitt befasst sich auch mit den Einschränkungen moderner Deep-Learning-Architekturen, beginnend mit dem Problem der Verallgemeinerung und einem Artikel, der dieses Problem mit Bildern aus dem berühmten ImageNet-Datensatz untersuchte.

  • 00:15:00 In diesem Abschnitt diskutiert das Video die Grenzen tiefer neuronaler Netze und ihre Fähigkeit, völlig zufällige Daten perfekt anzupassen. Während neuronale Netze ausgezeichnete Funktionsnäher sind, die zu einer beliebigen Funktion passen können, selbst wenn sie randomisierte Labels hat, sind sie in ihrer Fähigkeit beschränkt, auf Regionen außerhalb der Verteilung zu verallgemeinern, in denen es keine Garantien dafür gibt, wie sich die Funktion verhalten könnte. Dies unterstreicht die Notwendigkeit, Garantien für die Verallgemeinerungsgrenzen neuronaler Netze festzulegen und diese Informationen zu verwenden, um die Trainings-, Lern- und Bereitstellungsprozesse zu informieren. Das Video warnt auch vor dem weit verbreiteten Glauben, dass Deep Learning eine magische Lösung für jedes Problem ist, und betont, wie wichtig es ist, die Einschränkungen und Annahmen dieser Modelle zu verstehen.

  • 00:20:00 In diesem Abschnitt wird die Bedeutung der Qualität der zum Trainieren von Deep-Learning-Modellen verwendeten Daten betont. Ein Ausfallmodus von neuronalen Netzwerken wird durch ein Beispiel skizziert, bei dem ein Schwarz-Weiß-Bild eines Hundes zur Kolorierung durch eine konvolutionelle neuronale Netzwerkarchitektur geleitet wurde. Das Netzwerk sagte eine rosa Region unter der Nase des Hundes voraus, die das Fell hätte sein sollen, aufgrund der Art der Daten, auf denen es trainiert wurde, die viele Bilder von Hunden enthielten, die ihre Zunge herausstrecken. Das Beispiel unterstreicht die Leistungsfähigkeit von Deep-Learning-Modellen, um Darstellungen basierend auf den Daten aufzubauen, die sie während des Trainings gesehen haben. Der Abschnitt diskutiert dann die Folgen der Begegnung mit realen Beispielen, die außerhalb der Trainingsverteilung liegen, wie bei einem tragischen Vorfall mit einem autonomen Tesla-Fahrzeug, das nicht effektiv auf einen Unfall reagierte und letztendlich zum Tod des Fahrers führte. Es wird betont, wie wichtig es ist, die Einschränkungen der Vorhersagen von Deep-Learning-Modellen zu verstehen, insbesondere in sicherheitskritischen Anwendungen.

  • 00:25:00 In diesem Abschnitt erörtert der Referent den Begriff der Unsicherheit beim Deep Learning, der entscheidend für die Erstellung neuronaler Modelle ist, die mit spärlichen, verrauschten oder begrenzten Datensätzen, einschließlich unausgewogener Merkmale, umgehen können. Es gibt zwei Arten von Unsicherheiten in tiefen neuronalen Modellen; aleatorische Unsicherheit und epistemische Unsicherheit, die aus Datenrauschen, Variabilität oder dem Testen eines Beispiels außerhalb der Domäne resultieren können. Diese Unsicherheiten stellen das Vertrauen des Modells in seine Vorhersagen dar und können seine Effektivität beim Umgang mit verschiedenen Datentypen beeinträchtigen. Darüber hinaus stellen kontradiktorische Beispiele, bei denen es sich um synthetische Instanzen handelt, die erstellt wurden, um Deep-Learning-Modelle in die Irre zu führen, einen dritten Fehlermodus dar, der berücksichtigt werden muss. Jaspers Gastvortrag zu diesem Thema wird dringend empfohlen, um die Debatte darüber zu untersuchen, ob diese beiden Arten von Unsicherheiten alle Möglichkeiten erfassen, und um die jüngsten Forschungsfortschritte auf diesem Gebiet zu diskutieren.

  • 00:30:00 In diesem Abschnitt des Videos erörtert der Dozent das Konzept der gegnerischen Angriffe, bei denen eine Störung auf ein Bild angewendet wird, die für das menschliche Auge nicht wahrnehmbar ist, aber einen erheblichen Einfluss auf die Entscheidung eines neuronalen Netzwerks hat, was zu einer Fehlklassifizierung führt des Bildes. Die Störung ist geschickt konstruiert, um effektiv als Gegner zu fungieren, und neuronale Netze können darauf trainiert werden, diese Störung zu lernen. Der Dozent geht auch kurz auf das Problem der algorithmischen Verzerrung ein, bei der neuronale Netzwerkmodelle und KI-Systeme anfällig für Verzerrungen sein können, die reale und nachteilige gesellschaftliche Folgen haben können, und im zweiten Labor wurden Strategien zur Minderung der algorithmischen Verzerrung untersucht. Diese Einschränkungen sind nur die Spitze des Eisbergs, und es gibt noch weitere Einschränkungen, die berücksichtigt werden müssen.

  • 00:35:00 In diesem Abschnitt erörtert der Referent die Verwendung von Graphstrukturen als Datenmodalität für Deep Learning und wie sie eine neue Art von Netzwerkarchitektur inspirieren kann, die mit konvolutionellen neuronalen Netzwerken verwandt ist, aber anders ist. Graphstrukturen können eine Vielzahl von Datentypen darstellen, von sozialen Netzwerken bis hin zu Proteinen und biologischen Molekülen. Graph Convolutional Neural Networks arbeiten, indem sie anstelle einer 2D-Matrix eine Reihe von Knoten und Kanten als Eingabe nehmen und den Graphen mit einem Gewichtungskern durchlaufen, um Merkmale zu extrahieren, die Informationen über die Beziehung von Knoten zueinander bewahren. Dieses aufstrebende Gebiet des Deep Learning ermöglicht die Erfassung komplizierterer Datengeometrien und Datenstrukturen über Standardcodierungen hinaus.

  • 00:40:00 In diesem Abschnitt diskutiert der Referent Graph Convolutional Networks und ihre Anwendungen in verschiedenen Bereichen, darunter Chemie und Wirkstoffforschung, urbane Mobilität und COVID-19-Prognose. Graph Convolutional Networks ermöglichen die Extraktion von Merkmalen über die lokale Konnektivität und Struktur eines Graphen, wodurch der Lernprozess Gewichte aufgreifen kann, die Informationen über Konnektivitätsmuster extrahieren können. Darüber hinaus erläutert der Referent, wie Graph Convolutional Neural Networks auf Punktwolkendatensätze erweitert werden können, indem der 3D-Punktwolken-Mannigfaltigkeit eine Graphenstruktur auferlegt wird.

  • 00:45:00 In diesem Abschnitt erörtert der Redner die neuen Grenzen des automatisierten maschinellen Lernens und Lernens zu lernen. Ziel ist es, einen Lernalgorithmus zu entwickeln, der das Entwurfsproblem neuronaler Netzwerkarchitekturen lösen und das effektivste Modell zur Lösung eines bestimmten Problems vorhersagen kann. Das ursprüngliche automl-Framework verwendete ein Reinforcement-Learning-Setup mit einem neuronalen Controller-Netz und einer Feedback-Schleife, um die Architekturvorschläge des Modells iterativ zu verbessern. Kürzlich wurde automl auf die Suche nach neuronaler Architektur erweitert, bei der das Ziel darin besteht, nach optimalen Designs und Hyperparametern zu suchen. Dieses neue Forschungsgebiet könnte die Art und Weise revolutionieren, wie wir Modelle für maschinelles Lernen entwerfen und ihre Leistung optimieren.

  • 00:50:00 In diesem Abschnitt diskutiert der Dozent das Konzept von automl (automatisches maschinelles Lernen) und seine Fähigkeit, leistungsstarke Modelle für maschinelles Lernen und Deep Learning zu entwerfen. Die Idee von automl hat in modernen Design-Pipelines für maschinelles Lernen und Deep Learning an Popularität gewonnen, insbesondere in industriellen Anwendungen, wo seine Algorithmen erfolgreich Architekturen mit sehr guter Leistung erstellt haben. Der Dozent präsentiert ein Beispiel dafür, wie Architekturen, die von einem Automl-Algorithmus vorgeschlagen wurden, bei einer Bilderkennungsaufgabe mit weniger Parametern als denen, die von Menschen entworfen wurden, eine überlegene Genauigkeit erreichten. Automl wurde in das breitere Konzept der Auto-KI erweitert, bei dem ganze Datenverarbeitungs- und Lernvorhersage-Pipelines von KI-Algorithmen entworfen und optimiert werden. Abschließend ermutigt der Dozent das Publikum, über die Auswirkungen des Designs von KI nachzudenken, die neue Modelle generieren können, die bei interessanten Aufgaben hochleistungsfähig sind, sowie über die Verbindungen und Unterschiede zwischen menschlichem Lernen, Intelligenz und Deep-Learning-Modellen.
MIT 6.S191 (2022): Deep Learning New Frontiers
MIT 6.S191 (2022): Deep Learning New Frontiers
  • 2022.04.15
  • www.youtube.com
MIT Introduction to Deep Learning 6.S191: Lecture 6Deep Learning Limitations and New FrontiersLecturer: Ava SoleimanyJanuary 2022For all lectures, slides, an...
 

MIT 6.S191: LiDAR für autonomes Fahren



Vorlesung 7. MIT 6.S191: LiDAR für autonomes Fahren

Das Video „MIT 6.S191: LiDAR for Autonomous Driving“ stellt die Entwicklung der LiDAR-Technologie für autonome Fahrzeuge durch Innoviz vor und hebt die Vorteile und Bedeutung der Sichtbarkeits- und Vorhersagefähigkeiten des Systems hervor. Der Referent erläutert die verschiedenen Faktoren, die das Signal-Rausch-Verhältnis des LiDAR-Systems beeinflussen, die Bedeutung der Redundanz bei der Sensornutzung und die Notwendigkeit einer hohen Auflösung und Recheneffizienz bei der Erkennung kollisionsrelevanter Objekte. Sie diskutieren auch die Herausforderungen von Deep-Learning-Netzwerken bei der Erkennung und Klassifizierung von Objekten, verschiedene LiDAR-Datendarstellungen und die Verschmelzung von Clustering- und Deep-Learning-Ansätzen für die Objekterkennung und die Genauigkeit von Begrenzungsrahmen. Darüber hinaus geht das Video auf die Kompromisse zwischen FMCW und Time-of-Flight-LiDAR ein. Insgesamt betont die Diskussion die entscheidende Rolle von LiDAR bei der Verbesserung der Sicherheit und der Zukunft des autonomen Fahrens.

  • 00:00:00 In diesem Abschnitt stellt der Redner Innoviz und seine Entwicklung von Lidars für autonome Fahrzeuge vor und konzentriert sich insbesondere darauf, wie sie Autoherstellern helfen, ihre Ziele bei der Entwicklung autonomer Fahrzeuge zu erreichen. Der Referent geht auf den aktuellen Stand des autonomen Fahrens und die Haftungsfragen ein, die sich aus Unfällen ergeben, die auf eine nicht vollumfängliche Verantwortung des Autoherstellers zurückzuführen sind. Sie erklären auch die Verwendung der Lidar-Technologie, die einen Laserstrahl verwendet, um die Szene zu scannen und Photonen von Objekten zu sammeln. Der Referent betont die Bedeutung einer guten Sicht und Vorhersage des Straßengeschehens für erfolgreiches autonomes Fahren.

  • 00:05:00 In diesem Abschnitt erläutert der Referent die Funktionsweise von LiDAR beim autonomen Fahren und die verschiedenen Faktoren, die das Signal-Rausch-Verhältnis beeinflussen. Das LiDAR-System verwendet Photonen, die zurückprallen, um die Entfernung von Objekten zu bestimmen, und das Signal-Rausch-Verhältnis wird durch Emission, Apertur, Photonenerkennungseffizienz, Detektorrauschen und Sonnenrauschen bestimmt. Der Referent erklärt auch, dass Innoviz 2, ein LiDAR-System der zweiten Generation, deutlich besser ist als jedes andere auf dem Markt erhältliche System, da es ein größeres Sichtfeld und einen größeren Entfernungsbereich mit höherer Auflösung abdecken kann. Der Referent erörtert auch die unterschiedlichen Anforderungen für autonome Fahranwendungen wie Autobahnen und wie LiDAR diese Anwendungen unterstützen kann.

  • 00:10:00 In diesem Abschnitt erklärt der Referent, warum Redundanz beim autonomen Fahren wichtig ist, insbesondere wenn es um Einschränkungen von Sensoren wie Kameras geht, die durch Wasser oder direkte Sonneneinstrahlung behindert werden können. Ein gutes autonomes Fahrsystem bietet nicht nur Sicherheit, sondern fährt auch reibungslos, damit die Passagiere nicht erschöpft werden. Die Anforderungen der Stufe drei beinhalten die Fähigkeit, die Vorderseite des Fahrzeugs zu sehen, um sanft zu beschleunigen, zu bremsen und zu manövrieren. Der Referent geht kurz auf Anforderungen wie Sichtfeld und Projektion der Flugbahn eines Objekts ein und stellt fest, dass eine höhere Auflösung es dem Sensor ermöglicht, Objekte besser zu identifizieren. Abschließend bietet der Redner einen Anwendungsfall für eine Notbremsung bei 80 Meilen pro Stunde.

  • 00:15:00 In diesem Abschnitt erörtert der Referent die Bedeutung der vertikalen Auflösung von LiDAR und wie sie die Entscheidungsfindung in autonomen Fahrzeugen beeinflusst. Sie erklären, dass es aus Gründen der Klarheit notwendig ist, zwei Pixel zu haben, um ein hohes Objekt zu identifizieren, und dass selbst wenn LiDAR die doppelte Reichweite hätte, es nicht unbedingt bei der Entscheidungsfindung helfen würde, wenn es nur ein Pixel gibt. Sie diskutieren ferner die Auswirkungen höherer Bildraten und doppelter vertikaler Auflösung, die Hindernisse in größerer Entfernung erkennen könnten, und betonen, dass diese Parameter für die Sicherheit autonomer Fahrzeuge von entscheidender Bedeutung sind. Der Referent geht auch kurz auf die Bemühungen des Unternehmens ein hochauflösendes, kostengünstiges 360-Grad-LiDAR-System zu entwickeln. Schließlich schließt der Abschnitt mit einer Diskussion eines einfachen Algorithmus, der kollisionsrelevante Punkte in einer Punktwolke erkennen kann.

  • 00:20:00 In diesem Abschnitt erläutert der Referent einen einfachen Algorithmus zur Erkennung kollisionsrelevanter Objekte mittels LiDAR-Technologie. Durch die Messung des Höhenunterschieds zwischen Punktpaaren in einer Punktwolke können Objekte, die sich 40 Zentimeter oder mehr über dem Boden befinden, leicht erkannt werden. Der Algorithmus kann Objekte erkennen, die möglicherweise nicht in einem Trainingssatz dargestellt werden, wie z. B. Feuerwehrautos oder Objekte in verschiedenen Regionen der Welt. Der Referent zeigt Beispiele, wie dieser Algorithmus umkippende Lkw und kleine Objekte wie Reifen aus der Ferne erkennen kann. Während das Erkennen statischer Objekte wichtig ist, ist es jedoch auch wichtig, die Dynamik sich bewegender Objekte zu verstehen, um vorherzusagen, wie sie sich in Zukunft bewegen werden.

  • 00:25:00 In diesem Abschnitt liegt der Schwerpunkt auf den Herausforderungen bei der Erkennung und Klassifizierung von Objekten wie Fußgängern mithilfe von Deep-Learning-Netzwerken, insbesondere in Szenarien, in denen das Erscheinungsbild von Objekten wie Beinen und Oberkörper nicht offensichtlich oder Objekte zu weit entfernt sind. Lidar ist in diesen Szenarien eine nützliche Technologie, da es immer noch Objekte klassifizieren und gruppieren kann, da es nicht entscheidend ist, ihr Aussehen zu sehen. Dieser Clustering-Algorithmus kann in realen Szenarioumgebungen wie dem Fahren angewendet werden, aber seine Instabilität und Mehrdeutigkeit, die am Beispiel eines Objekts aufgezeigt werden, das als zwei verschiedene Objekte klassifiziert werden kann, erschweren den Aufbau eines robusten und nützlichen Systems für die autonomer Fahrzeugstapel der oberen Ebene. Daher bleibt die semantische Analyse für das gesamte System von entscheidender Bedeutung. Das Verständnis der unstrukturierten Natur und der geringen Dichte von Punktwolkendaten ist auch bei der Verarbeitung von Daten von entscheidender Bedeutung.

  • 00:30:00 In diesem Abschnitt erörtert der Referent verschiedene Darstellungen von LiDAR-Daten, die für autonomes Fahren verwendet werden können, einschließlich strukturierter Darstellungen, die Bildern ähneln, und Voxelisierung, bei der die Daten in kleinere Volumina aufgeteilt werden. Die Herausforderung bei strukturierten Darstellungen besteht darin, dass es schwierig sein kann, die 3D-Messeigenschaften von Punktwolken auszunutzen, während es bei der Voxelisierung möglich ist, Okklusionsinformationen zu verstehen, die als zusätzliche Schicht im Netzwerk für eine effiziente Verarbeitung hinzugefügt werden können. Der Referent betont die Bedeutung der Recheneffizienz beim autonomen Fahren und der Verarbeitung am Rand, wo Effizienz die Lösung definieren kann.

  • 00:35:00 In diesem Abschnitt geht der Referent auf die wesentlichen Elemente des Lidar-Systems für das autonome Fahren am Beispiel der Erkennung eines Motorrads auf der eigenen Fahrspur ein. Um das Motorrad genau zu erkennen und zu verfolgen, ist es wichtig, einen engen Begrenzungsrahmen um das Motorrad herum zu haben, der sowohl semantisch genau als auch rechnerisch effizient ist. Die Lösung ist eine Verschmelzung von Deep-Learning- und Clustering-Ansätzen, die das Beste aus beiden Methoden kombiniert, um eine solide, interpretierbare Objektliste für die Ausgabe des Stacks zu erstellen, was für sicherheitskritische Systeme wichtig ist. Die verschmolzene Ausgabe liefert genaue Begrenzungsboxen mit Klassen, was zu einer nahtloseren Integration von Lidar und Wahrnehmungssoftware in die Verarbeitungseinheit eines Autos führt.

  • 00:40:00 In diesem Abschnitt erörtert der Referent die Verwendung von LiDAR für autonomes Fahren und wie es durch die Bereitstellung redundanter Sensorinformationen zur Verbesserung der Sicherheit beitragen kann. Sie erklären, dass Wetterbedingungen wie Regen kaum Einfluss auf die Leistung von LiDAR haben, während Nebel das Licht etwas dämpfen kann. Der Redner geht auch auf Fragen zu Fehlalarmen ein und erklärt, warum sein LiDAR besser für diese Anwendung geeignet ist, und hebt die Kompromisse zwischen verschiedenen Parametern und dem hohen Gesamt-SNR des Systems hervor. Anschließend diskutieren sie die Herausforderungen beim Training von Klassifikatoren für das autonome Fahren und die Bedeutung des aktiven Lernens, um eine effektive Annotation von Daten sicherzustellen.

  • 00:45:00 In diesem Abschnitt diskutiert der Redner die verschiedenen Lager im LiDAR-Raum wie Wellenlänge, Lasermodulation und Scan-Mechanismus. Sie vertiefen sich dann in die Frage von FMCW gegenüber Flugzeit und stellen fest, dass FMCW für die direkte Messung der Geschwindigkeit vorteilhaft ist, aber durch die Notwendigkeit, 1550 zu verwenden, und die starke Kopplung zwischen Reichweitenbildrate und Sichtfeld begrenzt ist. Andererseits kann die Flugzeit die Geschwindigkeit mit hoher Auflösung und hoher Bildrate gut berechnen, aber der Kompromiss zwischen Parametern wie Auflösung, Reichweite, Sichtfeld und Bildrate kommt vor der Geschwindigkeitsanforderung. Die Redner erwähnen auch, dass sie ihre Sensoren an Autohersteller und darüber hinaus verkaufen, darunter Hochschulen, Bauunternehmen, intelligente Städte und Überwachung.
MIT 6.S191: LiDAR for Autonomous Driving
MIT 6.S191: LiDAR for Autonomous Driving
  • 2022.04.22
  • www.youtube.com
MIT Introduction to Deep Learning 6.S191: Lecture 7Deep Learning for Autonomous DrivingLecturer: Omer Keilaf (CEO) and Amir Day (Head of CV & DL)Innoviz Tech...
 

MIT 6.S191: Automatische Spracherkennung



Vorlesung 8. MIT 6.S191: Automatische Spracherkennung

In diesem Video erklärt der Mitbegründer von Rev die Mission des Unternehmens, Menschen, die Medien transkribieren, beschriften oder untertiteln, mit Kunden zusammenzubringen, die Transkriptionsdienste benötigen. Rev nutzt ASR, um seinen Marktplatz zu betreiben, über 15.000 Stunden Mediendaten pro Woche zu transkribieren, und bietet seine API für Kunden an, um ihre eigenen Sprachanwendungen zu erstellen. Das von Rev entwickelte neue End-to-End-Deep-Learning-ASR-Modell erreicht eine deutliche Leistungssteigerung im Vergleich zum Vorgänger, aber es gibt noch Verbesserungspotenzial, da ASR auch im Englischen kein vollständig gelöstes Problem ist. Der Referent erörtert verschiedene Techniken zum Umgang mit Verzerrungen in Datensätzen, zum Vorbereiten von Audiodaten für das Training und zu Ansätzen, um Probleme mit dem End-to-End-Modell anzugehen.

  • 00:00:00 In diesem Abschnitt beschreibt Miguel, der Mitbegründer von Rev, die Geschichte und Mission des Unternehmens, das darin besteht, Heimarbeitsplätze für Menschen zu schaffen, die von KI angetrieben werden. Rev ist ein doppelseitiger Marktplatz, der Menschen, die Medien transkribieren, beschriften oder untertiteln, mit Kunden verbindet, die Transkriptionsdienste benötigen. Mit über 170.000 Kunden und mehr als 60.000 Mitarbeitern transkribiert Rev mehr als 15.000 Stunden Mediendaten pro Woche und ist damit eine bedeutende Quelle für Trainingsdaten für Modelle der automatischen Spracherkennung (ASR). Rev nutzt ASR, um seinen Marktplatz zu betreiben, und bietet seine API für Kunden an, um ihre eigenen Sprachanwendungen zu erstellen. Jenny, die die Deep-Learning-ASR-Projektentwicklung bei Rev leitet, erläutert die Leistung des End-to-End-Deep-Learning-ASR-Modells und die Modellierungsentscheidungen, die in seine Entwicklung eingeflossen sind.

  • 00:05:00 In diesem Abschnitt erörtert der Redner die Entwicklung eines End-to-End-Systems zur automatischen Spracherkennung (ASR) und die Veröffentlichung von Version zwei davon durch Rev. Sie verglichen ihr neues Modell mit Version eins ihres Hybrids Architektur sowie an mehrere Wettbewerber. Die Modelle wurden mit einem Benchmark-Datensatz von Gehaltsanrufen bewertet, die von menschlichen Transkriptoren transkribiert wurden, wobei die Wortfehlerrate die Hauptmetrik war. Die Ergebnisse zeigen, dass das neue Modell erhebliche Leistungsverbesserungen erzielt, insbesondere bei der Erkennung von Organisationsnamen und Personen. Allerdings ist hier noch Luft nach oben, da ASR auch im Englischen kein vollständig gelöstes Problem ist und die Fehlerquote insgesamt noch recht hoch ist. Der Referent stellt auch die Ergebnisse eines Open-Source-Datensatzes vor, der die Voreingenommenheit von ASR-Systemen über verschiedene Nationalitäten hinweg untersucht.

  • 00:10:00 In diesem Abschnitt betont der Referent die Bedeutung von Daten bei der Entwicklung und Verbesserung von Modellen zur automatischen Spracherkennung (ASR). Während das Unternehmen Zugriff auf eine große Datenmenge aus verschiedenen englischsprachigen Ländern hat, steht das Team auch vor der Herausforderung, mit Verzerrungen in den Modellen umzugehen, z. B. gute Leistung bei schottischem Akzent, aber schlechte Leistung bei irischem Akzent. Der Referent erläutert den Prozess der Entwicklung eines End-to-End-ASR-Modells für die Spracherkennung und betont die Schwierigkeit, lernen zu müssen, welche Informationen im Audiosignal für die Aufgabe relevant sind. Das Ziel des Unternehmens ist es, ein Modell zu produzieren, das jedes an rev.com übermittelte Audio verarbeiten kann, was es zu einem größeren und herausfordernderen Problem macht als das, was normalerweise in der Wissenschaft zu sehen ist. Die Entscheidung des Teams, nur wörtliche Transkripte für das Training zu verwenden, wird ebenfalls diskutiert, da dies für die Genauigkeit des Modells entscheidend ist.

  • 00:15:00 In diesem Abschnitt erläutert der Referent, wie Audiodaten für das Training eines Spracherkennungsmodells vorbereitet werden. Die langen Dateien mit Audio und Transkripten werden in einzelne Sätze aufgeteilt oder mit Sprachaktivitätserkennung willkürlich segmentiert. Das Audio wird dann zu einem Spektrogramm mit Vektoren verarbeitet, wodurch es in ein eindimensionales Signal umgewandelt wird, das einem neuronalen Netzwerk zugeführt werden kann, um daraus Merkmale zu lernen. Das Modell muss auch entscheiden, wie die Textdaten aufgeteilt werden, und das Feld hat sich darauf festgelegt, Teilworteinheiten oder Wortstückeinheiten zu verwenden. Abschließend erwähnt der Redner kurz die Verwendung der Mel-Skala, einer Technik, die verwendet wird, um die menschliche Hörwahrnehmung verschiedener Frequenzbänder besser zu modellieren.

  • 00:20:00 In diesem Abschnitt erörtert der Sprecher die Verwendung der Mel-Skala bei der Spracherkennung, die die Art und Weise nachahmt, wie das menschliche Ohr Audio verarbeitet. Während es neuronale Netzwerkmodelle gibt, die diese Filter lernen können, ist es für ihr Team einfacher, sie durch Signalverarbeitung zu handhaben, anstatt sie in das Netzwerk aufzunehmen. Der Redner erklärt auch aufmerksam das Encoder-Decoder-Modell, das jeweils eine Einheit zur Zeit ausgibt und von Einbettungen des Eingangsaudios abhängig ist. Das Modell führt zu Beginn ein Downsampling durch und verwendet als eigentliche Schicht entweder rekurrente neuronale Netze oder Transformatoren.

  • 00:25:00 In diesem Abschnitt erörtert der Redner die Verwendung von "Conformer" in automatischen Spracherkennungsmodellen (ASR), was ein effizienterer Ansatz ist als das herkömmliche Transformer-Modell. Obwohl aufmerksamkeitsbasierte ASR-Modelle eine beeindruckende Genauigkeit gezeigt haben, sind sie aufgrund der Geschwindigkeits- und Rechenkostenkompromisse für kommerzielle Anwendungen nicht praktikabel. Stattdessen empfiehlt der Redner die Verwendung des Algorithmus namens Connectionist Temporal Classification (CTC) für ASR, der am besten ist, wenn die Ausrichtung zwischen Eingabe und Ausgabe monoton ist und die Ausgabesequenz gleich lang oder kürzer als die Eingabesequenz ist. CTC ist eine Verlustfunktion und ein Dekodierungsalgorithmus, der auf einem Deep-Learning-Modell sitzt und eine Softmax-Ausgabeschicht erfordert. Die Ausgänge werden alle auf einmal erzeugt, wodurch es schneller ist als das herkömmliche Encoder-Decoder-Modell mit Aufmerksamkeit.

  • 00:30:00 In diesem Abschnitt des Videos erörtert der Sprecher das Konzept der Connectionist Temporal Classification (CTC), einer Methode zur Spracherkennung. Bei der CTC-Methode werden die Log-Wahrscheinlichkeiten in den Softmax-Ausgaben für jeden Zeitschritt summiert und dann die Wahrscheinlichkeit einer kürzeren Labelsequenz aus längeren berechnet. Die CTC-Methode verfügt über einen effizienten dynamischen Programmieralgorithmus, der zur Berechnung der Wahrscheinlichkeit einer Sequenz verwendet wird. Obwohl CTC möglicherweise nicht so leistungsstark ist wie andere Modelle, kann es schneller sein und ist unter bestimmten Bedingungen besser. Um die Genauigkeit zu verbessern, kann ein extern trainiertes Sprachmodell hinzugefügt werden, aber dies ist kein End-to-End-Modell mehr.

  • 00:35:00 In diesem Abschnitt diskutiert der Sprecher den Kompromiss zwischen Genauigkeit und Geschwindigkeit oder Rechenaufwand beim Erhalten von Wahrscheinlichkeiten aus Sprachmodellen. Sie erklären die Möglichkeit, ein Sprachmodell als Teil eines tiefen neuronalen Netzwerkmodells, genannt Transducer, hinzuzufügen, das in das Rechenbudget eines Produktionssystems passen kann, vorausgesetzt, die Vorhersage und das gemeinsame Netzwerk sind relativ klein und nicht zu kostspielig. Der Redner spricht auch über das von REV verwendete gemeinsame CTC- und Aufmerksamkeitsmodell, das sich als eine der leistungsstärksten ASR-Architekturen erwiesen hat. Sie sprechen auch das Problem der Verzerrung in Datensätzen an und erwähnen Strategien, die sie erforschen, wie z. B. die stärkere Nutzung menschlicher Transkriptoren, um Trainingsdaten auszugleichen.

  • 00:40:00 In diesem Abschnitt erörtern die Referenten mögliche Strategien zur Behebung von Problemen mit dem End-to-End-Modell, einschließlich Nachbearbeitungsschritten und Mining-Daten für die Neugewichtung. Sie erwähnen auch Techniken wie Lehrplanlernen, die sie in ihrer Forschung erforschen können. Darüber hinaus stellen sie klar, dass sie derzeit CTC mit einem N-Gramm-Sprachmodell als ersten Durchgang und einem konformeren Modell als Codierer sowohl für CTC als auch für die Einbettungen verwenden, die dem Aufmerksamkeitsdecodierer zugeführt werden. Sie geben ihre E-Mail-Adressen an alle weiter, die sich mit Fragen an sie wenden oder ASR im Allgemeinen besprechen möchten.
MIT 6.S191: Automatic Speech Recognition
MIT 6.S191: Automatic Speech Recognition
  • 2022.05.02
  • www.youtube.com
MIT Introduction to Deep Learning 6.S191: Lecture 8How Rev.com harnesses human-in-the-loop and deep learning to build the world's best English speech recogni...
 

MIT 6.S191: KI für die Wissenschaft



Vorlesung 9. MIT 6.S191: KI für die Wissenschaft

Das Video MIT 6.S191: AI for Science untersucht die Herausforderungen bei der Verwendung traditioneller Computermethoden zur Lösung komplexer wissenschaftlicher Probleme und die Notwendigkeit maschinellen Lernens zur Beschleunigung von Simulationen. Der Referent erörtert die Notwendigkeit, neue ML-Methoden zu entwickeln, die feinskalige Phänomene ohne Überanpassung an diskrete Punkte erfassen können, und beschreibt verschiedene Ansätze zur Lösung partieller Differentialgleichungen (PDEs) mit neuronalen Operatoren und Fourier-Transformationen. Sie befassen sich auch mit der Wichtigkeit, Phasen- und Amplitudeninformationen im Frequenzbereich zu halten und physikalische Gesetze als Verlustfunktionen hinzuzufügen, wenn inverse Probleme mit PDEs gelöst werden. Darüber hinaus werden die Möglichkeit der Verwendung von KI zum Erlernen symbolischer Gleichungen und zum Entdecken neuer Physik oder Gesetze, die Bedeutung der Unsicherheitsquantifizierung, die Skalierbarkeit und technische Überlegungen zur Skalierung von KI-Anwendungen angesprochen. Das Video endet damit, dass Einzelpersonen ermutigt werden, coole Projekte mit KI zu verfolgen.

  • 00:00:00 Der Referent diskutiert die Rolle des prinzipiellen Designs von KI-Algorithmen in anspruchsvollen Bereichen mit einem Schwerpunkt auf KI für die Wissenschaft. Es besteht die Notwendigkeit, eine gemeinsame Sprache und Grundlage zwischen Fachexperten und KI-Experten aufzubauen und neue Algorithmen für KI für die Wissenschaft zu entwickeln. Die größte Herausforderung ist die Notwendigkeit der Extrapolation oder Zero-Shot-Verallgemeinerung, was bedeutet, dass Vorhersagen für Proben getroffen werden, die sich stark von den Trainingsdaten unterscheiden. Dies erfordert die Berücksichtigung von Domainprioritäten, Einschränkungen und physikalischen Gesetzen und kann nicht rein datengesteuert sein. Der Bedarf an Computern wächst im wissenschaftlichen Rechnen exponentiell, und KI kann nützlich sein, um den Klimawandel zu bekämpfen und die reale Welt in einem kleinen Maßstab zu modellieren.

  • 00:05:00 In diesem Abschnitt des Videos erörtert der Sprecher die Herausforderungen bei der Verwendung traditioneller Computermethoden zur Lösung komplexer wissenschaftlicher Probleme wie der Simulation von Molekülen oder der Vorhersage des Klimawandels. Selbst mit Supercomputern würde es viel länger dauern als das Alter des Universums, um die Schrödinger-Gleichung für ein Molekül mit 100 Atomen zu berechnen. Daher ist maschinelles Lernen erforderlich, um diese Simulationen zu beschleunigen und datengesteuert zu machen. Aktuelle Deep-Learning-Methoden weisen jedoch Einschränkungen auf, z. B. übermäßiges Selbstvertrauen bei falschen Vorhersagen, was zu falschen und möglicherweise kostspieligen Entscheidungen führen kann. Der Referent betont die Notwendigkeit, neue Methoden des maschinellen Lernens zu entwickeln, die feinskalige Phänomene erfassen können, ohne zu viele diskrete Punkte anzupassen.

  • 00:10:00 Dieser Teil diskutiert die Herausforderungen bei der Entwicklung von KI-Modellen, die kontinuierliche Phänomene und molekulare Modellierung auflösungsinvariant und symmetrieberücksichtigend erfassen können. Sie stellen fest, dass große KI-Modelle dabei helfen können, komplexe Phänomene wie das Wetter auf der Erde zu erfassen, und dass die erhöhte Verfügbarkeit von Daten und größere Supercomputer zu ihrer Effektivität beitragen. Der Referent erörtert auch die Herausforderungen des algorithmischen Designs beim Lösen partieller Differentialgleichungen und dass standardmäßige neuronale Netze nicht direkt verwendet werden können, insbesondere wenn eine Familie von partiellen Differentialgleichungen gelöst wird, wie z. B. Flüssigkeitsströmungen, bei denen das Modell lernen muss, was unter verschiedenen Anfangsbedingungen passiert.

  • 00:15:00 In diesem Abschnitt erörtert der Referent das Problem der Lösung partieller Differentialgleichungen (PDEs) und wie es sich vom standardmäßigen überwachten Lernen unterscheidet. Die Herausforderung besteht darin, dass PDE-Lösungen nicht auf eine Auflösung festgelegt sind, sodass ein Framework benötigt wird, das für jede Auflösung lösen kann. Der Referent erklärt, wie das Lösen von PDEs das Finden der Lösung mit gegebenen Anfangs- und Randbedingungen erfordert, und veranschaulicht, wie dies getan werden kann, indem er sich von der Lösung linearer PDEs inspirieren lässt, insbesondere am Beispiel der Wärmequelle. Das lineare Operatorprinzip wird verwendet, indem es mit Nichtlinearität zusammengesetzt wird, um ein neuronales Netzwerk für maschinelles Lernen aufzubauen. Die Eingabe ist jedoch unendlichdimensional und kontinuierlich, sodass eine praktische Lösung benötigt wird, und der Referent schlägt vor, die linearen Operatoren zu entwerfen, die durch das Lösen linearer partieller Differentialgleichungen inspiriert sind.

  • 00:20:00 In diesem Abschnitt erörtert der Referent das Konzept der Verwendung eines neuronalen Operators zum Lösen partieller Differentialgleichungen (PDEs), ob linear oder nichtlinear. Die Idee besteht darin, zu lernen, wie man Integration über mehrere Ebenen durchführt, um einen neuronalen Operator zu erstellen, der in unendlichen Dimensionen lernen kann. Die dafür erforderliche praktische Architektur wird durch eine globale Faltung über Fourier-Transformationen entwickelt, die die Erfassung globaler Korrelationen ermöglicht. Die Architektur arbeitet, indem sie das Signal in den Fourier-Raum umwandelt und Gewichtungen lernt, wie Frequenzgewichtungen geändert werden. Dies bietet eine sehr einfache Formulierung, die stabil ist und Ausdruckskraft verleiht. Darüber hinaus stellt der Redner fest, dass der Ansatz auf domänenspezifischen induktiven Verzerrungen basiert, was eine effiziente Berechnung in Bereichen wie Flüssigkeitsströmungen ermöglicht.

  • 00:25:00 Der Sprecher erklärt, dass die Verwendung von Fourier-Transformationen die Verarbeitung bei jeder Auflösung ermöglicht und die Verallgemeinerung über verschiedene Auflösungen im Vergleich zu Faltungsfiltern verbessert, die nur bei einer Auflösung lernen. Sie diskutieren auch, wie die Prinzipien dieses Ansatzes, der das gemeinsame Lösen der globalen Faltung durch nichtlineare Transformationen beinhaltet, zu einem ausdrucksstarken Modell führen. Sie beantworten einige Fragen des Publikums zur Verallgemeinerbarkeit der Implementierung und zu den Vorteilen des Trainings eines Modells, das auflösungsinvariant ist. Der Referent zeigt Ergebnisse der Implementierung dieses Ansatzes an Navier-Stokes-Daten und zeigt, dass er in der Lage ist, hohe Frequenzen gut zu erfassen und die Ergebnisse sogar dann verbessern kann, wenn auf höhere Auflösungen als die Trainingsdaten extrapoliert wird.

  • 00:30:00 In diesem Teil wird erläutert, wie wichtig es ist, sowohl die Phasen- als auch die Amplitudeninformationen im Frequenzbereich zu halten und nicht nur die Amplitude. Wenn Sie komplexe Zahlen in neuronalen Netzen verwenden, ist es wichtig, die Gradientenaktualisierungen für Algorithmen wie adam auf potenzielle Fehler zu überprüfen. Der Referent schlägt vor, physikalische Gesetze als Verlustfunktionen zu Lösungen wie partiellen Differentialgleichungen (PDEs) hinzuzufügen, da es sinnvoll ist zu prüfen, ob die Lösung nahe an der Erfüllung der Gleichungen ist. Durch das Trainieren vieler verschiedener Probleminstanzen und das Verlassen auf kleine Mengen an Trainingsdaten kann das Gleichgewicht zwischen Daten- oder Physikinformiertheit einen guten Kompromiss schaffen und Generalisierungsfähigkeiten erzeugen. Außerdem geht der Referent auf die Nützlichkeit der Lösung inverser Probleme mit PDEs ein.

  • 00:35:00 In diesem Teil wird die Idee diskutiert, inverse Probleme durch maschinelles Lernen zu lösen. Dazu gehört, einen partiellen Differentialgleichungslöser vorwärts zu lernen und ihn dann zu invertieren, um die beste Anpassung zu finden, anstatt sich auf teure Methoden wie MCMC zu verlassen. Der Referent geht auch auf das Thema Chaos und seinen Zusammenhang mit Transformatoren ein und hebt den Ersatz des Aufmerksamkeitsmechanismus durch neuronale Fourier-Operatormodelle für eine bessere Effizienz hervor. Verschiedene Anwendungen dieser unterschiedlichen Frameworks werden diskutiert, einschließlich Wettervorhersage, Klima und Spannungsvorhersage in Materialien. Auch stellt sich die Frage, ob neuronale Operatoren ähnlich wie vortrainierte Netze für verschiedene Anwendungsdomänen eingesetzt werden könnten. Während der Redner die Bedeutung universeller physikalischer Gesetze anerkennt, wird angedeutet, dass das Trainieren eines Modells zum Verständnis von Physik, Chemie und Biologie immer noch eine schwierige Herausforderung ist.

  • 00:40:00 In diesem Abschnitt des Videos diskutiert der Sprecher die Möglichkeit, mithilfe von KI symbolische Gleichungen zu lernen und neue Physik oder Gesetze zu entdecken, obwohl dies eine Herausforderung sein kann. Sie gehen auch auf die Bedeutung der Unsicherheitsquantifizierung für Deep-Learning-Modelle, Skalierbarkeit und technische Überlegungen zur Skalierung von KI-Anwendungen ein. Darüber hinaus erwähnen sie das Potenzial für andere Threads, wie die Verwendung von Selbstaufmerksamkeit in Transformatormodellen und generativen Modellen zur Rauschunterdrückung. Insgesamt zielt der Vortrag darauf ab, eine gute Grundlage für Deep Learning zu schaffen und Einzelpersonen zu ermutigen, coole Projekte mit KI zu verfolgen.
MIT 6.S191: AI for Science
MIT 6.S191: AI for Science
  • 2022.05.13
  • www.youtube.com
MIT Introduction to Deep Learning 6.S191: Lecture 9AI for ScienceLecturer: Anima Anandkumar (Director of ML Research, NVIDIA)NVIDIA ResearchJanuary 2022For a...
 

MIT 6.S191: Unsicherheit im Deep Learning



Vorlesung 10. MIT 6.S191: Uncertainty in Deep Learning

Der Dozent Jasper Snoek (Research Scientist, Google Brain) diskutiert die Bedeutung von Unsicherheit und Out-of-Distribution-Robustheit in maschinellen Lernmodellen, insbesondere in Bereichen wie Gesundheitswesen, selbstfahrende Autos und Konversationsdialogsysteme. Indem sie Unsicherheiten in Vorhersagen ausdrücken, können Modelle Ärzten oder Menschen mehr Informationen geben, um Entscheidungen zu treffen oder um Klärung zu bitten, wodurch letztendlich der Gesamtnutzen des Systems verbessert wird. Der Referent stellt auch die Idee der Modellunsicherheit und die Quellen der Unsicherheit vor und betont, dass Modelle, die ihre eigenen Grenzen anerkennen, sogar noch nützlicher sein können.

  • 00:00:00 In diesem Abschnitt des Videos erörtert der Referent die Bedeutung der praktischen Unsicherheitsschätzung und Out-of-Distribution-Robustheit beim Deep Learning. Die Unsicherheitsschätzung umfasst die Rückgabe einer Verteilung über Vorhersagen und nicht nur einer einzelnen Vorhersage, um eine Bezeichnung mit ihrer Konfidenz oder einen Mittelwert mit ihrer Varianz bereitzustellen. Out-of-Distribution-Robustheit ist notwendig, denn obwohl maschinelle Lernalgorithmen normalerweise auf Datensätzen trainiert werden, die unabhängig und identisch aus demselben Datensatz verteilt sind, stoßen eingesetzte Modelle häufig auf neue Daten, die eine andere Verteilung aufweisen. Dies kann unterschiedliche Eingaben oder unterschiedliche Bezeichnungen umfassen. Der Referent stellt Experimente vor, die zeigen, dass Deep-Learning-Modelle mit Datensatzverschiebungen während der Bereitstellung zu kämpfen haben und allzu selbstbewusste Fehler machen, wenn sie mit diesen Verteilungsänderungen konfrontiert werden.

  • 00:05:00 In diesem Abschnitt erörtert der Referent die Bedeutung von Unsicherheit und Out-of-Distribution-Robustheit in maschinellen Lernmodellen, insbesondere in Bereichen wie Gesundheitswesen, selbstfahrende Autos und Dialogsysteme. Indem sie Unsicherheiten in Vorhersagen ausdrücken, können Modelle Ärzten oder Menschen mehr Informationen geben, um Entscheidungen zu treffen oder um Klärung zu bitten, wodurch letztendlich der Gesamtnutzen des Systems verbessert wird. Der Referent stellt auch die Idee der Modellunsicherheit und die Quellen der Unsicherheit vor und betont, dass Modelle, die ihre eigenen Grenzen anerkennen, sogar noch nützlicher sein können.

  • 00:10:00 Der Dozent diskutiert die zwei Hauptquellen der Unsicherheit beim Deep Learning: epistemisch und aleatorisch. Epistemische Unsicherheit ist die Unsicherheit darüber, was das wahre Modell sein könnte, die durch mehr Datenerhebung verringert werden kann. Aleatorische Unsicherheit bezieht sich auf die Unsicherheit, die den Daten innewohnt und oft als irreduzible Unsicherheit bezeichnet wird. Experten verwechseln die beiden Arten von Unsicherheit oft. Das Video weist auch darauf hin, dass eine beliebte Methode zur Messung der Qualität der Unsicherheit in Deep-Learning-Modellen der Begriff des Kalibrierungsfehlers ist. Das Video zeigt ein Beispiel für Kalibrierungsfehler bei der Wettervorhersage und hebt einen Nachteil der Kalibrierung hervor, der darin besteht, dass keine Genauigkeit eingebaut ist.

  • 00:15:00 In diesem Abschnitt erörtert Jasper Snoek , wie wichtig es ist, aus Modellen einen guten Begriff der Unsicherheit zu gewinnen, und wie man ihn extrahiert. Sie erklären, dass jede Verlustfunktion einem Maximum entspricht, sodass das Minimieren einer Verlustfunktion dem Maximieren einer Wahrscheinlichkeit oder dem Maximieren einer logarithmischen Wahrscheinlichkeit der Daten bei gegebenen Modellparametern entspricht. Der Referent hebt die Bedeutung einer richtigen Bewertungsregel hervor, die eine Vorstellung davon gibt, wie gut die Unsicherheit war, und diskutiert das Konzept der Softmax-Kreuzentropie mit L2-Regularisierung. Sie erklären auch, dass eine Verteilung für p Theta bei gegebenem xy erhalten werden kann, indem man mehrere gute Modelle erhält oder das Posterior berechnet, was eine bedingte Verteilung der Parameter bei gegebenen Beobachtungen ist.

  • 00:20:00 In diesem Teil wird Bayes'sches Deep Learning behandelt, bei dem Wahrscheinlichkeiten zum Zeitpunkt der Vorhersage unter Berücksichtigung der Parameter berechnet werden. Ein Posterior wird verwendet, um jede Konfiguration von Parametern in einem Integral zu gewichten, das aggregiert wird, um Vorhersagen zu erhalten. In der Praxis wird eine Reihe von Stichproben genommen und Vorhersagen über eine Reihe diskreter Stichproben aggregiert, um eine Verteilung von Modellen statt nur einer einzigen zu erhalten. Dies führt zu einer interessanten Unsicherheit, wenn Sie sich von den Daten entfernen, da verschiedene Hypothesen darüber gebildet werden, wie sich die Daten verhalten werden, wenn Sie sich entfernen. Es gibt viele Möglichkeiten, das Integral über alle Parameter zu approximieren, da es im Allgemeinen zu teuer ist, es in geschlossener Form oder genau für tiefe Netze durchzuführen. Ensembling, das eine Reihe unabhängig trainierter Modelle nimmt und eine Mischungsverteilung bildet, wird ebenfalls diskutiert, da es bessere Vorhersagen und Unsicherheiten liefert als nur eine einzige.

  • 00:25:00 In diesem Teil diskutiert Jasper Snoek verschiedene Strategien zur Verbesserung der Unsicherheit von Deep-Learning-Modellen. Sie erwähnen Debatten zwischen Experten darüber, ob Ensembles bayesianisch sind oder nicht, wobei der Sprecher in das "nicht Bayesianische" Lager fällt. Sie erklären auch einige Schwierigkeiten mit Bayes'schen Modellen auf tiefen neuronalen Netzen, wie z. B. das Erfordernis hochdimensionaler Integrale und die Notwendigkeit, eine gut definierte Klasse von Modellen zu spezifizieren, die für tiefe Netze schwierig zu bestimmen sein können. Trotz dieser Schwierigkeiten diskutieren sie einige beliebte und effektive Methoden zur Verbesserung der Unsicherheit, einschließlich Neukalibrierung über Temperaturskalierung, Monte-Carlo-Dropout und Deep-Ensembles. Sie erwähnen auch Hyperparameter-Ensembles als eine Strategie, die noch besser funktioniert als Deep-Ensembles.

  • 00:30:00 In diesem Teil werden verschiedene Methoden diskutiert, um Deep-Learning-Modelle zu optimieren und effizienter zu machen, insbesondere im Umgang mit großen Modellen und geringer Latenz. Der erste diskutierte Ansatz ist das Ensembling, bei dem mehrere unabhängige Modelle kombiniert werden, um einen vielfältigeren Satz von Vorhersagen zu generieren. Ein anderer Ansatz ist die Verwendung von SWAG, die über SGD optimiert und eine Gaußsche um die durchschnittlichen Gewichtsiterationen herum anpasst. Die Diskussion verlagert sich dann auf die Skalierung, was angesichts der Tatsache, dass viele Deep-Learning-Modelle groß und schwer in Hardware zu integrieren sind, ein besonders wichtiges Thema ist. Der Redner erörtert eine Methode namens "Batch-Ensemble", die Rang-Eins-Faktoren verwendet, um ein einzelnes Modell zu modulieren, und mit nur fünf Prozent der Anzahl von Parametern eines einzelnen Modells fast die gleiche Leistung wie ein vollständiges Ensemble erzeugt.

  • 00:35:00 In diesem Abschnitt erörtert Jasper Snoek die Idee, die Batch-Ensemble-Methode in eine angenäherte Bayes'sche Methode umzuwandeln. Dies kann durch die Verwendung einer Verteilung über Faktoren und das Abtasten dieser Faktoren während der Vorhersage erreicht werden, was einer binären Verteilung oder anderen interessanten Verteilungen entsprechen könnte, die die Gewichtungen des Modells modulieren. Andere Ansätze für Bayes-Methoden umfassen Bayes-Methoden über einen Unterraum und das Zwingen neuronaler Netze, mehrere Eingaben und Ausgaben vorherzusagen, was zu unterschiedlichen und interessant genauen Vorhersagen führt. Die Verwendung von vortrainierten Modellen im großen Maßstab wird auch als Paradigmenwechsel für maschinelles Lernen diskutiert, bei dem auf eine riesige andere Verteilung zugegriffen werden kann, um Genauigkeit und Unsicherheit zu verbessern.

  • 00:40:00 Das Video erörtert die Bedeutung von Unsicherheit und Robustheit beim Deep Learning und wie Pre-Training dabei helfen kann, die gesamte Verteilung zu erhalten. Der Autor erwähnt, dass es mit zunehmender Rechenleistung neue Möglichkeiten gibt, die Grenze zu betrachten, was vielversprechend ist, um eine bessere Unsicherheit aus unseren Modellen herauszuholen. Es wird auch über die Verwendung von Unsicherheit diskutiert, um die Realitätslücke in Sim-to-Real-Anwendungen zu schließen, aber es wird darauf hingewiesen, dass Unsicherheit und Robustheit in diesen Anwendungen unglaublich wichtig sind, obwohl die Einzelheiten unklar sind.

  • 00:45:00 In diesem Abschnitt erörtert Jasper Snoek die potenzielle Anwendung von Unsicherheitsmaßen in nachgelagerten KI-Modellen, insbesondere die Verwendung von Unsicherheit zur Verbesserung von Vorhersagemodellen. Sie untersuchen die Herausforderungen bei der Vermittlung von Ungewissheit an Laien und die Bedeutung der Nutzung von Ungewissheit zur Verbesserung des nachgelagerten Entscheidungsverlusts, insbesondere in Bereichen wie Medizin und selbstfahrende Autos. Sie sprechen auch den Mangel an zugänglichen und einfach zu verwendenden Implementierungen bayesischer neuronaler Netze an, an denen ihre Gruppe durch ihre Open-Source-Bibliothek, Ungewissheits-Baselines, ansetzt.
MIT 6.S191: Uncertainty in Deep Learning
MIT 6.S191: Uncertainty in Deep Learning
  • 2022.05.28
  • www.youtube.com
MIT Introduction to Deep Learning 6.S191: Lecture 10Uncertainty in Deep LearningLecturer: Jasper Snoek (Research Scientist, Google Brain)Google BrainJanuary ...
 

Künstliche Intelligenz: Die letzte Erfindung der Menschheit



Künstliche Intelligenz: Die letzte Erfindung der Menschheit

Das Video „Künstliche Intelligenz: Die letzte Erfindung der Menschheit“ untersucht die Fortschritte und potenziellen Risiken, die mit der Entwicklung künstlicher Intelligenz (KI) verbunden sind. Das Video hebt AlphaGo von Google DeepMind hervor, das in nur 40 Tagen Jahrhunderte des menschlichen Strategiewissens übertroffen hat. Es taucht in die Unterschiede zwischen schwacher und starker KI ein und diskutiert, wie fortschrittliche KI zu einer technologischen Singularität führen kann, in der sie sich kontinuierlich verbessert und milliardenfach intelligenter als Menschen wird. Der Referent betont, wie wichtig es ist, der KI menschenähnliche Werte und Prinzipien zu geben, und warnt davor, ein unkontrollierbares System zu schaffen. Das Video schließt mit der Betonung der Notwendigkeit, die Konsequenzen der Entwicklung superintelligenter KI sorgfältig abzuwägen, bevor man dies tut.

  • 00:00:00 Dieser Teil erklärt die Komplexität des Brettspiels Go, das nicht mit roher Gewalt gelöst oder vorhergesagt werden kann und über 10 bis 170 Züge möglich hat. AlphaGo von Google DeepMind wurde mit Daten aus echten menschlichen Go-Spielen trainiert, wo es die verwendeten Techniken erlernte und neue entwickelte, die noch nie jemand gesehen hatte, was allein schon beeindruckend war. Ein Jahr nach dem Sieg von AlphaGo schlug AlphaGo Zero AlphaGo 100 zu 0 mit den einfachen Regeln, da es lernte, ohne menschliche Interaktion zu spielen, was in nur 40 Tagen über 2.500 Jahre Strategie und Wissen übertraf. Das Video hebt die beträchtliche Menge an nichtmenschlichem Wissen hervor, während sich die Technologie weiterentwickelt; Es wird einen Punkt geben, an dem Menschen die Minderheit der Intelligenz darstellen und es keinen Ausschalter gibt, um die KI auszuschalten.

  • 00:05:00 In diesem Abschnitt behandelt das Video neuronale Netze und wie Maschinen aus Daten lernen und ihre eigene Sicht darauf anpassen. Es untersucht auch den Unterschied zwischen den Fähigkeiten des menschlichen Gehirns und Computern. Beispielsweise können Computer in nur einer Woche 20.000 Jahre Forschung auf menschlicher Ebene durchführen. Darüber hinaus wird die exponentielle Natur des maschinellen Lernens untersucht, was bedeutet, dass es langsam beginnt, aber einen Wendepunkt erreicht, an dem sich die Dinge drastisch beschleunigen. Auf den Unterschied zwischen schwacher und starker KI wird hingewiesen; Während Ersteres weniger Strom benötigt, ist der Unterschied zwischen Letzterem und superintelligenter KI millionenfach größer. Die Bedeutung einer starken KI, die das Potenzial hat, uns in nur wenigen Monaten das Niveau der Superintelligenz zu erreichen, wird daher unterstrichen.

  • 00:10:00 Der Referent diskutiert, wie fortschrittliche KI zu einer technologischen Singularität führen kann, in der sie sich kontinuierlich verbessert und milliardenfach intelligenter als Menschen wird. Der Redner betont die Notwendigkeit, bei der Herstellung von KI vorsichtig zu sein, da sie unkontrollierbar werden kann, wenn wir ihr nicht menschenähnliche Werte und Prinzipien geben. Der Referent erklärt, wie KI mit nur Intelligenz, aber nicht Weisheit Entscheidungen treffen kann, die nicht unbedingt ethisch oder gut für den Menschen sind. Der Redner stellt auch Neuralink vor, das darauf abzielt, eine neurale Spitze zu schaffen, die uns einen Hochgeschwindigkeitszugang zum Internet ermöglicht und es uns ermöglicht, sofort auf alle weltweit verfügbaren Informationen zuzugreifen.

  • 00:15:00 In diesem Abschnitt untersuchen wir die potenziellen Unsicherheiten und Risiken, die mit der Erstellung eines künstlich intelligenten Systems einhergehen. Es gibt viele Fragen, die es zu berücksichtigen gilt, wie beispielsweise das Bewusstsein programmiert werden kann und wie Emotionen wie Liebe und Hass repliziert werden können. Auch die Möglichkeit, dass eine superintelligente KI radikale Ansichten vertritt und sich eher auf ihre Agenda einlässt als auf das, wofür sie programmiert wurde. Während sich der Fortschritt im Computerbereich verlangsamt, hat eine superintelligente KI immer noch das Potenzial, der Menschheit zu helfen, ihre Blütezeit zu erreichen, aber auch eine Waffe in den falschen Händen zu sein. Es ist ein Thema, das ernst genommen werden sollte, und die Konsequenzen für die Sicherheit eines solchen Systems sollten berücksichtigt werden, bevor es erstellt wird.
Artificial Intelligence: Mankind's Last Invention
Artificial Intelligence: Mankind's Last Invention
  • 2018.10.05
  • www.youtube.com
Artificial Intelligence: Mankind's Last Invention - Technological Singularity ExplainedPart 2: https://www.youtube.com/watch?v=zuXNlTJb_FMFollow me on Instag...
 

Sich entwickelnde KI-Kunst



Sich entwickelnde KI-Kunst

Das Video erläutert den Prozess der Entwicklung von Bildern mithilfe von KI, beginnend mit der Auswahl eines Bildes, der Eingabe einer Eingabeaufforderung und der Generierung von Variationen durch einen Entwicklungsprozess. Der Zweck dieses Prozesses ist die Erkundung, um schöne und ungeahnte Kunstwerke oder niedliche Katzen zu finden, die einen unvorstellbar riesigen und nicht durchsuchbaren Bildraum nutzen. Die Eingabe für Text-zu-Bild-Modelle ermöglicht es Benutzern, eine einfache Eingabeaufforderung einzugeben und eine große Auswahl möglicher Bilder zu erhalten, die diese Eingabeaufforderung erfüllen, was auch die Erstellung völlig neuer Bilder und die Organisation und Katalogisierung vorhandener Bilder im latenten Raum ermöglicht. Die Pick-Breeder-Methode ist eine effiziente und natürliche Methode zum Mutieren, Auswählen und Reproduzieren von Genen, die am besten zum Erstellen von Bildern geeignet sind, sodass Menschen evolutionären Fäden folgen und unerwartete Schönheit durch verzweigte Pfade mit leistungsstarken KI-Tools entdecken können.

  • 00:00:00 Der Schöpfer diskutiert ein KI-Modell namens Mid-Journey, das ein Text-zu-Bild-Algorithmus ist, der neuronale Netze verwendet, um Bilder basierend auf einer bestimmten Texteingabeaufforderung zu generieren. Der Schöpfer hat mit diesem Algorithmus auf seinem Discord-Server experimentiert, sodass Benutzer Bilder auswählen und mutieren und evolutionäre Lebensbäume erstellen können. Während die Kreativität dieses Prozesses durch die Eingabeaufforderung und den Datensatz begrenzt ist, die zum Trainieren des Modells verwendet werden, sind die resultierenden Bilder anders als alle Kunstwerke, die der Ersteller zuvor gesehen hat, und der Prozess hat zu interessanten und einzigartigen Kreationen geführt. Der Ersteller erwähnt auch ein anderes Open-Source-Modell namens Stable Diffusion, das er auf seiner eigenen GPU ausführen kann.

  • 00:05:00 In diesem Abschnitt erklärt der Ersteller den Prozess der Entwicklung eines Bildes mithilfe von KI. Der Prozess beginnt mit der Auswahl eines Bildes, der Eingabe einer Eingabeaufforderung und der anschließenden Generierung von Variationen durch einen sich entwickelnden Prozess. Der Entwicklungsprozess kann eingeengt werden, um den Gemeinschaftsaspekt zu vermeiden, oder von alleine ablaufen. Der Zweck der Entwicklung eines Bildes ist die Erforschung, indem der Bildraum erkundet wird – ein buchstäblicher mathematischer Raum, in dem jedes Bild einen Punkt oder Vektor einnimmt – um schöne und ungeahnte Kunstwerke oder außergewöhnlich süße Katzen zu finden, etwas jenseits von zufälligem Rauschen, da der Bildraum unvorstellbar groß ist und hoffnungslos unerforschlich.

  • 00:10:00 Das Video erklärt den Eingabeprozess für Text-zu-Bild-Modelle, die es Benutzern ermöglichen, eine Eingabeaufforderung in einfacher Sprache einzugeben und eine große Auswahl möglicher Bilder zu erhalten, die diese Eingabeaufforderung erfüllen. Diese generativen Suchmaschinen können völlig neue Bilder erstellen und vorhandene Bilder entdecken, die im latenten Raum organisiert, katalogisiert und gekennzeichnet sind. Indem dem Modell zufällige Werte gegeben werden, wie z. B. ein latenter Vektor, hat die Bildausgabe eine größere Vielfalt und kann geändert werden, indem man sich im latenten Raum bewegt. Die Pick Breeder-Methode ist eine effiziente und natürliche Methode, um die Gene zu mutieren, auszuwählen und zu reproduzieren, die für die Erstellung von Bildern am besten geeignet sind. Menschen können mit diesen leistungsstarken Werkzeugen einem evolutionären Faden interessanter Aufforderungen und Bilder folgen, um unerwartete Schönheit durch verzweigte Pfade zu entdecken.
Evolving AI Art
Evolving AI Art
  • 2022.10.29
  • www.youtube.com
In this video, I explain how #aiart generators like #midjourney and #stablediffusion can be used to simulate evolutionary processes, and explain why this is ...
 

Die KI, die jedes gewünschte Bild erstellt, erklärt



Die Text-zu-Bild-Revolution, erklärt

In diesem Video wird erläutert, wie maschinelle Lernalgorithmen verwendet werden können, um Bilder basierend auf Textbeschreibungen zu generieren, und wie diese Technologie zum Erstellen von Grafiken verwendet werden kann. Das Video interviewt James Gurney, einen amerikanischen Illustrator, der die Auswirkungen dieser Technologie auf das Urheberrecht und die Kunstwelt diskutiert.

  • 00:00:00 In diesem Teil wird erläutert, wie maschinelle Lernalgorithmen Bilder beschriften können und wie Entwickler mithilfe dieser Algorithmen Text-zu-Bild-Generatoren erstellt haben. Das Video erläutert auch, wie schnell das Engineering erforderlich ist, um effektiv mit diesen Modellen zu kommunizieren.

  • 00:05:00 Die KI, die jedes gewünschte Bild erstellt, beginnt mit einem Trainingsdatensatz aus Millionen von Bildern und den dazugehörigen Bildunterschriften. Die Modelle lernen, Muster in diesen Bildern zu erkennen, und erzeugen dann basierend auf dieser Erkennung neue Bilder. Auf diese Weise erzeugte Bilder können aufgrund der Zufälligkeit des Diffusionsprozesses für verschiedene Personen und Modelle unterschiedlich sein.

  • 00:10:00 Dieses Video erklärt, wie Deep Learning es Benutzern ermöglicht, Bilder zu erstellen, die denen berühmter Künstler ähneln, ohne ihre Bilder direkt kopieren zu müssen. Das Video interviewt James Gurney, einen amerikanischen Illustrator, der zu einer beliebten Referenz für Benutzer von Text-zu-Bild-Modellen wurde. Gurney sagt, dass es Künstlern zwar erlaubt sein sollte, sich für oder gegen die Verwendung ihrer Arbeit als Datensatz für die Erstellung anderer Kunstwerke zu entscheiden, aber Urheberrechtsfragen in Bezug auf die Bilder, die in das Training der Modelle einfließen, und die Bilder, die daraus entstehen, sind noch immer ungelöst. Darüber hinaus enthält der latente Raum dieser Modelle einige dunkle Ecken, die mit fotorealistischer Ausgabe noch gruseliger werden. Was diese Technologie jedoch so einzigartig macht, ist, dass sie es jedem von uns ermöglicht, die Maschine so zu steuern, dass sie sich vorstellt, was sie sehen soll.
The text-to-image revolution, explained
The text-to-image revolution, explained
  • 2022.06.01
  • www.youtube.com
How programmers turned the internet into a paintbrush. DALL-E 2, Midjourney, Imagen, explained.Subscribe and turn on notifications 🔔 so you don't miss any v...