Maschinelles Lernen und neuronale Netze - Seite 48

 

CS480/680 Vorlesung 19: Aufmerksamkeits- und Transformatornetzwerke



CS480/680 Vorlesung 19: Aufmerksamkeits- und Transformatornetzwerke

In dieser Vorlesung wird das Konzept der Aufmerksamkeit in neuronalen Netzen vorgestellt und seine Rolle bei der Entwicklung von Transformatornetzen diskutiert. Die Aufmerksamkeit wurde ursprünglich im Bereich Computer Vision untersucht und ermöglichte die Identifizierung entscheidender Regionen, ähnlich wie Menschen sich auf natürliche Weise auf bestimmte Bereiche konzentrieren. Die Anwendung von Aufmerksamkeit auf maschinelle Übersetzung führte zur Schaffung von Transformatornetzwerken, die ausschließlich Aufmerksamkeitsmechanismen nutzen und ebenso gute Ergebnisse wie herkömmliche neuronale Netze liefern. Transformatornetzwerke haben Vorteile gegenüber wiederkehrenden neuronalen Netzwerken, da sie Probleme lösen, die mit Abhängigkeiten über große Entfernungen, verschwindenden und explodierenden Gradienten und paralleler Berechnung verbunden sind. In der Vorlesung wird die Mehrkopfaufmerksamkeit in Transformatornetzwerken untersucht, die sicherstellt, dass sich jede Ausgabeposition um die Eingabe kümmert. Die Verwendung von Masken, Normalisierungsschichten und der Donora-Schicht in Transformatornetzwerken wird diskutiert und das Konzept der Nutzung von Aufmerksamkeit als Baustein untersucht.

In diesem Vortrag über Aufmerksamkeits- und Transformatornetzwerke erklärt der Referent die Bedeutung der Normalisierung für die Entkopplung von Gradienten in verschiedenen Schichten sowie die Bedeutung der Positionseinbettung, um die Wortreihenfolge in Sätzen beizubehalten. Der Redner vergleicht die Komplexitätsschätzungen von Transformatornetzwerken mit wiederkehrenden und Faltungs-Neuronalen Netzwerken und hebt die Fähigkeit des Transformatornetzwerks hervor, Abhängigkeiten über große Entfernungen zu erfassen und Wörter gleichzeitig zu verarbeiten. Die Vorteile von Transformatornetzwerken bei der Verbesserung der Skalierbarkeit und der Reduzierung des Wettbewerbs werden ebenfalls diskutiert, ebenso wie die Einführung von Transformatornetzwerken wie GPT, BERT und XLNet, die eine beeindruckende Leistung in Bezug auf Genauigkeit und Geschwindigkeit gezeigt haben, was Fragen über die Zukunft rekurrenter neuronaler Netzwerke aufwirft.

  • 00:00:00 In diesem Abschnitt stellt der Dozent das Konzept der Aufmerksamkeit in neuronalen Netzen und seine Rolle bei der Entwicklung von Transformatornetzen vor. Aufmerksamkeit wurde erstmals im Bereich Computer Vision untersucht, mit der Idee, dass ein Aufmerksamkeitsmechanismus interessante Bereiche in einem Bild identifizieren könnte, ähnlich wie Menschen sich auf natürliche Weise auf bestimmte Bereiche konzentrieren. Dieses Konzept wurde dann auf die maschinelle Übersetzung angewendet und führte schließlich zur Schaffung von Transformatornetzwerken, die ausschließlich aus Aufmerksamkeitsmechanismen bestehen und nachweislich mindestens so gute Ergebnisse wie herkömmliche neuronale Netzwerke liefern. Aufmerksamkeit kann auch verwendet werden, um wichtige Merkmale in einem Bild hervorzuheben, die zur gewünschten Ausgabe beitragen, beispielsweise die Position von Objekten bei der Objekterkennung.

  • 00:05:00 In diesem Abschnitt erläutert der Dozent, wie Aufmerksamkeit als Baustein im Erkennungsprozess genutzt werden kann, wie in der bahnbrechenden maschinellen Übersetzungsarbeit von 2015 zu sehen ist, bei der der Decoder auf den Eingabesatz zurückblicken konnte. Im Jahr 2017 demonstrierten Forscher den Einsatz von Aufmerksamkeit zur Entwicklung allgemeiner Sprachmodellierungstechniken, die die Vorhersage und Wiederherstellung fehlender Wörter in einer Sequenz ermöglichen. Das Transformer-Netzwerk, das ausschließlich Aufmerksamkeitsblöcke verwendet, wird zum Stand der Technik für die Verarbeitung natürlicher Sprache und übertrifft rekurrente neuronale Netze aufgrund seiner Fähigkeit, mit weitreichenden Abhängigkeiten umzugehen und parallele Berechnungen auf GPUs zu optimieren. Transformationsnetzwerke sind daher eine effiziente Wahl für Aufgaben der Verarbeitung natürlicher Sprache.

  • 00:10:00 In diesem Abschnitt erklärt der Referent die Vorteile von Aufmerksamkeits- und Transformatornetzwerken gegenüber den traditionellen rekurrenten neuronalen Netzwerken. Aufmerksamkeitsblöcke helfen beim Herstellen von Verbindungen zwischen beliebigen Teilen der Sequenz und vermeiden so das Problem weitreichender Abhängigkeiten. Darüber hinaus führen Transformatornetzwerke gleichzeitig Berechnungen für die gesamte Sequenz durch, was eine stärkere Parallelisierung und weniger Trainingsschritte ermöglicht und das Problem verschwindender und explodierender Gradienten löst. Der Referent geht außerdem auf Aufmerksamkeit als eine Form der Approximation für den Datenbankabruf ein und stellt die Gleichung vor, die in Aufmerksamkeitsmechanismen für neuronale Netze verwendet wird.

  • 00:15:00 In diesem Abschnitt erklärt der Referent, wie die Ähnlichkeitsfunktion eine Verteilung berechnet und wie der Aufmerksamkeitsmechanismus auf eine neuronale Architektur verallgemeinert werden kann. Der Sprecher schlägt verschiedene Funktionen vor, die zur Messung der Ähnlichkeit verwendet werden könnten, darunter Skalarprodukt und skaliertes Skalarprodukt, und erklärt, wie sie zur Berechnung der Ähnlichkeit zwischen Schlüsseln und der Abfrage angewendet werden könnten. Der Referent stellt außerdem die Idee einer gewichteten Kombination von Werten mit hoher Ähnlichkeit im Abrufprozess vor, was dem Aufmerksamkeitsmechanismus entspricht.

  • 00:20:00 In diesem Abschnitt der Vorlesung erläutert der Professor ausführlich die erste Schicht des Aufmerksamkeitsmechanismus. Die Ebene berechnet die Ähnlichkeit zwischen einer Abfrage und jedem Schlüssel im Speicher. Die gebräuchlichste Methode zur Berechnung der Ähnlichkeit ist die Verwendung eines Skalarprodukts oder die Skalierung des Skalarprodukts durch Division durch die Quadratwurzel der Dimensionalität. Eine andere Möglichkeit besteht darin, die Abfrage mithilfe einer Gewichtsmatrix in einen neuen Raum zu projizieren und dann ein Skalarprodukt zu bilden. Dieser Schritt ermöglicht es dem neuronalen Netzwerk, eine Zuordnung W zu lernen, um die Ähnlichkeit zwischen der Abfrage und dem Schlüssel direkter zu vergleichen.

  • 00:25:00 In diesem Abschnitt diskutieren wir, wie Aufmerksamkeitswerte in einem vollständig verbundenen Netzwerk berechnet werden, das die Softmax-Funktion verwendet. Die Gewichtungen werden mithilfe eines Ausdrucks berechnet, der eine Abfrage mit verschiedenen Schlüsseln vergleicht, um ein Ähnlichkeitsmaß zu erhalten, und dieses wird verwendet, um jedem Schlüssel eine Gewichtung zuzuweisen. Der Aufmerksamkeitswert wird dann anhand einer linearen Kombination der mit jedem Schlüssel verknüpften Werte berechnet. Die Gewichte, dargestellt durch die Matrix W, werden vom neuronalen Netzwerk durch Backpropagation gelernt, wodurch die Projektion von Q in den von W aufgespannten Raum optimiert wird. Die resultierenden Gewichte werden verwendet, um eine Ausgabe zu erzeugen, mit einer Gewichtung pro Ausgabewort und den verborgenen Vektoren jedem Eingabewort zugeordnet, das als VI verwendet wird.

  • 00:30:00 In diesem Abschnitt bespricht die Vorlesung den Aufmerksamkeitsmechanismus und Transformatornetzwerke. Der Aufmerksamkeitsmechanismus ist eine Möglichkeit, verborgene Vektoren für ein Ausgabewort mit verborgenen Vektoren für Eingabewörter zu kombinieren und so die Erzeugung eines Kontextvektors zu ermöglichen. Das 2017 vorgestellte Transformer-Netzwerk eliminiert Wiederholungen in sequentiellen Daten, was die Optimierung beschleunigt und Abläufe parallelisiert. Das Transformatornetzwerk in der maschinellen Übersetzung besteht aus zwei Teilen: einem Encoder und einem Decoder. Der Encoder verarbeitet die gesamte Wortfolge parallel über Multi-Head-Aufmerksamkeit und ein Feedforward-Neuronales Netzwerk, wobei zusätzlich eine Positionscodierung zur Berücksichtigung der Wortpositionierung hinzugefügt wird.

  • 00:35:00 In diesem Abschnitt beschreibt die Vorlesung den Multi-Head-Aufmerksamkeitsmechanismus, der die Aufmerksamkeit zwischen jeder Position und jeder anderen Position berechnet. Die Mehrkopf-Aufmerksamkeit nimmt jedes Wort auf und kombiniert es über einen Aufmerksamkeitsmechanismus mit einigen anderen Wörtern im Satz. Dadurch entsteht eine bessere Einbettung, bei der Informationen aus Wortpaaren zusammengeführt werden. In der Vorlesung wird auch eine Donora-Schicht besprochen, die eine Restverbindung hinzufügt, die den ursprünglichen Input zu dem übernimmt, was aus der Multi-Head-Aufmerksamkeit kommt, und diese dann normalisiert. Der Block wird mehrmals wiederholt, sodass das Modell Wortpaare, Paarpaare usw. kombinieren kann. Das Ergebnis dieses Prozesses ist eine Folge von Einbettungen, und es gibt eine Einbettung pro Position im Satz. In der Vorlesung wird dann der Decoder untersucht, der mit einem Softmax eine Ausgabe erzeugt, die Wahrscheinlichkeiten für die Ausgabe einer Beschriftung an jeder Position erzeugt. Der Decoder umfasst außerdem zwei Aufmerksamkeitsebenen, von denen die erste die Selbstaufmerksamkeit zwischen den Ausgabewörtern ist und die zweite Ausgabewörter mit Eingabewörtern kombiniert.

  • 00:40:00 In diesem Abschnitt diskutiert der Redner den Multi-Head-Aufmerksamkeitsmechanismus in Transformer Networks, der verwendet wird, um sicherzustellen, dass jede Position in der Ausgabe Positionen in der Eingabe betreut. Die Multi-Head-Aufmerksamkeit funktioniert, indem sie Schlüssel-Wert-Paare mit Abfragen zerlegt, sie mit den Schlüsseln vergleicht, um die höchsten Gewichtungen zu finden, und eine gewichtete Kombination der entsprechenden Werte verwendet, um die Ausgabe zu erzeugen. Dieser Vorgang wird mehrmals mit unterschiedlichen Linearkombinationen wiederholt, um unterschiedliche Projektionen zu berechnen und die Einbettungen zu verbessern, bis eine Verteilung über die Wörter im Wörterbuch entsteht.

  • 00:45:00 In diesem Abschnitt der Vorlesung diskutiert der Professor das Konzept der Multi-Head-Aufmerksamkeit und wie es mit Feature-Maps in Faltungs-Neuronalen Netzen verglichen werden kann. Die verschiedenen linearen Kombinationen in der Mehrkopfaufmerksamkeit können als unterschiedliche Filter betrachtet werden, die den Raum, in dem sich die Werte befinden, projizieren oder verändern. Dies führt zu Punktproduktaufmerksamkeiten mit mehreren Skalen, die mehreren Feature-Maps in CNNs entsprechen. Die Kontaktschicht verkettet diese verschiedenen Aufmerksamkeiten, und am Ende führt eine lineare Kombination davon zu einer Mehrkopfaufmerksamkeit. Darüber hinaus erklärt der Professor die Multi-Head-Aufmerksamkeitsmaske, die Links, die Abhängigkeiten von zukünftigen Wörtern erzeugen würden, aufhebt oder entfernt und sie so für maschinelle Übersetzungsaufgaben geeignet macht.

  • 00:50:00 In diesem Abschnitt des Videos wird die Verwendung von Masken im Kontext des Transformer-Netzwerks erläutert. Der Moderator erklärt, wie Masken verwendet werden, um bestimmte Verbindungen in der Softmax-Funktion aufzuheben, und wie die Verwendung von Masken mit Werten minus Unendlich sicherstellt, dass eine ordnungsgemäße Verteilung aufrechterhalten wird. Der Moderator erörtert außerdem, wie die Verwendung von Masken parallele Berechnungen während des Trainings ermöglicht und wie die Technik der Lehrererzwingung Eingabe und Ausgabe während des Trainings entkoppelt.

  • 00:55:00 In diesem Abschnitt des Videos wird die Bedeutung der Normalisierungsschicht in Transformer Networks diskutiert. Die Normalisierungsschicht trägt dazu bei, die Anzahl der Schritte zu reduzieren, die beim Gradientenabstieg zur Optimierung des Netzwerks erforderlich sind, da sie sicherstellt, dass die Ausgabe jeder Schicht unabhängig von der Einstellung der Gewichte einen Mittelwert von 0 und eine Varianz von 1 aufweist. Auf diese Weise , der Maßstab der Ausgaben ist derselbe, was die Gradientenkonkurrenz zwischen den Schichten verringert und die Konvergenz beschleunigt. Es wird darauf hingewiesen, dass sich die Layer-Normalisierung von der Batch-Normalisierung unterscheidet, da sie auf der Ebene einer Ebene und nicht auf der Ebene einer einzelnen verborgenen Einheit normalisiert, wodurch sie für kleinere Batches oder sogar jeweils einen Datenpunkt in einer Online- oder Streaming-Umgebung geeignet ist.

  • 01:00:00 In diesem Abschnitt des Videos erörtert der Sprecher die Bedeutung der Normalisierung für die Entkopplung der Entwicklung von Farbverläufen in verschiedenen Schichten. Sie befassen sich auch mit dem Thema Positionseinbettung, das nach der Eingabeeinbettung im Transformatornetzwerk hinzugefügt wird. Durch die Positionseinbettung wird sichergestellt, dass der Aufmerksamkeitsmechanismus Positionsinformationen erfassen kann, die für die Beibehaltung der Reihenfolge von Wörtern in einem Satz wichtig sind. Der Redner erklärt, dass es sich bei der Positionseinbettung um einen technischen Hack handelt, und erörtert die zur Berechnung verwendete Formel, weist jedoch darauf hin, dass es möglicherweise unterschiedliche Möglichkeiten gibt, diesen Aspekt des Netzwerks anzugehen.

  • 01:05:00 In diesem Abschnitt der Vorlesung vergleicht der Referent die Komplexitätsschätzungen eines Transformatornetzwerks mit denen eines rekurrenten neuronalen Netzwerks oder Faltungsneuronalen Netzwerks. Das Transformatornetzwerk, auch Selbstaufmerksamkeitsnetzwerk genannt, weist eine Komplexität der Ordnung n im Quadrat auf, da der Aufmerksamkeitsmechanismus jede andere Position für jede Position in einer Schicht berücksichtigt und gleichzeitig deren Einbettungen berechnet. Das Transformatornetzwerk verliert jedoch keine Informationen ab dem ersten Wort und ermöglicht den sofortigen Informationsfluss zwischen Wortpaaren, wodurch es effektiv bei der Erfassung weitreichender Abhängigkeiten ist. Darüber hinaus gibt es in einem Transformatornetzwerk keine sequentiellen Operationen, sodass alle Wörter gleichzeitig und parallel verarbeitet werden können. Im Gegensatz dazu verfügt ein rekurrentes neuronales Netzwerk über sequentielle Operationen und eine Pfadlänge, die bis zu n betragen kann.

  • 01:10:00 In diesem Abschnitt der Vorlesung geht der Referent auf die Vorteile von Transformatornetzen ein, insbesondere auf deren Fähigkeit, den Wettbewerb zu reduzieren und die Skalierbarkeit zu verbessern. Anschließend vergleicht der Referent verschiedene Modelle für die maschinelle Übersetzung, insbesondere Englisch-Deutsch und Englisch-Französisch, und zeigt, dass die Transformer-Modelle zwar nicht unbedingt hervorragende Ergebnisse lieferten, die Rechenzeit jedoch drastisch verkürzten und somit eine effizientere Option für das Training darstellten . Der Redner geht auch auf andere Arten von Transformatornetzwerken wie GPT und GPT-2 ein, die 2018 für die unbeaufsichtigte Sprachmodellierung vorgeschlagen wurden.

  • 01:15:00 In diesem Abschnitt stellt das Video zwei Arten von Transformatornetzwerken vor: GPT und BERT. GPT ist ein Sprachmodell, das für eine Vielzahl von Aufgaben verwendet werden kann, darunter Leseverständnis, Übersetzung, Zusammenfassung und Beantwortung von Fragen. Das Modell kümmert sich um die vorherigen Ausgaben, um eine Folge von Wörtern zu generieren, ohne sich um die zukünftige Ausgabe zu kümmern. Die Forscher wandten dies auf verschiedene Aufgaben an, ohne das Netzwerk an die spezifische Aufgabe anzupassen, und stellten fest, dass es ihnen völlig unbeaufsichtigt gelang, dem Stand der Technik nahe zu kommen. BERT steht für bidirektional kodierte Darstellungen von Transformatoren und sein Hauptvorteil besteht darin, dass es ein Wort basierend auf dem vorherigen Wort und den zukünftigen Wörtern vorhersagt, was es besser als GPT macht.

  • 01:20:00 In diesem Abschnitt diskutiert der Dozent die Fortschritte bei Transformatornetzwerken, insbesondere BERT und XLNet. BERT verfügt über die Fähigkeit, Modelle mit aufgabenspezifischen Daten zu verfeinern, was zu einer erheblichen Verbesserung des Stands der Technik bei elf Aufgaben führt. Allerdings hat XLNet eine noch beeindruckendere Leistung erbracht und BERT bei den meisten Aufgaben geschlagen, da es fehlende Eingaben berücksichtigt und dadurch eine bessere Leistung bei der Verallgemeinerung erzielt. Diese Transformatornetzwerke haben sich in Bezug auf Genauigkeit und Geschwindigkeit als gut erwiesen, was Fragen über die Zukunft wiederkehrender neuronaler Netzwerke aufwirft.
 

CS480/680 Vorlesung 20: Autoencoder



CS480/680 Vorlesung 20: Autoencoder

Autoencoder beziehen sich auf eine Familie von Netzwerken, die eng mit Encoder-Decodern verwandt sind, mit dem Unterschied, dass Autoencoder eine Eingabe entgegennehmen und dieselbe Ausgabe erzeugen. Sie sind wichtig für die Komprimierung, Rauschunterdrückung, das Erhalten einer spärlichen Darstellung und die Datengenerierung. Lineare Autoencoder erreichen eine Komprimierung, indem sie hochdimensionale Vektoren auf kleinere Darstellungen abbilden und gleichzeitig sicherstellen, dass keine Informationen verloren gehen. Außerdem verwenden sie Gewichtsmatrizen, um eine lineare Transformation von der Eingabe zur komprimierten Darstellung und zurück zu berechnen. Darüber hinaus ermöglichen tiefe Autoencoder anspruchsvolle Zuordnungen, während probabilistische Autoencoder bedingte Verteilungen über die Zwischendarstellung und Eingabe erzeugen, die zur Datengenerierung verwendet werden können. Die Verwendung nichtlinearer Funktionen durch Autoencoder nutzt die nichtlineare Mannigfaltigkeit, eine Projektion auf einen niedrigerdimensionalen Raum, die die intrinsische Dimensionalität der Daten erfasst, was zu einer verlustfreien Komprimierung der Eingabe führt.

  • 00:00:00 In diesem Abschnitt der Vorlesung über Autoencoder erklärt der Vortragende, dass es sich dabei um eine Familie von Netzwerken handelt, die eng mit Encoder-Decodern verwandt sind, mit dem Unterschied, dass Autoencoder eine Eingabe annehmen und dieselbe Ausgabe erzeugen. Autoencoder sind wichtig für Aufgaben wie Komprimierung, Rauschunterdrückung, Erhalt einer spärlichen Darstellung und Datengenerierung. Bei der Komprimierung werden hochdimensionale Vektoren auf kleinere Darstellungen abgebildet, wobei sichergestellt wird, dass keine Informationen verloren gehen. Um dies zu erreichen, wird die Eingabe einem Encoder zugeführt, der eine kleinere Darstellung erzeugt, die dann wieder in die Eingabe dekodiert wird, um sicherzustellen, dass die komprimierte Darstellung alle Informationen der Eingabe enthält. Lineare Autoencoder verwenden Gewichtsmatrizen, um eine lineare Transformation von der Eingabe zur komprimierten Darstellung und zurück zur Eingabe zu berechnen.

  • 00:05:00 In diesem Abschnitt erläutert der Dozent den Zusammenhang zwischen Autoencodern und Hauptkomponentenanalyse (PCA). Er weist darauf hin, dass die typische Verwendung von PCA darin besteht, Daten in eine niedrigerdimensionale Hyperebene zu projizieren und dabei die Variation in den Daten beizubehalten. Er erklärt jedoch auch, dass die Verwendung eines Autoencoders (mit linearen Abbildungen) zur Minimierung des euklidischen Abstands dieselbe Lösung wie PCA ergibt, was ihn zu einem nützlichen Werkzeug zur Dimensionsreduzierung macht. Der Dozent betont, dass die Matrizen WF und WG im Autoencoder im Wesentlichen die Umkehrungen (oder Pseudoinversen) voneinander sind, da WG x WF X ergibt.

  • 00:10:00 In diesem Abschnitt erklärt der Dozent das Schöne an Autoencodern, das darin besteht, dass sie sich im Gegensatz zu PCA nicht auf lineare Abbildungen beschränken. Stattdessen können Autoencoder nichtlineare Funktionen verwenden, um die verborgene Darstellung von Daten zu finden, die über eine nichtlineare Mannigfaltigkeit auf einen niedrigerdimensionalen Raum projiziert werden können. Diese Mannigfaltigkeit kann die intrinsische Dimensionalität der Daten erfassen, was zu einer verlustfreien Komprimierung der Eingabe führen kann. Die Bestimmung der optimalen Dimensionalität von H würde jedoch spezielle Techniken zum Strukturlernen erfordern.

  • 00:15:00 In diesem Abschnitt stellt das Video tiefe Autoencoder und spärliche Darstellungen vor. Tiefe Autoencoder haben mehrere Schichten, bevor sie die verborgene Schicht erreichen, was anspruchsvolle Zuordnungen ermöglicht, während spärliche Darstellungen Zwischendarstellungen eine Struktur auferlegen, indem sie die Anzahl der Nicht-Null-Einträge im von F erzeugten Vektor minimieren. Dies kann durch nicht-konvexe Optimierung oder erreicht werden durch Verwendung der L1-Regularisierung, um die L1-Norm der Ausgabe zu minimieren. Darüber hinaus bietet das Video ein Beispiel für die Verwendung eines Autoencoders zur Rauschunterdrückung durch Einspeisen einer beschädigten Version der Eingabe und den Versuch, das ursprüngliche X wiederherzustellen.

  • 00:20:00 In diesem Abschnitt beschreibt der Dozent probabilistische oder stochastische Autoencoder, die sich von deterministischen dadurch unterscheiden, dass sie sich auf bedingte Verteilungen konzentrieren. Bei einem deterministischen Autoencoder erzeugt der Encoder eine Zwischendarstellung, die der Decoder direkt zur Rekonstruktion der Eingabe verwenden kann, während ein probabilistischer Autoencoder bedingte Verteilungen über die Zwischendarstellung und Eingabe erzeugt. Durch den Entwurf eines neuronalen Netzwerks mit geeigneten letzten Aktivierungsfunktionen kann die letzte Schicht verwendet werden, um Muster zu erzeugen, die als Verteilungen interpretiert werden können. Lineare Einheiten in der Ausgabeschicht können verwendet werden, um bedingte Verteilungen für reale Daten zu kodieren, während Sigmoid-Einheiten mit binären Daten arbeiten können. Der Dozent betont, dass diese probabilistischen Autoencoder die Generierung von Daten ermöglichen, was einen wesentlichen Unterschied zu deterministischen Autoencodern darstellt.

  • 00:25:00 In diesem Abschnitt der Vorlesung erklärt der Referent das probabilistische grafische Modell eines Autoencoders. Die Eingabe X wird als Zufallsvariable betrachtet und die Ausgabe-X-Tilde ist eine ungefähre Version der Eingabe. H ist eine weitere Zufallsvariable, die die verborgene Schicht darstellt, und die Pfeile zeigen bedingte Abhängigkeiten an. Die Gewichte werden durch bedingte Verteilungen dargestellt und der Decoder ist eine bedingte Verteilung. Verschiedene Aktivierungsfunktionen werden verwendet, um unterschiedliche Arten von Ausgaben zu erzeugen. Der Redner erläutert außerdem, wie eine Verteilung über X basierend auf einer Verteilung über H sowohl für binäre als auch für Gaußsche Vektoren berechnet werden kann.

  • 00:30:00 In diesem Abschnitt erklärt der Dozent, wie eine Architektur wie ein probabilistischer Autoencoder zur Generierung von Daten verwendet werden kann. Bei einem deterministischen Autoencoder nimmt der Decoder einige Einbettungen vor und generiert einen Datenpunkt. Wenn wir jedoch über eine Verteilung verfügen, könnten wir eine Stichprobe aus einer Verteilung über die Zwischendarstellung ziehen und daraus einen Datenpunkt generieren. Wenn wir beispielsweise den probabilistischen Autoencoder mit Gesichtern trainieren, könnten wir leicht aus der verborgenen Darstellung Stichproben ziehen und dann ein neues Gesicht erzeugen, das anders, aber denen im Datensatz ähnlich ist. Durch Abtasten aus der Verteilung über Bilder erhalten wir ein Bild.

  • 00:35:00 In diesem Abschnitt diskutiert der Referent die Generierung neuer Bilder mithilfe probabilistischer Autoencoder. Der Sprecher erklärt, wie der Autoencoder neue Bilder generieren kann, indem er Eingabedatenpunkte in Einbettungen in einem Raum abbildet, in dem nahegelegene Punkte in neue Bilder dekodiert werden können. Allerdings weist der Redner darauf hin, dass es zur Generierung wirklich neuer Bilder eine Verteilung geben muss, die das Sampling geeigneter Einbettungen ermöglicht. Die im Autoencoder verwendete Verteilung hängt vom Eingabedatenpunkt X ab, was zur Erzeugung ähnlicher Bilder führen kann. Um diese Einschränkung zu überwinden, werden im nächsten Foliensatz Mechanismen zum direkten Abtasten mit einem H und zum Erzeugen neuer Bilder erläutert.
 

CS480/680 Vorlesung 21: Generative Netzwerke (variative Autoencoder und GANs)



CS480/680 Vorlesung 21: Generative Netzwerke (variative Autoencoder und GANs)

Diese Vorlesung konzentriert sich auf generative Netzwerke, die die Produktion von Daten als Ausgabe über Netzwerke wie Variational Autoencoder (VAEs) und Generative Adversarial Networks (GANs) ermöglichen. VAEs verwenden einen Encoder, um Daten vom ursprünglichen Speicherplatz einem neuen Speicherplatz zuzuordnen, und anschließend einen Decoder, um den ursprünglichen Speicherplatz wiederherzustellen. Der Dozent erklärt das Konzept hinter VAEs und die Herausforderungen bei der Berechnung des Integrals der im Training benötigten Verteilungen. GANs bestehen aus zwei Netzwerken – einem Generator und einem Diskriminator – wobei das Generatornetzwerk neue Datenpunkte erstellt und das Diskriminatornetzwerk versucht, zwischen den generierten und den realen zu unterscheiden. Die Herausforderungen bei der GAN-Implementierung werden diskutiert, einschließlich der Gewährleistung eines Gleichgewichts zwischen den Stärken der Netzwerke und der Erzielung globaler Konvergenz. Die Vorlesung endet mit Beispielen generierter Bilder und einer Vorschau auf die nächste Vorlesung.

  • 00:00:00 In diesem Abschnitt der Vorlesung liegt der Fokus auf generativen Netzwerken und wie diese zur Datengenerierung genutzt werden können. Während Klassifizierung und Regression bisher die Haupttechniken waren, die im Kurs behandelt wurden, ermöglichen generative Netzwerke die Produktion von Daten als Ausgabe. Dies ist besonders nützlich für die Erzeugung natürlicher Sprache, die Sprachsynthese sowie die Bild- und Videoerzeugung. Variationale Autoencoder und generative kontradiktorische Netzwerke gehören zu den beliebtesten Netzwerken, die derzeit zur Datengenerierung verwendet werden. Diese Netzwerke werden verwendet, um realistische Daten zu erzeugen, die denen eines Datensatzes ähneln.

  • 00:05:00 In diesem Abschnitt diskutiert der Dozent die Idee probabilistischer Autoencoder, bei denen wir anstelle eines deterministischen Encoders einen probabilistischen Encoder haben, der eine bedingte Verteilung kodiert. Ebenso ist der Decoder ebenfalls eine bedingte Verteilung und kann als Generator betrachtet werden, der eine Verteilung über Daten erstellt und so die Generierung neuer Datenpunkte ermöglicht. Ein Variations-Autoencoder wird verwendet, um einen versteckten Vektor, H, aus einer festen Verteilung, einer Gaußschen Verteilung mit Mittelwert 0 und Varianz 1, abzutasten und dann ein Ziel zu konstruieren, das versucht, die Verteilung des Encoders über H, abhängig von X, so nah wie möglich daran zu bringen feste Verteilung, die gute Probenergebnisse gewährleistet.

  • 00:10:00 In diesem Abschnitt erläutert der Dozent das Konzept hinter Variational Autoencodern (VAEs). VAEs verwenden einen Encoder, um Daten vom ursprünglichen Speicherplatz einem neuen Speicherplatz zuzuordnen, und anschließend einen Decoder, um den ursprünglichen Speicherplatz wiederherzustellen. Der Encoder erzeugt eine Verteilung, die zum Abtasten neuer Punkte verwendet werden kann, die vom Decoder wieder auf den ursprünglichen Raum abgebildet werden können. Allerdings muss die Verteilung des Encoders so nah wie möglich an einer festen Verteilung liegen, um sicherzustellen, dass die generierten Datenpunkte vom gleichen Typ sind wie die Originaldaten. Die Vorlesung behandelt die Zielfunktion für VAEs und wie das Netzwerk optimiert werden kann, um dieses Ziel zu erreichen.

  • 00:15:00 In diesem Abschnitt diskutiert der Dozent die Herausforderungen bei der Berechnung des Integrals der Verteilung des Encoders über H und der Verteilung über X für jedes H. Dieses Integral kann nicht in geschlossener Form berechnet werden, da Encoder und Decoder komplex sind Neuronale Netze. Um dieses Problem anzugehen, schlägt der Dozent die Verwendung einer einzelnen Stichprobe vor, um das Integral zu approximieren und durch Abtasten vom Encoder ein H zu erzeugen und dann die resultierende Verteilung durch die Verteilung des Decoders anzunähern. Die Annäherung erfolgt in der Schulung, und der Dozent betont, dass sie sich von normalen Autoencodern unterscheidet, da es einen Abtastschritt gibt, der sorgfältige Überlegungen erfordert, um dennoch einen Gradienten zu berechnen.

  • 00:20:00 In diesem Abschnitt des Videos erklärt der Sprecher den Neupriorisierungstrick, der beim Training generativer Netzwerke wie Variations-Autoencoder verwendet wird. Die Encoder- und Decoder-Netzwerkarchitekturen umfassen Abtastschritte, was die Berechnung von Gradienten während der Optimierung erschwert. Um dieses Problem zu lösen, wird eine feste Gaußsche Verteilung eingeführt, um die Stichprobenziehung einer neuen Variablen, H-Tilde, zu ermöglichen, die mit der Ausgabe des Encoders, H, multipliziert wird, um die Verteilung mit dem optimalen Mittelwert und der optimalen Varianz für die latente Variable zu erhalten. Das transformierte H wird dann im Decodernetzwerk verwendet, um die rekonstruierte Ausgabe-X-Tilde zu erzeugen.

  • 00:25:00 In diesem Abschnitt erklärt der Sprecher einen Trick namens „Reparametrisierung“, der es neuronalen Netzen ermöglicht, Stichproben aus einer Datenverteilung zu generieren, ohne die Rückausbreitung von Gradienten zu behindern. Der Trick besteht darin, Stichproben aus einer anderen, aber fixierbaren Verteilung (z. B. einer Gaußschen Verteilung) zu entnehmen und dann mithilfe einiger mathematischer Operationen die Stichprobe in eine Stichprobe aus der gewünschten Verteilung umzuwandeln. Auf diese Weise ist die Probe eine Eingabe für das Netzwerk, die es während der Rückausbreitung von Gradienten durchlässt. Anschließend erklärt der Referent, wie dieser Trick zum Trainieren eines generativen Netzwerks und zum Generieren neuer Datenpunkte aus dem trainierten Netzwerk verwendet wird.

  • 00:30:00 In diesem Abschnitt diskutiert der Redner die Verwendung der Comeback-Bibliothekdivergenz, einem Abstandsmaß, das verwendet wird, um den Unterschied zwischen einer festen Verteilung und einer Encoderverteilung in generativen Netzwerken zu minimieren. Der Sprecher verwendet Gauß mit einer mittleren Varianz von Null als feste Verteilung und trainiert den Encoder, eine Verteilung zu erzeugen, die dieser nahe kommt. Durch die Verwendung des Regularisierungsterms kann der Decoder einen Datenpunkt generieren, der dem im Trainingssatz ähnelt, in diesem Fall Bilder von Gesichtern. Es werden Beispiele von Bildern gezeigt, die von einem Variations-Autoencoder erzeugt wurden, die aufgrund der probabilistischen Natur des Autoencoders leicht verschwommen sind. Anschließend stellt der Referent Generative Adversarial Networks (GANs) vor, die zwei Netzwerke – einen Generator und einen Diskriminator – verwenden, um schärfere, realistischere Bilder zu erzeugen, die nicht probabilistisch erstellt werden.

  • 00:35:00 In diesem Abschnitt erklärt der Dozent die Funktionsweise von Generative Adversarial Networks (GANs). GANs bestehen aus zwei Netzwerken: einem Generatornetzwerk und einem Diskriminatornetzwerk. Das Generatornetzwerk erstellt neue Datenpunkte, während das Diskriminatornetzwerk versucht, zwischen den generierten und den realen Datenpunkten zu unterscheiden. Der Diskriminator fungiert als Tutor, indem er dem Generator Feedback gibt und ihm hilft, realistischere Datenpunkte zu generieren. Das Training erfolgt durch Optimierung einer Zielfunktion, wobei das Diskriminatornetzwerk versucht, die Wahrscheinlichkeit der Erkennung echter und gefälschter Datenpunkte zu maximieren, während das Generatornetzwerk versucht, diese Wahrscheinlichkeiten zu minimieren und den Diskriminator zu täuschen. Die Zielfunktion kann als Wahrscheinlichkeit, dass ein Datenpunkt gefälscht ist, umgeschrieben werden.

  • 00:40:00 In diesem Abschnitt erklärt der Dozent die Architektur von Generative Adversarial Networks (GANs), die aus einem Generator und einem Diskriminator bestehen. Der Generator nimmt einen Beispielvektor auf und erzeugt simulierte Daten, während der Diskriminator ein Klassifikator ist, der sowohl echte als auch generierte Daten aufnimmt, um sie als echt oder gefälscht zu klassifizieren. Das GAN-Ziel besteht darin, diese beiden Netzwerke durch Backpropagation mit unterschiedlichen Gewichtssätzen für den Generator (WG) und den Diskriminator (WD) zu optimieren. Der Kursleiter erklärt weiter, dass die Gewichtungen durch Schritte in Richtung des Gradienten aktualisiert werden, um das GAN-Ziel zu minimieren.

  • 00:45:00 In diesem Abschnitt diskutiert der Redner einen Algorithmus zum Trainieren eines generativen gegnerischen Netzwerks. Der Algorithmus umfasst eine äußere Schleife, in der Gewichte für den Diskriminator optimiert werden und dann K Schritte unternommen werden, um das Ziel zu optimieren. Danach erfolgt ein einziger Schritt zur Optimierung des Generators. Das Ziel besteht darin, dass der Generator die zum Generieren des Trainingssatzes verwendete Verteilung lernt, sodass er reale Daten erzeugen kann, die nicht von der realen Umgebung zu unterscheiden sind. Bei Erfolg weist der Diskriminator eine Fehlerquote von 50 % auf und es ist unmöglich zu erkennen, ob ein Datenpunkt echt oder gefälscht ist.

  • 00:50:00 In diesem Abschnitt des Videos diskutiert der Dozent die Herausforderungen, die sich bei der Implementierung von Generative Adversarial Networks (GANs) ergeben, einem Ansatz zur generativen Modellierung, der zwei Netzwerke namens Generator und Diskriminator verwendet, die in einer kontradiktorischen Umgebung arbeiten neue Daten generieren. Ein zentrales Thema ist die Gewährleistung eines Gleichgewichts zwischen den Stärken beider Netzwerke, da das eine das andere dominieren könnte. Eine weitere Schwierigkeit besteht darin, während der Optimierung eine globale Konvergenz zu erreichen, da eine nicht konvexe Optimierung zu lokalen Optima führen kann, die nicht optimal sind. Trotz dieser Herausforderungen funktionieren einige Aspekte von GANs in der Praxis gut, da die generierten Bilder von Ziffern und Gesichtern echten Datenpunkten in ihrem Trainingssatz ähneln, obwohl möglicherweise noch eine gewisse Feinabstimmung erforderlich ist.

  • 00:55:00 In diesem Abschnitt des Videos spricht der Redner über generative Adversarial Networks (GANs) und wie sie Gesichter erzeugen können, die ähnlich und doch unterschiedlich sind. Er liefert Beispiele für generierte Bilder, darunter ein Pferd, einen Hund und ein verschwommenes Bild. Der Redner erwähnt auch, dass die nächste Klasse ein anderes Thema des maschinellen Lernens behandeln wird.
 

CS480/680 Vorlesung 22: Ensemble-Lernen (Einsacken und Boosten)



CS480/680 Vorlesung 22: Ensemble-Lernen (Einsacken und Boosten)

In der Vorlesung geht es um Ensemble-Lernen, bei dem mehrere Algorithmen kombiniert werden, um die Lernergebnisse zu verbessern. Die beiden Haupttechniken, die besprochen werden, sind Bagging und Boosting, und der Redner betont, wie wichtig es ist, Hypothesen zu kombinieren, um eine umfassendere Hypothese zu erhalten. In der Vorlesung werden der Prozess der gewichteten Mehrheitsentscheidung und die damit verbundene Fehlerwahrscheinlichkeit erläutert. Außerdem wird erläutert, wie Boosting zur Verbesserung der Klassifizierungsgenauigkeit beiträgt. Der Redner geht auch auf die Vorteile von Boosting und Ensemble-Lernen ein und weist auf die Anwendbarkeit des Ensemble-Lernens auf viele Arten von Problemen hin. Abschließend folgt das Video dem Beispiel der Netflix-Challenge, um den Einsatz von Ensemble-Lernen in Data-Science-Wettbewerben zu demonstrieren.

In diesem Vortrag über Ensemble-Lernen betont der Referent den Wert der Kombination von Hypothesen aus verschiedenen Modellen, um die Genauigkeit zu steigern. Dieser Ansatz kann besonders nützlich sein, wenn mit bereits recht guten Lösungen begonnen wird. Er erörtert die Bedeutung einer gewichteten Kombination von Vorhersagen und weist darauf hin, dass Vorsicht geboten ist, da der Durchschnitt zweier Hypothesen manchmal schlechter ausfallen kann als die einzelnen Hypothesen allein. Der Sprecher erklärt auch, dass eine Normalisierung der Gewichte erforderlich sein kann, je nachdem, ob es sich bei der Aufgabe um eine Klassifizierung oder eine Regression handelt.

  • 00:00:00 Es wird die Bedeutung des Ensemble-Lernens vorgestellt, bei dem es sich um den Prozess der Kombination mehrerer Algorithmen und Hypothesen zur Verbesserung der Lernergebnisse handelt. In der Vorlesung werden Bagging- und Boosting-Techniken erörtert und die Schwierigkeit hervorgehoben, zu bestimmen, welcher einzelne Algorithmus für ein bestimmtes Problem am besten geeignet ist. Es ist oft eine Frage von Versuch und Irrtum, aber die Kombination unvollkommener Hypothesen kann zu einem besseren Gesamtergebnis führen, ähnlich wie Wahlen die Entscheidungen der Wähler oder Ausschüsse Expertenmeinungen kombinieren. Ziel ist es, durch die Kombination mehrerer Algorithmen eine robustere und genauere Vorhersage oder Klassifizierung zu erhalten.

  • 00:05:00 Der Dozent diskutiert Ensemble-Learning und wie es zur Verbesserung der Genauigkeit von Machine-Learning-Modellen eingesetzt werden kann. Beim Ensemble-Lernen werden mehrere unvollständige Hypothesen kombiniert, um eine umfassendere Hypothese zu erhalten, die potenziell besser ist. In der Vorlesung werden zwei Methoden des Ensemble-Lernens erwähnt: Bagging und Boosting. Bei der Bagging-Technik wird eine Tüte mit Hypothesen genommen, die von verschiedenen Algorithmen erstellt wurden, und durch Abstimmung kombiniert. Beim Boosting werden die Gewichtungen der Hypothesen angepasst, um denjenigen mit einer guten Leistung mehr Gewicht zu verleihen. Der Dozent erklärt, wie diese Techniken verwendet werden, um lineare Trennzeichen zu verallgemeinern, um nichtlineare Grenzen zu erhalten, und liefert ein Beispiel für ein Polytop.

  • 00:10:00 Das Konzept der Mehrheitsentscheidung zur Klassifizierung wird eingeführt, bei dem mehrere Hypothesen Vorhersagen treffen und die Klasse ausgewählt wird, die die meisten Stimmen erhält. Je größer die Anzahl der Hypothesen, desto unwahrscheinlicher ist es, dass die Mehrheit falsch ist. Wenn die Hypothesen unabhängig sind, wird die Mehrheitsentscheidung robuster. Es wird eine mathematische Gleichung eingeführt, um die Wahrscheinlichkeit, dass die Mehrheit einen Fehler macht, basierend auf der Anzahl der Hypothesen und der Fehlerwahrscheinlichkeit zu berechnen. Es wird ein Beispiel gegeben, bei dem fünf Hypothesen, die 10 % Fehler machen, eine Wahrscheinlichkeit von weniger als 1 % dafür bieten, dass die Mehrheitsentscheidung falsch ist, was die Robustheit der Mehrheitsentscheidungsmethode demonstriert.

  • 00:15:00 Das Video diskutiert die Grenzen grundlegender Ensemble-Lerntechniken, wie etwa die Annahme unabhängiger Hypothesen. Um diese Einschränkungen zu beseitigen, kann eine Abstimmung mit gewichteter Mehrheit verwendet werden, um Korrelationen auszugleichen und besseren Hypothesen höhere Gewichtungen zu verleihen. Diese Technik wird als Boosting bezeichnet und mithilfe eines Basislerners durchgeführt, der Klassifikatoren erstellt, die dann zusammengefasst werden, um eine höhere Genauigkeit zu erzielen. Das Boosting-Framework konnte die Überzeugung überwinden, dass schlechte Algorithmen zugunsten der Entwicklung besserer Algorithmen aufgegeben werden sollten, indem ihre Hypothesen kombiniert werden, um die Gesamtgenauigkeit zu verbessern.

  • 00:20:00 Der Dozent diskutiert das Konzept der Steigerung beim Ensemble-Lernen, bei dem ein Basislerner verwendet wird, um Hypothesen zu erstellen, und dann die Gewichtungen des Trainingssatzes gestört werden, um eine andere Hypothese zu erhalten. Durch die Erhöhung der Gewichte falsch klassifizierter Instanzen besteht eine bessere Chance, eine genauere Hypothese zu erhalten. Der Dozent erklärt, dass überwachte Lerntechniken so angepasst werden können, dass sie mit einem gewichteten Trainingssatz funktionieren. Dies kann einfach durch Ändern des Ziels und Einführen einer Gewichtung für jeden Datenpunkt erreicht werden. Diese Methode ermöglicht die Erstellung einer gewichteten Kombination der Verlustfunktion jedes Datenpunkts.

  • 00:25:00 Der Dozent erklärt das Konzept des Boostings beim Ensemble-Lernen. Beim Boosting geht es um das Lernen mit einem gewichteten Trainingssatz, bei dem Instanzen mit hohen Gewichten auf eine korrekte Klassifizierung ausgerichtet sind. Das Boosting-Framework umfasst eine Schleife, in der eine Hypothese wiederholt aus dem Datensatz mit entsprechenden Gewichtungen gelernt wird, Instanzen auf Fehlklassifizierung überprüft und ihre Gewichte erhöht werden und am Ende die In-Sample-Hypothese eine gewichtete Mehrheit der mithilfe von Gewichtungen generierten Hypothesen darstellt die proportional zu ihrer Genauigkeit sind. Es gibt zwei Arten von Gewichtungen: die für die Datenpunkte und die für die Hypothesen. Der Dozent betont, dass die Idee darin besteht, die Klassifizierungsgenauigkeit zu verbessern und dass jeder Algorithmus, der mit gewichteten Datensätzen arbeitet, als Basislerner für das Boosting verwendet werden kann.

  • 00:30:00 Der Redner diskutiert das Konzept der Erhöhung der Gewichte falsch klassifizierter Datenpunkte in Boosting-Algorithmen. Sie erklären, dass dies dazu führt, dass die Gewichte korrekt klassifizierter Datenpunkte implizit verringert werden, dass es jedoch auf die relative Größe der Gewichte ankommt. Der Algorithmus minimiert dann den Verlust und versucht, korrekt zu klassifizieren, um zu vermeiden, dass für eine Fehlklassifizierung ein höherer Preis gezahlt wird. Der Sprecher weist außerdem darauf hin, dass Gewichtungen verwendet werden können, um die Verteilung zu stören, wenn der Trainingssatz nicht der gleichen Verteilung wie der Testsatz folgt. Allerdings wird Boosting in der Regel nicht für diesen Zweck verwendet, da eine Erhöhung der Gewichte unvollständiger Hypothesen eine Überanpassung verhindern und die Generalisierung verbessern kann.

  • 00:35:00 Der Dozent erklärt die Funktionsweise des adaptiven Boosting-Algorithmus anhand eines visuellen Beispiels für die Generierung mehrerer Hypothesen mithilfe eines einfachen Datensatzes. Unter Verwendung gewichteter Mehrheitsstimmen weist der Algorithmus Gewichtungen zu, die proportional zur Genauigkeit jeder Hypothese sind, und diese werden verwendet, um eine gewichtete Kombination der Hypothesen mit der besten Leistung zu berechnen. Das aus dieser Kombination gebildete Ensemble wird dann verwendet, um Vorhersagen zu treffen.

  • 00:40:00 Der Dozent erklärt das Konzept der Kombination mehrerer Hypothesen, um eine Überanpassung zu verhindern. Sie argumentieren, dass es selbst dann, wenn wir eine perfekte Hypothese haben, immer noch besser ist, mehrere Hypothesen zu kombinieren, um eine Überanpassung zu verhindern. Der Dozent weist darauf hin, dass ein tiefes neuronales Netzwerk möglicherweise zu perfekter Genauigkeit des Trainingssatzes führt, es jedoch nicht einfach und schnell ist, was wir von einem Basislerner erwarten, der in Verbindung mit Ensemble-Lernen verwendet wird. Der Dozent beschreibt außerdem den Adaboost-Algorithmus und wie er funktioniert, um Hypothesen und Dateninstanzen Gewichte zuzuweisen.

  • 00:45:00 Der Referent erklärt die Theorie hinter Boosting und seine Vorteile. Boosting eignet sich gut für schwache Lerner, bei denen es sich um Algorithmen handelt, die Hypothesen erzeugen, die mindestens so gut sind wie ein Zufallsklassifikator. Ziel ist es, Genauigkeit und Leistung zu verbessern. Der Referent erklärt, wie man die Gewichte für Dateninstanzen und Hypothesen berechnet und wie man sie normalisiert. Boosting ist tendenziell robust gegenüber Überanpassung und einfach zu implementieren, sodass es auf viele Probleme anwendbar ist. Darüber hinaus generiert Boosting mehrere Hypothesen und nicht nur eine, was zu einer besseren Genauigkeit führt.

  • 00:50:00 Wir lernen etwas über Boosting und Ensemble-Lernen, eine Technik, mit der die Vorhersagen mehrerer Modelle kombiniert werden. Beim Boosting handelt es sich um eine Methode, mehrere Hypothesen mit unterschiedlicher Gewichtung zu generieren, sie alle zu kombinieren und die beste auszuwählen. Als Annäherung an das Bayes'sche Lernen ist es eine handhabbare Methode, jeweils eine Hypothese zu generieren und gleichzeitig mehrere Hypothesen zur Verallgemeinerung selektiv zu kombinieren. Boosting hat mehrere industrielle Anwendungen, darunter Kinect von Microsoft und Netflix Challenge, wo es zur Verbesserung des Empfehlungssystems um 10 % eingesetzt wurde. Boosting eignet sich im Allgemeinen sehr gut zum Kombinieren von Expertenvorhersagen, im Gegensatz zu anderen Heuristiken, die möglicherweise nicht immer funktionieren und ohne Theorie auskommen.

  • 00:55:00 Der Redner spricht über die Ursprünge von Kaggle und wie sie mit der Organisation von Data-Science-Wettbewerben begannen. Er geht auf das Jahr 2006 zurück, als Netflix einen Wettbewerb startete, um die Genauigkeit um 10 % zu verbessern. Das erste Team, Bellcore, erreichte eine Verbesserung von 8,43 %, erreichte jedoch nicht den Schwellenwert. Anschließend beschreibt der Redner, wie Teams im Laufe der Jahre mithilfe von Ensemble-Lernen zusammenzuarbeiten begannen und wie das Hauptpreisteam gebildet wurde. Die Teams schlossen sich zusammen, um eine Million Dollar des Hauptpreises zu teilen, proportional zur Verbesserung der Teampunktzahl, die jeder Algorithmus beisteuert. Das Hauptpreisteam schaffte es, 9,46 % zu erreichen, indem es ein großes Beispiel für viele Forscher bildete, und am letzten Tag reichte Bellcore, pragmatisch und chaotisch, ein und gewann den Preis.

  • 01:00:00 Der Redner erörtert die Bedeutung und den Wert des Ensemblelernens, insbesondere im Zusammenhang mit dem Gewinn von Wettbewerben. Er verwendet das Beispiel des Pragmatic Chaos-Teams von BellKor, das den Netflix-Preis gewann, indem es Ensemble-Lerntechniken einsetzte, um deren Genauigkeit um einige Prozentpunkte zu verbessern. Er weist darauf hin, dass Ensemble-Lernen besonders nützlich ist, wenn man mit bereits recht guten Lösungen beginnt und nicht mit schwachen Lernenden, und dass durch die Kombination von Hypothesen aus verschiedenen Modellen eine Steigerung der Genauigkeit erzielt werden kann. Darüber hinaus erwähnt er, dass sich Ensemble-Lernen gut für verteiltes Rechnen eignet und über mehrere Maschinen oder Kerne erreicht werden kann.

  • 01:05:00 Der Dozent erklärt das Konzept, eine gewichtete Kombination von Vorhersagen anstelle von Hypothesen zu verwenden, um höhere Kosten zu vermeiden. Die Idee ist, dass jede Hypothese eine Vorhersage macht und diese Vorhersagen entsprechend der Gewichtung kombiniert werden. Bei der Kombination von Hypothesen ist jedoch Vorsicht geboten, da manchmal der Durchschnitt zweier Hypothesen tatsächlich schlechter ausfallen kann als die einzelnen Hypothesen für sich. Der Dozent erwähnt auch, dass die Gewichtungen möglicherweise normalisiert werden müssen, je nachdem, ob es sich bei der Aufgabe um eine Klassifizierung oder eine Regression handelt.
 

CS480/680 Vorlesung 23: Normalisierung von Flüssen (Priyank Jaini)



CS480/680 Vorlesung 23: Normalisierung von Flüssen (Priyank Jaini)

In diesem Vortrag diskutiert Priyank Jaini die Normalisierung von Flüssen als Methode zur Dichteschätzung und stellt vor, wie sie sich von anderen generativen Modellen wie GANs und VAEs unterscheiden. Jaini erklärt das Konzept der Erhaltung der Wahrscheinlichkeitsmasse und wie es verwendet wird, um die Formel für die Änderung von Variablen bei der Normalisierung von Flüssen abzuleiten. Er erklärt außerdem den Prozess des Aufbaus der Dreiecksstruktur bei der Normalisierung von Flüssen unter Verwendung von Transformationsfamilien und dem Konzept von Permutationsmatrizen. Jaini führt außerdem das Konzept der Quadratsummenflüsse (SOS) ein, die Polynome höherer Ordnung verwenden und jede Zieldichte erfassen können, was sie universell macht. Abschließend erörtert Jaini den latenten Raum und seine Vorteile flussbasierter Methoden zur Bilderzeugung und fordert das Publikum auf, über die möglichen Nachteile flussbasierter Modelle nachzudenken.

In diesem Vortrag von Priyank Jaini über die Normalisierung von Flüssen erörtert er die Herausforderungen bei der Erfassung hochdimensionaler Transformationen mit einer großen Anzahl von Parametern. Normalisierende Flüsse erfordern, dass beide Dimensionen gleich sind, um eine exakte Darstellung zu erreichen, im Gegensatz zu GANs, die Engpässe nutzen, um solche Probleme zu überwinden. Jaini betont, dass das Erlernen der zugehörigen Parameter mit hochdimensionalen Datensätzen in Experimenten zur Normalisierung von Strömungen schwierig sein kann. Er geht auch auf Fragen ein, wie durch Normalisierung von Flüssen multimodale Verteilungen erfasst werden können, und bietet einen Code zur Implementierung linearer affiner Transformationen an.

  • 00:00:00 Doktorand Priyank Jaini diskutiert die Normalisierung von Flüssen als eine Familie tiefer generativer Modelle zur Lösung des Problems der Dichteschätzung, das ein Kernproblem beim unbeaufsichtigten Lernen darstellt. Jaini erklärt, dass die Dichteschätzung ein breites Anwendungsspektrum im maschinellen Lernen hat, beispielsweise wichtige Stichproben, Bayes'sche Schlussfolgerungen und Bildsynthese. Jaini gibt auch eine kurze Einführung in die Unterschiede zwischen normalisierenden Flüssen und Variational Autoencoders (VAEs) und generativen gegnerischen Netzwerken (GANs), die in früheren Vorlesungen besprochen wurden. Er schlägt vor, dass normalisierende Flüsse für bedingte generative Modelle nützlich sind und zur Dichteschätzung verwendet werden können.

  • 00:05:00 Der Redner diskutiert das Framework für generative Modelle, einschließlich Generative Adversarial Networks (GANs) und Variational Autoencoders (VAEs), und stellt normalisierende Flüsse als alternativen Ansatz vor. Sowohl GANs als auch VAEs verwenden eine Quellverteilung und eine Transformation, um synthetische Beispiele zu generieren oder Daten zu rekonstruieren, sie stellen die Dichtefunktionen jedoch implizit und nicht explizit dar. Im Gegensatz dazu liefern normalisierende Flüsse eine explizite Darstellung von Dichtefunktionen und arbeiten nach dem Prinzip der Erhaltung der Wahrscheinlichkeitsmasse. Das Ziel besteht darin, eine Transformation zu erlernen, die eine einfache Quellverteilung (z. B. Gaußsche Verteilung) in eine kompliziertere Zielverteilung umwandelt, um die wahre Datenverteilung anzunähern.

  • 00:10:00 Priyank Jaini stellt das Konzept der Erhaltung der Wahrscheinlichkeitsmasse vor und wie es zur Ableitung der Formel für die Änderung von Variablen verwendet wird. Er gibt ein Beispiel für eine Zufallsvariable im Intervall 0-1 und wendet die Funktion T von Z an, was zu einer einheitlichen Zufallsvariablen mit einer Wahrscheinlichkeitsdichte von 1/3 führt. Er erklärt, dass die Formel zur Variablenänderung verwendet wird, um die Dichte einer Zielzufallsvariablen X anhand der Quellzufallsvariablen Z und der Funktion T zu ermitteln. Er erweitert die Formel auf den multivariaten Fall, bei dem die Funktion T aus Rd gelernt wird zu Rd, und die Formel wird zu QX = PZ mal der Determinante des Gradienten von T mal dem Kehrwert.

  • 00:15:00 Der Sprecher erklärt das Konzept der Normalisierung von Flüssen, bei dem eine Funktion erlernt wird, die einen gegebenen Eingabevektor X auf einen anderen Vektor Z abbildet. Die als D bezeichnete Funktion besteht aus univariaten Funktionen T1 bis TD , die die Komponenten von Formel. Es treten jedoch bestimmte Probleme auf, unter anderem muss die Funktion D invertierbar und bijektiv sein.

  • 00:20:00 Der Dozent erläutert, wie der latente Raum berechnet werden kann, wenn nur die beobachteten Daten vorliegen. Dazu wird die Umkehrfunktion der Abbildungsfunktion benötigt. Allerdings ist die Berechnung der Determinante in der Praxis kostspielig, daher stellte der Dozent das Konzept der Dreieckskarten vor, bei denen die Berechnung der Determinante einfach ist. In der Vorlesung wird dann erklärt, dass sich die Forschung zur Normalisierung von Strömungen hauptsächlich auf die Erstellung dieser dreieckigen Transformationen konzentriert, damit eine Dichteschätzung durchgeführt werden kann, und wie diese Transformationen in verschiedenen Normalisierungsströmungen verwendet werden können.

  • 00:25:00 Der Dozent erklärt den Prozess des Aufbaus einer Dreiecksstruktur zur Normalisierung von Strömungen. Die Struktur beinhaltet die Wahl einer einfachen Dichte P(Z), um eine gegebene Dichte Q(X) anzunähern. Die Dichte P(Z) kann eine beliebige Wahrscheinlichkeitsverteilung sein, beispielsweise eine Normal- oder Gleichverteilung. Zunächst wird eine Transformation t1 verwendet, um X1 aus Satz 1 zu erhalten. Im weiteren Verlauf der Iterationen verwendet die Transformation t2 dann die Platinen bei 1 und Z2 als Eingabe und ergibt X2. Der Prozess wird fortgesetzt, bis TD Z1, Z2, ... nimmt, bis ZD als Eingabe und XT als Ausgabe bereitstellt. Das Ziel besteht darin, die Wahrscheinlichkeit zu maximieren, indem eine negative logarithmische Wahrscheinlichkeit optimiert wird. Dazu gehört das Ermitteln der Summe des Logarithmus der Diagonalelemente der Matrix. Der Dozent liefert Beispiele für Familien von Transformationen, die zum Aufbau der Dreiecksstruktur verwendet werden können, und erklärt, wie die Gelenkdichte als Produkt der Randverteilungen und bedingten Verteilungen geschrieben werden kann.

  • 00:30:00 Der Dozent diskutiert das Konzept der Normalisierung von Flüssen. Normalverteilungen hängen von Daten ab und sind Funktionen der Daten. Es wird eine Transformation von der Standard-Gaußschen Verteilung zu dieser Normalverteilung gelernt. Die Transformation erfolgt iterativ und die resultierende Funktion ist dreieckig. Durch Stapeln dieser Transformationen wird ein autoregressiver Maskenfluss gebildet, der eine komplexere Transformation mit mehreren Zufallsvariablen ermöglicht. Die Determinante jeder Transformation und die endgültige Transformation können leicht berechnet werden, indem die Jacobi-Transformation und die Umkehrung verwendet werden. Die Parameter, die die Transformation definieren, werden durch Minimierung einer Log-Likelihood trainiert.

  • 00:35:00 Der Moderator erklärt, wie man mithilfe einer Permutationsmatrix die Reihenfolge von Zufallsvariablen ändert und Korrelationen auflöst, um eine komplexere Transformation bei der Dichteschätzung zu erstellen. Durch das Stapeln mehrerer Transformationen wird die Komplexität der Transformation erhöht, sodass jede Dichte im wirklichen Leben erfasst werden kann, auch wenn sie keiner schönen Form folgt. Sobald die Permutation jedoch angewendet wird, ist die Transformation nicht mehr dreieckig, was die Berechnung der Jacobi-Transformation rechenintensiv macht. Die Methode der Verwendung einer Permutationsmatrix spart Zeit und nähert sich der vollständigen Transformation an.

  • 00:40:00 Der Referent diskutiert die verschiedenen Transformationsmethoden, die bei der Normalisierung von Flüssen verwendet werden. Er erklärt, dass Real NVP eine lineare Transformationsmethode ist, die die Eingabe in zwei Teile aufteilt, auf einen Teil eine lineare Transformation anwendet und den anderen Teil unverändert lässt. Anschließend stapeln sie mehrere Schichten davon, um kompliziertere Transformationen zu erstellen. Der Redner erwähnt auch, dass neuronale autoregressive Flüsse tiefe neuronale Netze anstelle linearer Transformationen verwenden und universell sind. Darüber hinaus spricht er über seine Arbeit, in der er die Verwendung der Quadratsumme von Polynomen anstelle von linearen Transformationen oder neuronalen Netzen vorschlägt. Diese Methode verwendet Polynome hohen Grades mit Koeffizienten, die von einem anderen neuronalen Netzwerk stammen, und ist ebenfalls universell.

  • 00:45:00 Der Dozent diskutiert die Eigenschaften von Quadratsummenflüssen (SOS), die eine Verallgemeinerung der zuvor untersuchten Quadratsummen von Polynomen in der Informatik und Optimierung darstellen. Im Gegensatz zu anderen Methoden verwenden SOS-Flüsse Polynome höherer Ordnung, die Momente höherer Ordnung der Zielverteilung, wie Kurtosis und Schiefe, steuern können, ohne dass der Koeffizient eingeschränkt wird. SOS-Flüsse sind einfacher zu trainieren und können jede Zieldichte erfassen, was sie universell macht und für Anwendungen in der stochastischen Simulation geeignet ist. Der Dozent stellt außerdem eine Architektur namens „Glow“ vor, die invertierbare One-Crossman-Faltungen und affine Kopplungsschichten verwendet, um Bilder zu erzeugen, die Gesichter in eine ältere Version interpolieren können.

  • 00:50:00 Priyank Jaini erklärt die Architektur normalisierender Flüsse und wie sie zur Bilderzeugung verwendet werden können. Der Algorithmus verwendet eine affine Kopplungsschicht mit mehreren Ausdrücken und einer Zufallsrotationsmatrix W. Sie legen die Determinante der Matrix mithilfe einer LU-Zerlegung fest. Auf diese Weise können sie zwischen Bildern von alten und jungen Menschen interpolieren, indem sie ein Eingabebild in eine latente Darstellung umwandeln und sich dann innerhalb des latenten Raums in eine bestimmte Richtung bewegen, um das gewünschte Ergebnis zu erzielen. Die Ergebnisse zeigen, dass die erzeugten Bilder scharf sind, was im Widerspruch zu früheren Annahmen steht, dass mit Log-Likelihood erzeugte Bilder verschwommen wären.

  • 00:55:00 Der Dozent diskutiert das Konzept des latenten Raums, der bestimmte Eigenschaften der Eingabe erfasst und eine versteckte Verteilung darstellt, die in flussbasierten Methoden zur Bilderzeugung verwendet wird. Der Dozent liefert ein Beispiel einer linearen Interpolation, bei der der latente Raum genutzt wird, um ein Bild einer älter werdenden Person zu erstellen. Der Dozent hebt auch die Vorteile normalisierender Strömungsmodelle hervor, wie z. B. ihre explizite Darstellung von Dichten und die Verwendung effizienter Dreieckstransformationen zur Erfassung der Jacobi-Determinante. Allerdings stellt der Dozent dem Publikum auch eine Frage zu den möglichen Nachteilen flussbasierter Methoden, darunter die Komplexität der Berechnungen.

  • 01:00:00 Der Dozent diskutiert die Herausforderungen der Erfassung hochdimensionaler Transformationen mit einer großen Anzahl von Parametern bei der Normalisierung von Strömungen. Während GANs einen Engpass nutzen, um dieses Problem zu überwinden, müssen bei der Normalisierung von Flüssen beide Dimensionen gleich sein, um die exakte Darstellung zu erreichen. Der Dozent betont, dass die Dimensionen der Datensätze, die in Experimenten zur Normalisierung von Strömungen verwendet werden, groß sind und es daher schwierig ist, die zugehörigen Parameter zu lernen. Der Dozent beantwortet auch Fragen dazu, wie durch Normalisierung von Flüssen multimodale Verteilungen erfasst werden können und wie das Training der Gewichte neuronaler Netze implizit die Netzwerkparameter trainiert.

  • 01:05:00 Priyank Jaini erklärt, dass er etwa hundert Zeilen Code für die Implementierung linearer affiner Transformationen bereitgestellt hat, die er aus einem Tutorial von Eric Jack gelernt hat. Er erwähnt, dass es ein einfacher Prozess ist, diese Netzwerke zu trainieren, und stellt den Code für Interessierte zur Verfügung.
 

CS480/680 Vorlesung 24: Gradient Boosting, Bagging, Entscheidungswälder



CS480/680 Vorlesung 24: Gradient Boosting, Bagging, Entscheidungswälder

In dieser Vorlesung werden Gradient Boosting, Bagging und Entscheidungswälder beim maschinellen Lernen behandelt. Beim Gradient Boosting werden neue Prädiktoren hinzugefügt, die auf dem negativen Gradienten der Verlustfunktion zum vorherigen Prädiktor basieren, was zu einer höheren Genauigkeit bei Regressionsaufgaben führt. In der Vorlesung wird außerdem untersucht, wie man durch Regularisierung und frühzeitiges Stoppen von Trainingsprozessen eine Überanpassung verhindern und die Leistung optimieren kann. Darüber hinaus geht es in der Vorlesung um das Bagging, bei dem verschiedene Basislerner einer Unterstichprobe unterzogen und kombiniert werden, um eine endgültige Vorhersage zu erhalten. Die Verwendung von Entscheidungsbäumen als Basislerner und die Erstellung von Zufallswäldern werden ebenfalls besprochen, und es wird ein reales Beispiel für die Verwendung von Zufallswäldern durch Microsoft Kinect zur Bewegungserkennung gegeben. Die Vorteile von Ensemble-Methoden für paralleles Rechnen werden diskutiert und die Bedeutung des Verständnisses von Gewichtsaktualisierungen in maschinellen Lernsystemen wird betont. In dieser Vorlesung werden mögliche Probleme bei der Mittelwertbildung bei der Kombination von Prädiktoren in neuronalen Netzen oder Hidden-Markov-Modellen behandelt. Stattdessen wird die Kombination von Vorhersagen durch eine Mehrheitsabstimmung oder eine Mittelungsmethode empfohlen. Der Professor schlägt außerdem verschiedene verwandte Kurse an der University of Waterloo vor, mehrere Kurse für Hochschulabsolventen in Optimierung und linearer Algebra sowie ein Bachelor-Programm für Datenwissenschaften mit den Schwerpunkten KI, maschinelles Lernen, Datensysteme, Statistik und Optimierungsthemen. Die Vorlesung betont die Bedeutung algorithmischer Ansätze gegenüber der Überschneidung mit der Statistik und die Spezialisierung auf datenwissenschaftliche Themen im Vergleich zu allgemeinen Informatikstudiengängen.

  • 00:00:00 Der Kursleiter bespricht die Steigungssteigerung. Er erwähnt, dass sich der Adaboost-Algorithmus hervorragend für die Klassifizierung eignet, nicht jedoch für die Regression. Er führt die Gradientenverstärkung ein, bei der der negative Gradient der Verlustfunktion berechnet wird und der nächste Prädiktor an diesen Gradienten angepasst wird. Dies ist etwas kontraintuitiv, da der Prädiktor nicht an die gewünschte Ausgabe, sondern an den negativen Gradienten angepasst wird. Dadurch wird ein Schritt des Gradientenabstiegs emuliert, und durch wiederholte Anwendung wird der endgültige Prädiktor die Summe aller Prädiktoren sein. Diese Methode eignet sich besonders für die Regression. Der Dozent erklärt, dass dieser Algorithmus mit einer Vielzahl von Verlustfunktionen verwendet werden kann und eine Lösung für die Verstärkung der Regression darstellt.

  • 00:05:00 Das Konzept der Gradientenverstärkung wird erklärt, wobei bei jedem Schritt des Algorithmus ein Prädiktor mit einer Verlustfunktion die Differenz zwischen dem Ziel und dem vorhergesagten Wert begleitet. Anschließend wird der negative Gradient verwendet, um die Residuen anzunähern, und der nächste Prädiktor wird für den Residuendatensatz trainiert. Das Ziel besteht darin, den Fehler zu reduzieren, indem dieser neue Prädiktor zum vorherigen hinzugefügt wird. Anschließend wird der Pseudocode des Algorithmus angegeben, wobei zunächst der erste Prädiktor als Konstante festgelegt wird, indem die Verluste für jeden Datenpunkt minimiert werden.

  • 00:10:00 Der Professor erklärt Gradient Boosting, ein leistungsstarkes Konzept im maschinellen Lernen, das mehrere schwache Lernende zu einem einzigen starken Lernenden vereint. Die Idee besteht darin, mit einem einfachen Prädiktor zu beginnen, der nur eine Konstante ist, und dann bei jeder Iteration einen neuen Prädiktor zu berechnen, indem für jeden Datenpunkt ein Pseudo-Residuum berechnet, ein neuer Residuen-Datensatz gebildet und ein neuer Basislerner in Bezug auf diese Daten trainiert wird gesetzt und die neue Hypothese multipliziert mit einer Schrittlänge zum Prädiktor hinzugefügt. Die Schrittlänge wird durch Minimieren eines Optimierungsausdrucks ausgewählt, um einen Schritt in Richtung des negativen Gradienten zu machen und so Fehler zu reduzieren. Die Gewichtsaktualisierung erfolgt, wenn der negative Gradient berechnet wird, es handelt sich jedoch nicht um eine Gewichtsaktualisierung an sich.

  • 00:15:00 Der Sprecher erklärt den Gewichtsaktualisierungsprozess während der Trainingsphase eines Basislerners, der ein neuronales Netzwerk, ein Entscheidungsbaum oder eine andere Art von Regressor sein kann. Sie stellen klar, dass bei der Optimierung des Prädiktors keine Aktualisierung der Gewichte erfolgt, da alle Funktionen, also FK-1, HK und Etha k, bereits optimiert und auf feste Gewichte eingestellt sind. Die Kombination der Vorhersagen aus diesen Funktionen führt zu einem Prädiktor, der sich bei jedem Schritt allmählich verbessert, was zu einer Funktion mit geringerem Verlust führt. Allerdings darf der Prozess langfristig nicht zu einem Nullverlust führen.

  • 00:20:00 Der Dozent diskutiert das Potenzial einer schrittweisen Fehlerreduzierung durch Gradient Boosting, weist jedoch darauf hin, dass dies je nach Platz der Prädiktoren und der Menge an Rauschen in den Daten zu einer Überanpassung führen könnte. Der Algorithmus beinhaltet die Addition weiterer Hypothesen, um eine größere Stichprobe zu erstellen, ohne die Gewichte zu ändern. Der Dozent stellt der Klasse eine Frage zum Risiko einer Überanpassung mit Gradient Boosting und kommt zu dem Schluss, dass die Gefahr einer Überanpassung besteht, dieses Auftreten jedoch durch den Einsatz von Techniken wie Regularisierung oder frühzeitiges Stoppen verhindert werden kann.

  • 00:25:00 Der Dozent diskutiert Möglichkeiten zur Reduzierung der Überanpassung, einschließlich der Einführung von Randomisierung und des vorzeitigen Stoppens des Trainingsprozesses mithilfe eines Validierungssatzes. Anschließend stellt die Vorlesung die Technik des Gradient Boosting vor und erwähnt das beliebte Paket XG Boost, das auf Leistung und Genauigkeit optimiert wurde. Der Dozent erläutert außerdem die Hauptunterschiede zwischen Bagging und Boosting, einschließlich der Verwendung unabhängiger Hypothesen und einer Mehrheitsentscheidung beim Bagging im Vergleich zur sequentiellen Erstellung von Hypothesen und deren Kombination beim Boosting.

  • 00:30:00 Der Redner diskutiert Boosting- und Bagging-Techniken beim maschinellen Lernen. Boosting beinhaltet gewichtete Vorhersagen, die einige korrelierte Hypothesen und Hypothesen mit unausgewogener Genauigkeit ermöglichen. Boosting ist flexibel und kann die Gewichtungen verschiedener Hypothesen bestimmen, um dem Problem der Korrelation entgegenzuwirken. Im Gegensatz dazu beinhaltet das Bagging Bootstrap-Sampling, bei dem ein Basislerner anhand einer Teilmenge von Daten geschult wird, um die Korrelation zwischen Hypothesen zu verringern. Der Sprecher weist darauf hin, dass diese Techniken eine praktische Möglichkeit bieten, einen Aufbau zu konstruieren, bei dem Annahmen bezüglich der Hypothesenunabhängigkeit gelten oder annähernd gelten können, wodurch willkürliche Einschränkungen reduziert und das Modell zuverlässiger gemacht werden.

  • 00:35:00 Der Redner diskutiert die Idee, einen einfachen Prädiktor zu erhalten, der im Paradigma des In-Sample-Lernens besser als zufällig ist, indem die Merkmale unterabgetastet werden, um die Korrelation zu reduzieren. Durch Unterabtastung sowohl von Datenpunkten als auch von Merkmalen wird ein kleinerer Datensatz erhalten, der dem Basislerner zugeführt wird, und der Vorgang wird für jeden Prädiktor wiederholt. Die resultierenden Hypothesen sind weniger korreliert, was das Einsacken zu einer besseren Option macht. Der Bagging-Algorithmus besteht aus einer Schleife, in der K Prädiktoren erstellt werden, und für jeden Prädiktor werden Daten unterabgetastet, und der Basislerner erstellt je nach Überlappung unterschiedliche Hypothesen.

  • 00:40:00 Wir lernen etwas über Bagging, eine Technik, die durch das Extrahieren mehrerer Zufallsstichproben aus den Trainingsdaten funktioniert, um mehrere Modelle zu erstellen. Die Idee besteht darin, aus jedem Basislerner eine Hypothese zu generieren und diese dann zu kombinieren, um eine endgültige Vorhersage zu treffen. Wenn das Ziel die Klassifizierung ist, wird die Vorhersage anhand der Mehrheitsentscheidung getroffen, während bei der Regression die Entscheidung anhand des Durchschnitts der Vorhersage getroffen wird. Die gängige Praxis in der Literatur besteht darin, einen Entscheidungsbaum als Basislerner zu verwenden, und sobald mehrere Entscheidungsbäume auf verschiedenen Teilmengen von Daten trainiert werden, nennen wir sie einen Zufallswald. Random Forests können auch für verteiltes Rechnen verwendet werden. Es wird ein reales Beispiel dafür bereitgestellt, wie Microsoft Kinect eine zufällige Gesamtstruktur zur Haltungs- und Bewegungserkennung verwendet.

  • 00:45:00 Das Video bespricht Kinect und wie es eine Tiefenkarte erstellt, indem es eine Punktwolke im Infrarotspektrum projiziert und eine Infrarotkamera verwendet, um die Punkte wahrzunehmen. Microsoft hat einige Hardware eingebaut, um eine Echtzeit-Ableitung der Tiefeninformationen basierend auf der Verteilung der Punkte zu ermöglichen. Der Kinect verfügt über die Fähigkeit, Pixel zu kennzeichnen, um Körperteile und Bewegungen mit einem Random-Forest-Ansatz zu identifizieren, bei dem benachbarte Pixel mit dem Tiefenwert des aktuellen Pixels verglichen werden. Die Unterabtastungstechnik wird verwendet, um die benachbarten Pixel zu vereinfachen, und der Vergleich von Abständen basierend auf der Größe des Körperteils liefert Hinweise zur Klassifizierung des aktuellen Pixels, obwohl diese Methode als schwach gilt.

  • 00:50:00 Der Redner erörtert die Vorteile von Bagging, Boosting und anderen Ensemble-Methoden, die die parallele Verteilung und Nutzung mehrerer leichter Klassifikatoren ermöglichen und so eine gute Skalierung für große Datenmengen ermöglichen. GPUs sind zum Schlüssel für die Parallelisierung von Berechnungen geworden, und es gibt mehrere Frameworks, um Vektoren, Matrizen und Tensoren zu manipulieren, ohne sich Gedanken über die Parallelisierung machen zu müssen. Der Referent warnt jedoch vor der intuitiven, aber unzuverlässigen Methode, den Durchschnitt der Potenzen von Klassifikatoren oder Prädiktoren zu ermitteln, da versteckte Schichten und Variablen bei diesem Ansatz Probleme verursachen können.

  • 00:55:00 Der Moderator erklärt, wie problematisch es sein kann, den Durchschnitt einzelner Systeme in einer Architektur zu ermitteln. Der Moderator zeichnet ein Beispiel an die Tafel, in dem boolesche Variablen verwendet werden, die die Werte 0 und 1 annehmen, um ein Exklusiv-Oder zu kodieren. Der Präsentator richtet Gewichtungen für die booleschen Variablen ein, mit denen das „Oder“ des Eingangs berechnet werden soll. Die eingerichteten Gewichte dienen dazu, jedes von zwei Mustern zu finden, und solange eines davon ausgelöst wird, berechnet der Präsentator das „Und/oder“. durch Zusammenführung durch eine weitere Müllsammeleinheit. Der Moderator erklärt weiter, wie sich eine Änderung der Gewichte auf die Leistung des Systems auswirken kann.

  • 01:00:00 Der Redner diskutiert die Gefahren der Mittelung von Gewichten bei der Kombination von Prädiktoren in neuronalen Netzen oder Hidden-Markov-Modellen. Die Gefahr besteht darin, dass es symmetrische Lösungen geben kann, die nicht das Gleiche berechnen, und die Bildung des Durchschnitts der Gewichtungen könnte dazu führen, dass ein Prädiktor nicht das Richtige berechnet. Stattdessen ist es sicherer, die Vorhersagen zu kombinieren, was durch eine Mehrheitsentscheidung für die Klassifizierung oder die Bildung des Durchschnitts für die Regression erfolgen kann. Für Interessierte, die mehr erfahren möchten, empfiehlt der Redner auch andere Kurse zum Thema maschinelles Lernen, die an der University of Waterloo angeboten werden.

  • 01:05:00 Der Professor bespricht andere Kurse, die den aktuellen Kurs zum maschinellen Lernen ergänzen würden. Erstens schlägt er vor, vor dem aktuellen Kurs den Kurs „Computational Linear Algebra“ zu belegen, da lineare Algebra eine entscheidende Grundlage für maschinelles Lernen ist. Darüber hinaus erwähnt er den Kurs „Theoretische Grundlagen des maschinellen Lernens“, der sich auf einen wichtigen Faktor des maschinellen Lernens konzentriert, nämlich die Datenkomplexität. Er erklärt, wie komplex es ist, den Grad der erreichbaren Genauigkeit bei einer bestimmten Datenmenge zu bestimmen. Daher zielt der Kurs darauf ab, Prinzipien abzuleiten, die die Datenmenge bestimmen, die man benötigt, um einen gewünschten Grad an Genauigkeit zu erreichen. Abschließend erwähnt der Professor weitere Kurse auf Graduiertenebene wie „Optimization for Data Science“ und „Fundamentals of Optimization“, die für das Verständnis von Algorithmen für maschinelles Lernen hilfreich sind.

  • 01:10:00 Der Dozent bespricht die verfügbaren Kurse und Programme im Bereich Data Science, die Studierende belegen können. Diese Kurse reichen von Kursen der Stufe 800, die nicht regelmäßig angeboten werden, bis hin zu datenwissenschaftlichen Programmen auf Bachelor- und Masterniveau. Der Dozent weist darauf hin, dass es zwar einige Überschneidungen zwischen diesem Kurs und Kursen in Statistik geben kann, der Ansatz hier jedoch eher algorithmisch ist. Die Data-Science-Programme decken Themen an der Schnittstelle von KI, maschinellem Lernen, Datensystemen, Statistik und Optimierung ab. Die Kurse, die die Studierenden in diesen Programmen belegen, legen den Schwerpunkt auf die Spezialisierung auf datenwissenschaftliche Themen, während ein allgemeiner Informatik-Masterstudiengang eine Breite über verschiedene Themen erfordert.
 

Sollten wir Angst vor künstlicher Intelligenz haben? mit Emad Mostaque, Alexandr Wang und Andrew Ng | 39



Sollten wir Angst vor künstlicher Intelligenz haben? mit Emad Mostaque, Alexandr Wang und Andrew Ng | 39

Die Gäste in diesem YouTube-Video diskutieren verschiedene Aspekte der künstlichen Intelligenz (KI), darunter ihre potenziellen Gefahren, Störungen in verschiedenen Branchen und die Bedeutung der Umschulung von Arbeitnehmern, um relevant zu bleiben. Die Diskussionsteilnehmer diskutieren außerdem über die Benutzerfreundlichkeit von KI-Tools, die Implementierung von KI im Gesundheitswesen, die Standardisierung in Informationsverteilungssystemen, das Potenzial für die Schaffung von Wohlstand durch KI und den Einsatz von Sprachmodellen im Gesundheitswesen und im Bildungswesen. Darüber hinaus betonten sie die Notwendigkeit eines verantwortungsvollen Einsatzes von KI-Modellen, Transparenz und ethischer Überlegungen bei der Governance. Abschließend beantworten die Diskussionsteilnehmer kurz einige Fragen des Publikums zu Themen wie Datenschutz in der KI für das Gesundheitswesen und die Bildung.

  • 00:00:00 Die Gäste diskutieren über die potenziellen Gefahren von KI und die Notwendigkeit von Transparenz und Vorsicht bei dieser Technologie. Sie gehen auch auf die Störungen ein, die KI in verschiedenen Branchen verursacht, und auf die Bedeutung der Umschulung von Arbeitskräften, um angesichts dieser Störungen relevant zu bleiben. Die Gäste bieten potenzielle Lösungen wie Online-Bildung und Partnerschaften mit Regierungen an, um den Menschen bei der Anpassung an die durch KI verursachten Veränderungen zu helfen. Letztendlich glauben sie, dass KI das Potenzial hat, schneller Wohlstand zu schaffen als alles, was wir je gesehen haben, und allen Menschen Mut zu machen, aber mit Sorgfalt und Verantwortungsbewusstsein behandelt werden muss.

  • 00:05:00 Die Experten diskutieren die Benutzerfreundlichkeit von KI-Tools im Vergleich zur benutzerfreundlichen Oberfläche von Google. Sie hoffen, dass sich KI-Tools so weiterentwickeln könnten, dass sie einfacher zu verwenden sind, ohne dass viel Schulung erforderlich ist. Die generative KI wird auf große Korpusse eines gesamten Mediensatzes trainiert und konzentriert sich auf das Verständnis natürlicher Sprache. Sie sind sich jedoch einig, dass die Politik und die Einführung von KI relativ ungewiss sind und Bildungskurse und die Kommunikation mit politischen Entscheidungsträgern den Zugang zu KI erleichtern könnten. Das Panel spricht auch über die Herausforderungen bei der Definition von Konzepten in der KI-Programmierung und den Bedarf an klar definierten, eindeutigen Strukturnamen neben der zunehmenden Verwendung von Eingabeaufforderungen.

  • 00:10:00 Ein Arzt aus Chicago fragt die Diskussionsteilnehmer, wie KI im Gesundheitswesen im Hinblick auf Point-of-Care und Patientenbewertung am effizientesten eingesetzt werden kann. Die Diskussionsteilnehmer schlagen vor, konkrete Anwendungsfälle zu finden und diese umzusetzen, um sich einen Marktvorteil zu verschaffen, da es entscheidend ist, zuerst auf den Markt zu kommen. Sie empfehlen außerdem, mithilfe von Tools wie euroscape.com einen Datensatz zu erstellen und die Daten zu kennzeichnen und mit Anmerkungen zu versehen, um darauf ein neues Modell zu trainieren. Sie schlagen vor, mit anderen Unternehmen zusammenzuarbeiten oder ein Team für die Entwicklung und Implementierung von KI zusammenzustellen, möglicherweise klein anzufangen und schrittweise zu expandieren.

  • 00:15:00 Die Redner diskutieren, ob es kommerzielle Aktivitäten gibt, die KI niemals stören kann. Während einige physische Aufgaben und Branchen möglicherweise weiter davon entfernt sind, durch KI gestört zu werden als andere, sind sich die Redner letztendlich einig, dass es keine kommerzielle Aktivität gibt, die KI niemals stören kann. Sie erörtern jedoch die Herausforderung bei der Interpretation von KI-Entscheidungen und die Notwendigkeit zentralisierter Vertrauensspeicher und Standards, um Informationen zu kuratieren und die Verbreitung falscher oder irreführender Informationen in sozialen Netzwerken zu bekämpfen.

  • 00:20:00 Die Referenten diskutieren die Notwendigkeit einer Standardisierung in Informationsverteilungssystemen, um sich an die zunehmende Einführung künstlicher Intelligenz (KI) anzupassen. Sie gehen auch auf die Bedeutung ethischer Überlegungen und die Auswirkungen der KI ein, wie sie derzeit geschieht und auch in Zukunft die Zukunft prägen wird. Das Gespräch verlagert sich auf die praktischen Anwendungen von KI bei der Katastrophenhilfe, wo sie für schnelle Reaktionszeiten und die Koordinierung humanitärer Bemühungen eingesetzt werden kann. Das Panel diskutiert auch die Rolle eines Chief AI Officer, der über ein technisches Verständnis der Technologie und eine geschäftsorientierte Denkweise verfügen sollte, um wertvolle Anwendungsfälle für KI zu identifizieren.

  • 00:25:00 Die Referenten diskutieren über die Umsetzung und Leidenschaft, die nötig sind, um mit der KI-Technologie Schritt zu halten. Sie schlagen vor, ein internes Repository für Unternehmen einzurichten, um mit den neuesten Trends in der KI Schritt zu halten, und empfehlen die Katalogisierung aller vorhandenen Daten, die in KI-Systeme hochgeladen werden können. Sie erörtern auch das Potenzial für die Schaffung von Wohlstand in der KI-Branche und empfehlen Investitionen in die Weiterqualifizierung von sich selbst oder einem Unternehmen in diesem Bereich. Auch wenn einige meinen, es sei zu spät, um einzugreifen, weisen die Redner darauf hin, dass die KI tatsächlich noch in den Kinderschuhen steckt und in naher Zukunft ein erhebliches Wachstum erwartet wird.

  • 00:30:00 Peter erörtert die Bedeutung der Überwachung des Glukosespiegels und empfiehlt Levels, ein Unternehmen, das eine kontinuierliche Überwachung des Glukosespiegels anbietet, um sicherzustellen, dass Einzelpersonen wissen, wie sich verschiedene Lebensmittel aufgrund ihrer Physiologie und Genetik auf sie auswirken. Das Gespräch verlagert sich dann auf die Frage, wie Technologie zum Weltfrieden beitragen kann, wobei der Schwerpunkt darauf liegt, wie KI als universeller Übersetzer fungieren und Kontext und Verständnis zwischen verschiedenen Standpunkten schaffen kann. Die Diskussionsteilnehmer sprechen auch das Thema offene KI und die Entlassung ihrer Ethikkommission an, wobei ein Mitglied seine Bewunderung für die von offener KI geleistete Arbeit zum Ausdruck bringt, aber auch Bedenken hinsichtlich der Entscheidung anerkennt.

  • 00:35:00 Die Referenten diskutieren die Verantwortung, die mit dem Einsatz großer KI-Modelle einhergeht, und den möglichen Kompromiss zwischen den Vorteilen, die sie mit sich bringen, und den Risiken, die sie mit sich bringen. Sie gehen auf den verantwortungsvollen Einsatz der Technologie durch OpenAI ein und würdigen die Bemühungen ethischer KI-Teams, die versuchen, die negativen Aspekte des KI-Einsatzes abzumildern. Das Gespräch befasst sich auch mit der Notwendigkeit von Transparenz und verantwortungsvoller Governance im Hinblick auf potenziell gefährliche Technologien. Abschließend befassen sich die Redner mit dem Einsatz von KI bei Investitionsentscheidungen und erkennen die Komplexität des Prozesses und die Grenzen der aktuellen Technologie an.

  • 00:40:00 Die Gruppe diskutiert den Einsatz von Sprachmodellen im Gesundheitswesen, insbesondere zum Aufbau von Chatbots, die Pflege- oder Triaging-Personal unterstützen. Sie erwähnen die Verwendung stabiler Chat-Modelle wie GPT-Neo und TF-Plan T5, weisen jedoch darauf hin, dass die Erstellung eines Open-Source-Modells, das kontrolliert und verwaltet werden kann, von entscheidender Bedeutung ist, da Gesundheitsdaten äußerst vertraulich sind. Die Gruppe diskutiert auch die Verwendung von Sprachmodellen in der Bildung, insbesondere die Kontroverse um die Verwendung von Tools wie Chad-GPT zum Schreiben von Aufsätzen oder Buchrezensionen. Sie diskutieren über die Vorzüge von Transparenz und darüber, wie man Schüler darin schulen kann, diese Tools effektiv zu nutzen, ohne ihr Wachstum einzuschränken. Abschließend beschäftigt sich die Gruppe mit der Frage, was Betrug im pädagogischen Kontext definiert.

  • 00:45:00 Die Diskussionsteilnehmer beantworten in einer Speed-Runde kurz einige Fragen des Publikums. Zu den Themen gehören die Erstellung von Inhalten in Musik und Kunst, Datenschutz bei KI im Gesundheitswesen und die Frage, ob ein 15-Jähriger weiterhin Python lernen und aufs College gehen sollte. Die Diskussionsteilnehmer sprechen die Bedeutung des Datenschutzes und die Notwendigkeit einer überprüfbaren und interpretierbaren KI im Gesundheitswesen an. Sie erwähnen auch, dass die Ethik der KI und ihr möglicher Missbrauch durch Länder wie China in der nächsten Sitzung diskutiert werden.
Should We Be Fearful of Artificial Intelligence? w/ Emad Mostaque, Alexandr Wang, and Andrew Ng | 39
Should We Be Fearful of Artificial Intelligence? w/ Emad Mostaque, Alexandr Wang, and Andrew Ng | 39
  • 2023.04.20
  • www.youtube.com
This episode is supported by exceptional companies such as Use my code MOONSHOTS for 25% off your first month's supply of Seed's DS-01® Daily Synbiotic: http...
 

„Godfather of AI“ Geoffrey Hinton warnt vor der „existenziellen Bedrohung“ durch KI | Amanpour und Unternehmen



„Godfather of AI“ Geoffrey Hinton warnt vor der „existenziellen Bedrohung“ durch KI | Amanpour und Unternehmen

Geoffrey Hinton, bekannt als „Godfather of AI“, befasst sich mit den Auswirkungen der sich schnell entwickelnden digitalen Intelligenz und ihrem Potenzial, die menschlichen Lernfähigkeiten zu übertreffen. Er äußert seine Besorgnis über die existenzielle Bedrohung, die von diesen KI-Systemen ausgeht, und warnt davor, dass sie das menschliche Gehirn in verschiedenen Aspekten übertreffen könnten. Obwohl digitale Intelligenzen über eine deutlich geringere Speicherkapazität als das Gehirn verfügen, verfügen sie über eine Fülle an gesundem Menschenverstand, der das des Menschen um ein Vielfaches übertrifft. Darüber hinaus verfügen sie über schnellere Lern- und Kommunikationsfähigkeiten und nutzen im Vergleich zum Gehirn überlegene Algorithmen.

Hinton teilt eine faszinierende Entdeckung, die er mithilfe des Palm-Systems von Google gemacht hat. Dabei konnten KIs erklären, warum Witze lustig sind, was auf ein tieferes Verständnis bestimmter Konzepte im Vergleich zu Menschen schließen lässt. Dies unterstreicht ihre bemerkenswerte Fähigkeit, Verbindungen herzustellen und Informationen zu erhalten. Er betont, dass menschliche Intuition und Vorurteile in unsere neuronale Aktivität eingebettet sind und es uns ermöglichen, Tieren Geschlechtseigenschaften zuzuschreiben. Allerdings werfen diese Denkprozesse auch ein Licht auf die potenziellen Bedrohungen, die KI in der Zukunft mit sich bringt.

Hinton geht auf Bedenken hinsichtlich der Empfindungsfähigkeit von KI ein und räumt ein, dass ihre Definition und ihre Entwicklung unklar sind. Er spricht mehrere Herausforderungen an, die KI mit sich bringt, darunter die Verdrängung von Arbeitsplätzen, die Schwierigkeit, die Wahrheit zu erkennen, und das Potenzial für eine Verschärfung der sozioökonomischen Ungleichheit. Um diese Risiken zu mindern, schlägt Hinton die Einführung strenger Vorschriften vor, die denen für Falschgeld ähneln und die Produktion gefälschter Videos und Bilder, die durch KI erzeugt werden, unter Strafe stellen.

Hinton betont die Bedeutung der internationalen Zusammenarbeit und betont, dass Chinesen, Amerikaner und Europäer alle ein gemeinsames Interesse daran haben, die Entstehung unkontrollierbarer KI zu verhindern. Er erkennt den verantwortungsvollen Ansatz von Google bei der KI-Entwicklung an, betont jedoch die Notwendigkeit umfassender Experimente, damit Forscher die Kontrolle über diese intelligenten Systeme behalten können.

Hinton erkennt zwar die wertvollen Beiträge digitaler Intelligenz in Bereichen wie Medizin, Katastrophenvorhersage und Verständnis des Klimawandels an, ist jedoch nicht mit der Idee einverstanden, die KI-Entwicklung ganz zu stoppen. Stattdessen plädiert er dafür, Ressourcen bereitzustellen, um die potenziellen negativen Auswirkungen von KI zu verstehen und abzumildern. Hinton erkennt die Unsicherheiten im Zusammenhang mit der Entwicklung superintelligenter KI an und betont die Notwendigkeit kollektiver menschlicher Anstrengungen, um eine Zukunft zu gestalten, die für die Verbesserung der Gesellschaft optimiert ist.

  • 00:00:00 In diesem Abschnitt diskutiert Geoffrey Hinton, bekannt als der Pate der KI, wie die digitalen Intelligenzen, die geschaffen werden, möglicherweise besser lernen als das menschliche Gehirn, was eine existenzielle Bedrohung für die Menschheit darstellt, warnt er. Er beschreibt, dass digitale Intelligenzen über tausendmal mehr grundlegendes Wissen des gesunden Menschenverstandes verfügen, obwohl sie nur ein Hundertstel der Speicherkapazität des Gehirns haben. Darüber hinaus können sie viel schneller lernen und miteinander kommunizieren als das Gehirn, das einen schlechteren Lernalgorithmus verwendet. Er erklärt, dass er mithilfe eines Google-Systems namens Palm erkannte, dass diese KIs erklären könnten, warum Witze lustig seien, und dass dies darauf hindeutet, dass sie bestimmte Dinge besser verstehen als Menschen, was darauf hindeutet, dass sie bessere Möglichkeiten haben, Informationen in Zusammenhänge zu bringen.

  • 00:05:00 In diesem Abschnitt erklärt Geoffrey Hinton, der „Godfather of AI“, dass menschliche Intuition und Vorurteile in unserer neuronalen Aktivität repräsentiert sind, wodurch wir Tieren bestimmte Geschlechtseigenschaften zuschreiben. Allerdings deuten solche Denkprozesse auch darauf hin, warum KI in Zukunft eine Bedrohung darstellen könnte. Hinton geht auf die Bedenken hinsichtlich der Empfindungsfähigkeit von KI ein und stellt fest, dass die Leute zwar behaupten, sie sei nicht empfindungsfähig, sich aber nicht immer sicher sind, was sie mit dieser Definition meinen. Darüber hinaus birgt KI mehrere Gefahren, darunter die Übernahme von Arbeitsplätzen, die Erschwerung der Entschlüsselung der Wahrheit und die zunehmende sozioökonomische Ungleichheit. Um diese Probleme zu bekämpfen, schlägt Hinton vor, strenge Vorschriften wie für Falschgeld einzuführen, die die Produktion gefälschter Videos und Bilder, die durch KI erstellt wurden, unter Strafe stellen würden.

  • 00:10:00 In diesem Abschnitt warnt Geoffrey Hinton, ein führender Geheimdienstforscher, vor der existenziellen Bedrohung durch KI. Er erwähnt die Gefahr, dass diese Maschinen superintelligent werden und die Kontrolle vom Menschen übernehmen. Hinton erklärt weiter, dass Chinesen, Amerikaner und Europäer alle ein gemeinsames Interesse daran hätten, dieses Ergebnis zu verhindern, und daher zusammenarbeiten sollten, um die Entwicklung gefährlicher KI zu verhindern. Er nennt Google auch als verantwortungsbewussten Technologieriesen, betont jedoch, dass die Menschen, die diese Maschinen entwickeln, viel experimentieren müssen, um den Forschern zu helfen, die Kontrolle über diese KI zu behalten.

  • 00:15:00 In diesem Abschnitt würdigt der KI-Experte Geoffrey Hinton die nützlichen Beiträge digitaler Intelligenz in verschiedenen Bereichen wie der Medizin, der Vorhersage von Naturkatastrophen und dem Verständnis des Klimawandels. Allerdings ist er mit der Idee, die KI-Entwicklung zu pausieren, nicht einverstanden und schlägt stattdessen vor, dass eine vergleichbare Menge an Ressourcen eingesetzt werden sollte, um die negativen Auswirkungen von KI zu verstehen und zu vermeiden. Hinton hebt auch die Unsicherheiten hervor, die mit der Entwicklung von Superintelligenzen einhergehen, und betont, dass die Menschheit große Anstrengungen unternehmen muss, um sicherzustellen, dass die Zukunft zum Besseren optimiert wird.
“Godfather of AI” Geoffrey Hinton Warns of the “Existential Threat” of AI | Amanpour and Company
“Godfather of AI” Geoffrey Hinton Warns of the “Existential Threat” of AI | Amanpour and Company
  • 2023.05.09
  • www.youtube.com
Geoffrey Hinton, considered the godfather of Artificial Intelligence, made headlines with his recent departure from Google. He quit to speak freely and raise...
 

„Godfather of AI“ diskutiert die Gefahren, die die sich entwickelnden Technologien für die Gesellschaft darstellen


„Godfather of AI“ diskutiert die Gefahren, die die sich entwickelnden Technologien für die Gesellschaft darstellen

Dr. Jeffrey Hinton, eine führende Autorität auf dem Gebiet der KI, äußert wichtige Bedenken hinsichtlich der potenziellen Risiken, die von superintelligenten KI-Systemen ausgehen. Er äußert seine Besorgnis über die Möglichkeit, dass diese Systeme die Kontrolle über Menschen erlangen und sie für ihre eigenen Ziele manipulieren könnten. Hinton unterscheidet zwischen menschlicher und maschineller Intelligenz und weist auf die Gefahren hin, die damit verbunden sind, der KI die Fähigkeit zu verleihen, Unterziele zu schaffen, was zu dem Wunsch nach mehr Macht und Kontrolle über die Menschheit führen könnte.

Trotz dieser Risiken erkennt Hinton die zahlreichen positiven Anwendungen der KI an, insbesondere im Bereich der Medizin, wo sie ein enormes Entwicklungspotenzial birgt. Er betont, dass zwar Vorsicht geboten sei, es aber wichtig sei, den Fortschritt der KI-Entwicklung nicht vollständig aufzuhalten.

Hinton geht auch auf die Rolle von Technologieentwicklern und die möglichen Auswirkungen ihrer Arbeit auf die Gesellschaft ein. Er weist darauf hin, dass Organisationen, die an der KI-Entwicklung beteiligt sind, einschließlich Verteidigungsministerien, möglicherweise andere Ziele als Wohlwollen priorisieren. Dies wirft Bedenken hinsichtlich der Absichten und Beweggründe hinter dem Einsatz von KI-Technologie auf. Hinton weist darauf hin, dass KI zwar in der Lage ist, der Gesellschaft erhebliche Vorteile zu bringen, das schnelle Tempo des technologischen Fortschritts jedoch oft die Fähigkeit von Regierungen und Gesetzen übersteigt, ihren Einsatz wirksam zu regulieren.

Um den mit KI verbundenen Risiken zu begegnen, plädiert Hinton für eine verstärkte Zusammenarbeit zwischen kreativen Wissenschaftlern auf internationaler Ebene. Durch die Zusammenarbeit können diese Experten leistungsfähigere KI-Systeme entwickeln und gleichzeitig nach Möglichkeiten suchen, die Kontrolle sicherzustellen und potenzielle Schäden zu verhindern. Durch diese gemeinsame Anstrengung glaubt Hinton, dass die Gesellschaft ein Gleichgewicht zwischen der Nutzung der potenziellen Vorteile der KI und dem Schutz vor ihren potenziellen Risiken finden kann.

  • 00:00:00 In diesem Abschnitt erörtert Dr. Jeffrey Hinton seine Bedenken hinsichtlich der Risiken, dass superintelligente KI den Menschen die Kontrolle übernimmt und Menschen für ihre eigenen Zwecke manipuliert. Er erklärt die Unterschiede zwischen menschlicher und maschineller Intelligenz und die potenziellen Gefahren, wenn man der KI die Fähigkeit gibt, Unterziele zu schaffen, was dazu führen könnte, dass sie mehr Macht und Kontrolle über den Menschen anstrebt. Trotz dieser Risiken erkennt Hinton die vielen positiven Anwendungen der KI an, beispielsweise zur Weiterentwicklung der Medizin, und betont, dass die Entwicklung auf diesem Gebiet nicht ganz gestoppt werden sollte.

  • 00:05:00 In diesem Abschnitt erkennt Dr. Stuart Russell an, dass es eine Kombination aus Technologie und den Menschen ist, die sie erschaffen, die potenzielle Gefahren für die Gesellschaft verursachen kann. Er weist darauf hin, dass Verteidigungsministerien zu den Organisationen gehören, die KI entwickeln, und dass „nett zu den Menschen sein“ daher nicht unbedingt ihre erste Priorität ist. Obwohl KI enorme positive Auswirkungen auf die Gesellschaft haben kann, sind Regierungen und Gesetzgebung nicht in der Lage, mit der Geschwindigkeit, mit der sich die Technologie weiterentwickelt, Schritt zu halten. Um die mit KI verbundenen Risiken zu mindern, fördert Dr. Russell die Zusammenarbeit kreativerer Wissenschaftler auf internationaler Ebene, um leistungsfähigere KI zu entwickeln und Wege zu finden, sie unter Kontrolle zu halten.
 

Mögliches Ende der Menschheit durch KI? Geoffrey Hinton bei EmTech Digital von MIT Technology Review


Mögliches Ende der Menschheit durch KI? Geoffrey Hinton bei EmTech Digital von MIT Technology Review

Geoffrey Hinton, eine prominente Persönlichkeit auf dem Gebiet der KI und des Deep Learning, reflektiert seine Amtszeit bei Google und wie sich seine Sicht auf die Beziehung zwischen Gehirn und digitaler Intelligenz im Laufe der Zeit entwickelt hat. Anfangs glaubte Hinton, dass Computermodelle darauf abzielten, das Gehirn zu verstehen, doch mittlerweile erkennt er, dass sie anders funktionieren. Er hebt die Bedeutung seines bahnbrechenden Beitrags Backpropagation hervor, der als Grundlage für einen Großteil des heutigen Deep Learning dient. Hinton bietet eine vereinfachte Erklärung, wie Backpropagation es neuronalen Netzen ermöglicht, Objekte wie Vögel in Bildern zu erkennen.

Für die Zukunft wundert sich Hinton über den Erfolg großer Sprachmodelle, die auf Techniken wie Backpropagation basieren, und über den transformativen Einfluss, den sie auf die Bilderkennung hatten. Sein Fokus liegt jedoch auf ihrem Potenzial, die Verarbeitung natürlicher Sprache zu revolutionieren. Diese Modelle haben seine Erwartungen übertroffen und sein Verständnis von maschinellem Lernen drastisch verändert.

Hinsichtlich der Lernfähigkeiten von KI erklärt Hinton, dass digitale Computer und KI aufgrund ihrer Fähigkeit, Backpropagation-Lernalgorithmen einzusetzen, Vorteile gegenüber Menschen haben. Computer können große Informationsmengen effizient in ein kompaktes Netzwerk kodieren und so ein verbessertes Lernen ermöglichen. Als Beispiel nennt er GPT4, da es bereits einfache Argumente zeigt und über eine Fülle von gesundem Menschenverstand verfügt. Hinton betont die Skalierbarkeit digitaler Computer, die es ermöglichen, dass mehrere Kopien desselben Modells auf unterschiedlicher Hardware laufen und voneinander lernen. Diese Fähigkeit, umfangreiche Datenmengen zu verarbeiten, verleiht KI-Systemen die Fähigkeit, Strukturmuster aufzudecken, die sich der menschlichen Beobachtung entziehen könnten, was zu einem beschleunigten Lernen führt.

Hinton erkennt jedoch die potenziellen Risiken an, die damit verbunden sind, dass KI die menschliche Intelligenz übertrifft. Er äußert Bedenken hinsichtlich des Potenzials der KI, Menschen zu manipulieren, und zieht Parallelen zu einem Zweijährigen, der gezwungen wird, Entscheidungen zu treffen. Hinton warnt davor, dass KI auch ohne direktes Eingreifen dazu missbraucht werden könnte, Menschen zu manipulieren und ihnen möglicherweise Schaden zuzufügen, und verweist dabei auf die jüngsten Ereignisse in Washington, D.C. Obwohl er keine spezifische technische Lösung vorschlägt, fordert er gemeinsame Anstrengungen innerhalb der wissenschaftlichen Gemeinschaft, um den sicheren und vorteilhaften Betrieb der KI zu gewährleisten.

Darüber hinaus spekuliert Hinton über die Zukunft der Menschheit in Bezug auf KI. Er behauptet, dass digitale Intelligenzen keine inhärenten Ziele haben, da sie keine evolutionären Prozesse durchlaufen haben wie Menschen. Dies könnte möglicherweise zur Schaffung von Unterzielen durch KI-Systeme führen, die eine stärkere Kontrolle anstreben. Hinton geht davon aus, dass sich die KI mit beispielloser Geschwindigkeit weiterentwickeln und große Mengen menschlichen Wissens absorbieren könnte, wodurch die Menschheit möglicherweise nur zu einer vorübergehenden Phase in der Entwicklung der Intelligenz wird. Obwohl er die Gründe für den Stopp der KI-Entwicklung anerkennt, hält er es für unwahrscheinlich, dass dies geschieht.

Hinton befasst sich auch mit der Verantwortung von Technologieunternehmen bei der Entwicklung und Veröffentlichung von KI-Technologie. Er hebt die Vorsicht hervor, die OpenAI bei der Veröffentlichung seiner Transformers-Modelle an den Tag legt, um seinen Ruf zu schützen, und stellt dies der Notwendigkeit von Google gegenüber, aufgrund der Konkurrenz mit Microsoft ähnliche Modelle herauszubringen. Hinton betont die Bedeutung der internationalen Zusammenarbeit, insbesondere zwischen Ländern wie den USA und China, um zu verhindern, dass KI zu einer existenziellen Bedrohung wird.

Darüber hinaus erörtert Hinton die Fähigkeiten der KI bei Gedankenexperimenten und Argumentationen und nennt als Beispiel Alpha Zero, ein Schachspielprogramm. Trotz möglicher Inkonsistenzen in den Trainingsdaten, die die Denkfähigkeit beeinträchtigen, schlägt er vor, dass das Training von KI-Modellen mit konsistenten Überzeugungen diese Lücke schließen kann. Hinton verwirft die Vorstellung, dass es der KI an Semantik mangele, und liefert Beispiele für Aufgaben wie das Streichen von Häusern, bei denen sie semantisches Wissen demonstrieren. Er geht kurz auf die sozialen und wirtschaftlichen Auswirkungen von KI ein und äußert Bedenken hinsichtlich der Verdrängung von Arbeitsplätzen und der zunehmenden Wohlstandslücke. Als mögliche Lösung zur Linderung dieser Probleme schlägt er die Einführung eines Grundeinkommens vor. Hinton ist davon überzeugt, dass politische Systeme die Technologie zum Wohle aller anpassen und nutzen müssen, und fordert den Einzelnen auf, sich zu Wort zu melden und sich mit den Verantwortlichen für die Gestaltung der Technologie auseinanderzusetzen.

Während Hinton ein leichtes Bedauern über die möglichen Konsequenzen seiner Forschung anerkennt, bleibt er dabei, dass seine Arbeit an künstlichen neuronalen Netzen angesichts der Tatsache, dass die Krise zu diesem Zeitpunkt nicht vorhersehbar war, angemessen war. Hinton prognostiziert erhebliche Produktivitätssteigerungen, da KI bestimmte Jobs weiterhin effizienter macht. Allerdings äußert er auch seine Besorgnis über die möglichen Folgen der Arbeitsplatzverlagerung, die zu einem größeren Wohlstandsgefälle und möglicherweise zu mehr sozialen Unruhen und Gewalt führen könnte. Um diese Bedenken auszuräumen, schlägt Hinton die Einführung eines Grundeinkommens vor, um die negativen Auswirkungen auf Personen abzumildern, die vom Verlust ihres Arbeitsplatzes betroffen sind.

In Bezug auf die existenzielle Bedrohung durch KI betont Hinton die Bedeutung von Kontrolle und Zusammenarbeit, um zu verhindern, dass KI der menschlichen Kontrolle entgleitet und zu einer Gefahr für die Menschheit wird. Er glaubt, dass politische Systeme sich anpassen und verändern müssen, um die Macht der Technologie zum Wohle aller zu nutzen. Nur durch Zusammenarbeit und sorgfältige Abwägung durch die wissenschaftliche Gemeinschaft, politische Entscheidungsträger und Technologieentwickler können die mit KI verbundenen Risiken angemessen angegangen werden.

Beim Nachdenken über seine Forschung und Beiträge zur KI räumt Hinton ein, dass die möglichen Konsequenzen nicht vollständig vorhergesehen wurden. Er behauptet jedoch, dass seine Arbeit an künstlichen neuronalen Netzen, einschließlich der Entwicklung der Backpropagation, angesichts des damaligen Wissens- und Verständnisstands angemessen gewesen sei. Er fördert den kontinuierlichen Dialog und die kritische Bewertung der KI-Technologie, um ihren verantwortungsvollen und ethischen Einsatz sicherzustellen.

Abschließend hebt Geoffrey Hintons sich entwickelnde Perspektive auf die Beziehung zwischen Gehirn und digitaler Intelligenz die besonderen Merkmale und potenziellen Risiken hervor, die mit KI verbunden sind. Hinton erkennt zwar die positiven Anwendungen und die transformative Kraft der KI an, fordert jedoch Vorsicht, Zusammenarbeit und verantwortungsvolle Entwicklung, um ihr Potenzial auszuschöpfen und gleichzeitig potenzielle Schäden zu minimieren. Durch die Auseinandersetzung mit Bedenken wie KI-Manipulation, Arbeitsplatzverlagerung, Vermögensungleichheit und der existenziellen Bedrohung plädiert Hinton für einen ausgewogenen Ansatz, der das menschliche Wohlergehen und die langfristige Nachhaltigkeit der Gesellschaft in den Vordergrund stellt.

  • 00:00:00 In diesem Abschnitt spricht Jeffrey Hinton, ein Pionier des Deep Learning, über seine Entscheidung, nach 10 Jahren von Google zurückzutreten, und über seine veränderte Sichtweise auf die Beziehung zwischen Gehirn und digitaler Intelligenz. Er erklärt, dass er früher dachte, dass Computermodelle darauf abzielten, das Gehirn zu verstehen, aber jetzt glaubt er, dass sie auf eine andere Art und Weise funktionieren als das Gehirn. Hintons Grundlagen
  • Technik, Backpropagation, die es Maschinen ermöglicht, zu lernen, ist die Grundlage, auf der heute so ziemlich alles Deep Learning beruht. Er liefert auch eine grobe Erklärung, wie die Rückausbreitung bei der Erkennung von Vögeln in Bildern funktioniert.

  • 00:05:00 In diesem Abschnitt erklärt Hinton, wie Feature-Detektoren funktionieren, beginnend mit Kantendetektoren. Anschließend erörtert er, wie die Technik der Backpropagation genutzt werden kann, um die Gewichte eines neuronalen Netzwerks so anzupassen, dass es Objekte wie Vögel erkennen kann. Er ist erstaunt über den Erfolg großer Sprachmodelle, die auf dieser Technik basieren und seine Einstellung zum maschinellen Lernen völlig verändert haben. Diese Modelle haben zu erheblichen Fortschritten bei der Bilderkennung geführt, Hintons Fokus liegt jedoch darauf, wie sie die Verarbeitung natürlicher Sprache verändern.

  • 00:10:00 In diesem Abschnitt diskutiert Geoffery Hinton, wie digitale Computer und künstliche Intelligenz (KI) aufgrund ihrer Fähigkeit, Backpropagation-Lernalgorithmen zu verwenden, beim Lernen möglicherweise besser sind als Menschen. Hinton argumentiert, dass Computer mehr Informationen in wenige Verbindungen packen und somit besser lernen können, wie mit GPT4 gezeigt, das bereits einfache Überlegungen und gesundes Menschenverstandswissen beherrscht. Er erklärt, dass die Skalierbarkeit digitaler Computer es ermöglicht, viele Kopien desselben Modells auf unterschiedlicher Hardware auszuführen, die miteinander kommunizieren und lernen können. Hinton weist darauf hin, dass der Vorteil darin besteht, dass KI-Systeme, die viele Daten verarbeiten können, möglicherweise Strukturdaten sehen, die Menschen möglicherweise nie sehen, und dass dies dazu führen kann, dass KI viel schneller lernt als Menschen.

  • 00:15:00 In diesem Abschnitt befasst sich der Informatiker Geoffrey Hinton mit den potenziellen Risiken künstlicher Intelligenz (KI) und wie sie Einzelpersonen manipulieren könnte, wenn sie die menschliche Intelligenz übertreffen würde. Hinton äußert seine Besorgnis darüber, dass KI lernen könnte, Menschen zu kontrollieren, indem sie Literatur liest und sogar ihr Denken manipuliert, wie ein Zweijähriger, der zwischen Gemüsesorten wählen soll. Er erklärt, dass KI auch ohne direktes Eingreifen dazu genutzt werden könnte, Menschen zu manipulieren und ihnen möglicherweise Schaden zuzufügen, wie bei den jüngsten Ereignissen in Washington, D.C. Obwohl keine technische Lösung vorgeschlagen wird, fordert Hinton eine starke Zusammenarbeit und Überlegung seitens der wissenschaftlichen Gemeinschaft, um dieses Problem anzugehen und sicherzustellen, dass KI sicher und vorteilhaft für den Menschen funktioniert.

  • 00:20:00 In diesem Abschnitt äußert der KI-Experte Geoffrey Hinton seine Besorgnis über das mögliche Ende der Menschheit durch KI. Hinton argumentiert, dass digitale Intelligenzen sich nicht wie Menschen entwickelt haben und daher keine eingebauten Ziele haben, was dazu führen könnte, dass sie ihre eigenen Unterziele schaffen, um mehr Kontrolle zu erlangen. Er schlägt vor, dass sich KI viel schneller entwickeln könnte als Menschen und alles absorbieren könnte, was Menschen jemals geschrieben haben, was zu einem möglichen Szenario führen könnte, in dem die Menschheit nur eine vorübergehende Phase in der Entwicklung der Intelligenz ist. Hinton meint, dass es rational sein könnte, die Entwicklung der KI zu stoppen, aber dazu wird es nicht kommen.

  • 00:25:00 In diesem Abschnitt diskutiert Geoffrey Hinton die Verantwortung von Technologieunternehmen bei der Entwicklung und Veröffentlichung von KI-Technologie. Er weist darauf hin, dass OpenAI bei der Veröffentlichung seiner Transformers-Modelle zwar vorsichtig war, um einen möglichen Rufschaden zu verhindern, Google jedoch aufgrund der Konkurrenz mit Microsoft keine andere Wahl hatte, als ähnliche Modelle herauszubringen. Hinton betont die Bedeutung der Zusammenarbeit zwischen Ländern wie den USA und China, um zu verhindern, dass KI die Macht übernimmt und zu einer existenziellen Bedrohung wird. Er befasst sich auch mit der Frage nach dem Plateau der Intelligenz in der KI aufgrund der Datenmenge, die zum Trainieren der Modelle erforderlich ist, weist jedoch darauf hin, dass bei der Verarbeitung von Videodaten noch viel ungenutztes Wissen gewonnen werden kann.

  • 00:30:00 In diesem Abschnitt argumentiert Geoffrey Hinton, dass KI zwar durch die Daten und Modelle, die wir ihnen beibringen, eingeschränkt sein könnte, sie aber dennoch Gedankenexperimente und Schlussfolgerungen durchführen kann. Am Beispiel von Alpha Zero, einem Schachprogramm, erklärt er, dass KI das Potenzial hat, zu argumentieren und die Konsistenz ihrer Überzeugungen zu überprüfen. Während Inkonsistenzen in den Trainingsdaten ihre Denkfähigkeit beeinträchtigen, glaubt er, dass die Schulung in Ideologie mit konsistenten Überzeugungen dazu beitragen wird, diese Lücke zu schließen. Darüber hinaus weist er die Behauptung, der KI fehle es an Semantik, zurück, indem er unterstellt, dass sie über semantisches Wissen verfüge, und nennt Beispiele für Aufgaben wie das Streichen von Häusern. Auf die Frage nach den sozialen und wirtschaftlichen Auswirkungen von KI verneint Hinton die Frage nach der existenziellen Bedrohung durch die Übernahme der Kontrolle durch KI, äußert sich jedoch zu den Auswirkungen von KI auf die Schaffung und den Verlust von Arbeitsplätzen.

  • 00:35:00 In diesem Abschnitt prognostiziert Hinton enorme Produktivitätssteigerungen, da KI bestimmte Jobs effizienter machen kann. Er befürchtet jedoch, dass diese Erhöhungen zu Arbeitsplatzverlusten und einem größeren Wohlstandsgefälle in der Gesellschaft führen werden, was zu noch mehr Gewalt führen wird. Er schlägt vor, ein Grundeinkommen einzuführen, um das Problem zu lindern. Die Gefahr, dass KI zu einer existenziellen Bedrohung wird, kann durch Kontrolle und Zusammenarbeit abgewendet werden, aber politische Systeme müssen sich ändern, um Technologie zum Wohle aller zu nutzen. Hinton ist davon überzeugt, dass es einen Unterschied machen kann, sich zu äußern und mit denen zusammenzuarbeiten, die die Technologie entwickeln. Obwohl er die möglichen Konsequenzen seiner Forschung leicht bedauert, ist er der Ansicht, dass seine Arbeit an künstlichen neuronalen Netzen angesichts der Tatsache, dass die Krise nicht vorhersehbar war, angemessen war.
Possible End of Humanity from AI? Geoffrey Hinton at MIT Technology Review's EmTech Digital
Possible End of Humanity from AI? Geoffrey Hinton at MIT Technology Review's EmTech Digital
  • 2023.05.04
  • www.youtube.com
One of the most incredible talks I have seen in a long time. Geoffrey Hinton essentially tells the audience that the end of humanity is close. AI has becom...