Sie verpassen Handelsmöglichkeiten:
- Freie Handelsapplikationen
- Über 8.000 Signale zum Kopieren
- Wirtschaftsnachrichten für die Lage an den Finanzmärkte
Registrierung
Einloggen
Sie stimmen der Website-Richtlinie und den Nutzungsbedingungen zu.
Wenn Sie kein Benutzerkonto haben, registrieren Sie sich
Vorlesung 12.3 – Eingeschränkte Boltzmann-Maschinen
Vorlesung 12.3 – Eingeschränkte Boltzmann-Maschinen [Neuronale Netze für maschinelles Lernen]
Boltzmann-Maschinen verfügen über eine vereinfachte Architektur ohne Verbindungen zwischen verborgenen Einheiten, sodass sich die Gleichgewichtsverteilung der verborgenen Einheiten leicht berechnen lässt, wenn die sichtbaren Einheiten festgehalten werden. Der Lernalgorithmus für Boltzmann-Maschinen ist langsam, aber 1998 wurde eine Abkürzung entdeckt, die zu einem effizienten Lernalgorithmus für eingeschränkte Boltzmann-Maschinen (RBMs) führte. RBMs verfügen über eine eingeschränkte Konnektivität, mit einer Schicht versteckter Einheiten und keinen Verbindungen zwischen versteckten oder sichtbaren Einheiten. Die RBM-Architektur ist ein zweiteiliger Graph mit unabhängigen Berechnungen für jede Einheit.
Die Verknüpfung ermöglicht eine schnelle Berechnung der erwarteten Werte von Verbindungen zwischen sichtbaren und verborgenen Einheiten parallel. Ein 2008 eingeführter Lernalgorithmus für RBMs beinhaltet das Festklemmen eines Datenvektors auf den sichtbaren Einheiten, das Berechnen der erwarteten Werte von Verbindungen und deren Mittelung über die Datenvektoren im Mini-Batch. In der negativen Phase werden Fantasiepartikel (globale Konfigurationen) verwendet, um jedes Partikel einige Male zu aktualisieren, und die erwarteten Werte der Verbindungen werden über die Fantasiepartikel gemittelt. Dieser Algorithmus erstellt gute Dichtemodelle für binäre Vektoren.
Ein anderer Lernalgorithmus für RBMs ist schneller, aber beim Erstellen von Dichtemodellen nicht so effektiv. Dabei wird eine abwechselnde Aktualisierungskette zwischen sichtbaren und verborgenen Einheiten ausgeführt. Die Lernregel aktualisiert die Gewichtungen basierend auf der Differenz zwischen den erwarteten Werten der Verbindungen am Anfang und Ende der Kette. Es ist nicht notwendig, die Kette über einen längeren Zeitraum laufen zu lassen, um ein thermisches Gleichgewicht zu erreichen. Selbst eine kurze Kette führt zu effektivem Lernen.
Die Abkürzung funktioniert, weil die Markov-Kette von den Daten weg in Richtung der Gleichgewichtsverteilung wandert. Durch Ändern der Gewichte, um die Wahrscheinlichkeit von Rekonstruktionen zu verringern und die Wahrscheinlichkeit der Daten nach einem vollständigen Schritt zu erhöhen, weicht die Kette nicht mehr von den Daten ab. Das Lernen stoppt, wenn die Daten und die Rekonstruktionen die gleiche Verteilung haben. Die Energieoberfläche im Raum globaler Konfigurationen wird modifiziert, um beim Lernen ein Energieminimum am Datenpunkt zu erzeugen.
Allerdings schlägt die Verknüpfung für Regionen fehl, die weit von den Daten entfernt sind. Persistente Partikel, die sich ihren Zustand merken und weitere Aktualisierungen durchlaufen, können zur Lösung dieses Problems beitragen. Ein Kompromiss zwischen Geschwindigkeit und Korrektheit besteht darin, mit kleinen Gewichten zu beginnen und mit zunehmenden Gewichten die kontrastive Divergenz (CD) mit einigen Schritten (CD-1, CD-3, CD-5 usw.) zu verwenden. Dieser Ansatz sorgt für effektives Lernen, auch wenn die Mischungsrate der Markov-Kette abnimmt.
Mit diesem Ansatz schafft der Lernalgorithmus für eingeschränkte Boltzmann-Maschinen (RBMs) ein Gleichgewicht zwischen Geschwindigkeit und Genauigkeit. Es beginnt mit kleinen Gewichten und nutzt kontrastive Divergenz (CD) mit einer kleinen Anzahl von Schritten, wie z. B. CD-1, während die Gewichte allmählich zunehmen. Diese Strategie stellt sicher, dass der Lernprozess auch dann einigermaßen gut funktioniert, wenn die Mischgeschwindigkeit der Markov-Kette langsamer wird.
Es ist wichtig, Regionen des Datenraums zu berücksichtigen, die vom Modell bevorzugt werden, aber weit von tatsächlichen Datenpunkten entfernt sind. Diese Regionen, die als Löcher mit niedriger Energie bezeichnet werden, können Probleme mit dem Normalisierungsterm verursachen. Um dieses Problem anzugehen, kann eine Technik namens persistente Partikel eingesetzt werden. Persistente Partikel behalten ihren Zustand bei und werden nach jeder Gewichtsaktualisierung weiteren Aktualisierungen unterzogen. Auf diese Weise können sie diese Niedrigenergielöcher erkunden und schließlich füllen, wodurch die Leistung des Modells verbessert wird.
Der RBM-Lernalgorithmus, der die Abkürzung und verschiedene Techniken verwendet, wie z. B. CD mit unterschiedlicher Anzahl von Schritten und die Verwendung persistenter Partikel, ermöglicht effizientes Lernen und die Konstruktion effektiver Dichtemodelle für Sätze binärer Vektoren. Obwohl die Abkürzung vom Maximum-Likelihood-Lernen abweicht und theoretische Einschränkungen aufweist, hat sie sich in der Praxis als gut bewährt, was zu einem Wiederaufleben des Interesses am Boltzmann-Maschinenlernen geführt hat.
Vorlesung 12.4 – Ein Beispiel für RBM-Lernen
Vorlesung 12.4 – Ein Beispiel für RBM-Lernen [Neuronale Netze für maschinelles Lernen]
In diesem Video zeigen wir ein einfaches Beispiel einer eingeschränkten Boltzmann-Maschine (RBM), die ein Modell handgeschriebener Zweier lernt. Sobald das Modell trainiert ist, werden wir seine Fähigkeit bewerten, Zweien zu rekonstruieren, und sein Verhalten beobachten, wenn eine andere Ziffer zur Rekonstruktion gegeben wird. Darüber hinaus werden wir die Gewichte untersuchen, die durch das Training eines größeren RBM für alle Ziffernklassen erhalten werden, das eine breite Palette von Funktionen erlernt, die für die Rekonstruktion und Modellierung verschiedener Ziffernklassen effektiv sind.
Das in diesem Beispiel verwendete RBM verfügt über 16 x 16 Pixel große Zweierbilder und 50 binäre versteckte Einheiten, die als Merkmalsdetektoren fungieren. Wenn ein Datenfall angezeigt wird, aktiviert das RBM die Merkmalsdetektoren mithilfe der Gewichtungen und Verbindungen von Pixeln zu Merkmalsdetektoren. Jedes binäre Neuron trifft eine stochastische Entscheidung, einen Zustand von 1 oder 0 anzunehmen. Das RBM verwendet diese Aktivierungen dann, um die Daten zu rekonstruieren, indem es für jedes Pixel binäre Entscheidungen trifft. Die Gewichte werden aktualisiert, indem die Gewichte zwischen aktiven Pixeln und aktiven Merkmalsdetektoren während der Datenverarbeitung erhöht und während der Rekonstruktion verringert werden.
Zu Beginn sind die Gewichte zufällig und die Rekonstruktionen haben eine niedrigere Energie als die Daten. Durch Training an Hunderten von Ziffernbeispielen und Gewichtsanpassungen bilden die Gewichte nach und nach Muster. Viele Feature-Detektoren beginnen als globale Detektoren und werden mit fortschreitendem Training immer lokalisierter. Die endgültigen Gewichte zeigen, dass jedes Neuron zu einem anderen Merkmalsdetektor geworden ist, wobei die meisten Detektoren lokaler Natur sind. Beispielsweise kann ein Merkmalsdetektor die Spitze einer Zwei erkennen, indem er seine weißen Pixel aktiviert, wenn die Spitze einer Zwei vorhanden ist, und seine schwarzen Pixel, wenn nichts vorhanden ist.
Nachdem wir das Modell kennengelernt haben, können wir seine Rekonstruktionsfähigkeiten beurteilen. Bei einem Testbeispiel einer Zwei ist die Rekonstruktion im Allgemeinen originalgetreu, wenn auch etwas verschwommen. Wenn wir jedoch ein Testbeispiel aus einer anderen Ziffernklasse bereitstellen, beispielsweise einer Drei, rekonstruiert der RBM ein Bild, das eher einer Zwei als einer Drei ähnelt. Dieses Verhalten tritt auf, weil das RBM hauptsächlich Merkmalsdetektoren speziell für Zweien gelernt hat und Detektoren für bestimmte Merkmale anderer Ziffern fehlen.
Darüber hinaus stellen wir Feature-Detektoren vor, die in der ersten verborgenen Schicht eines größeren RBM gelernt wurden, das auf allen zehn Ziffernklassen trainiert wurde. Diese Merkmalsdetektoren weisen eine große Vielfalt an Mustern auf. Einige erkennen spezifische Merkmale wie schräge Linien, während andere weitreichende oder räumliche Regelmäßigkeiten erfassen, die durch die Normalisierung der Daten entstehen. Insgesamt demonstriert das RBM seine Fähigkeit, komplexe Methoden zur Darstellung und Erkennung von Merkmalen in den Eingabedaten zu erlernen.
Darüber hinaus möchte ich darauf hinweisen, dass das in dieser Demonstration verwendete RBM aus 500 versteckten Einheiten besteht, sodass alle zehn Ziffernklassen modelliert werden können. Dieses Modell wurde umfassend mit einer Technik namens kontrastive Divergenz trainiert. Infolgedessen verfügt es über einen vielfältigen Satz an Merkmalsdetektoren.
Bei der Untersuchung der Merkmalsdetektoren in der verborgenen Schicht beobachten wir faszinierende Muster. Beispielsweise gibt es einen Merkmalsdetektor, der durch das blaue Kästchen gekennzeichnet ist und geeignet erscheint, das Vorhandensein diagonaler Linien zu erkennen. Andererseits weist der Merkmalsdetektor im roten Feld eine einzigartige Eigenschaft auf. Es bevorzugt die Aktivierung von Pixeln, die sich ganz unten im Bild befinden, und lehnt Pixel in einer bestimmten Zeile ab, die 21 Pixel über dem unteren Rand positioniert sind. Dieses Verhalten ist auf die Normalisierung der Daten zurückzuführen, bei der Ziffern eine Höhe von 20 Pixeln nicht überschreiten dürfen. Folglich kann ein Pixel, das im Bereich mit positivem Gewicht aktiviert wird, nicht gleichzeitig im Bereich mit negativem Gewicht aktiviert werden, was dazu führt, dass diese Regelmäßigkeit über große Entfernungen gelernt wird.
Darüber hinaus weist ein weiterer Merkmalsdetektor, der im grünen Feld hervorgehoben ist, eine interessante Eigenschaft auf. Es erkennt die untere Position eines vertikalen Strichs und kann ihn in mehreren Positionen erkennen, wobei Zwischenpositionen außer Acht gelassen werden. Dieses Verhalten ähnelt der niedrigstwertigen Ziffer einer Binärzahl, die mit zunehmender Größe der Zahl zwischen aktiv und inaktiv wechselt. Es zeigt die Fähigkeit des RBM, komplexe Darstellungen räumlicher Beziehungen und Positionen zu entwickeln.
Diese Beispiele veranschaulichen die Fähigkeit des RBM, aus den Eingabedaten zu lernen und aussagekräftige Merkmale zu extrahieren. Durch die Anpassung der Gewichte während des Lernprozesses zielt das RBM darauf ab, den Daten eine niedrige Energie zu verleihen und gleichzeitig eine höhere Energie für die Rekonstruktionen beizubehalten. Dieser Lernmechanismus ermöglicht es dem RBM, Ziffernbilder effektiv zu modellieren und zu rekonstruieren und dabei sowohl globale als auch lokale Merkmale der Ziffern in seinen erlernten Darstellungen zu erfassen.
Vorlesung 12.5 – RBMs für kollaboratives Filtern
Vorlesung 12.5 – RBMs für kollaboratives Filtern [Neuronale Netze für maschinelles Lernen]
In diesem Video diskutieren wir die Anwendung von Restricted Boltzmann Machines (RBMs) bei der kollaborativen Filterung, insbesondere im Kontext des Netflix-Wettbewerbs. Beim kollaborativen Filtern geht es darum, anhand seiner Präferenzen für andere Produkte und der Präferenzen anderer Benutzer vorherzusagen, wie sehr sich ein Benutzer ein Produkt wünschen würde. Beim Netflix-Wettbewerb müssen die Teilnehmer anhand ihrer Bewertungen anderer Filme vorhersagen, wie sehr einem Nutzer ein Film gefallen wird.
Die Trainingsdaten für diesen Wettbewerb bestehen aus einem großen Datensatz mit hundert Millionen Bewertungen für achtzehntausend Filme von einer halben Million Nutzern. Um das Problem fehlender Bewertungen für die meisten Filme zu bewältigen, wird bei der Verwendung von RBMs ein wichtiger Trick angewendet. Mit diesem Trick können Modelle effektiv trainiert werden und sich in der Praxis als nützlich erweisen, wie der Gewinnerbeitrag des Wettbewerbs zeigt.
Der Ansatz, RBMs für die kollaborative Filterung zu verwenden, besteht darin, jeden Benutzer als Trainingsfall zu behandeln, wobei jeder Benutzer als Vektor von Filmbewertungen dargestellt wird. Für jeden Film wird anstelle von Binäreinheiten eine sichtbare Einheit mit fünf Alternativwerten (Fünf-Wege-Softmax) verwendet. Die RBM-Architektur besteht aus sichtbaren Einheiten, die Filme darstellen, und binären versteckten Einheiten. Die RBMs teilen die Gewichtungen unter Benutzern, die denselben Film bewertet haben, was eine Gewichtsverteilung ermöglicht und die Anzahl der Parameter reduziert. CD-Lernen (kontrastive Divergenz) wird angewendet, um die RBMs zu trainieren, zunächst mit CD1 und später mit CD3, CD5 und CD9.
Die Leistung der RBM-Modelle ist mit Matrixfaktorisierungsmethoden vergleichbar, die üblicherweise bei der kollaborativen Filterung verwendet werden. Sie führen jedoch zu unterschiedlichen Fehlern. Die Kombination der Vorhersagen von RBMs mit denen von Matrixfaktorisierungsmodellen führt zu erheblichen Verbesserungen. Die Gewinnergruppe im Netflix-Wettbewerb nutzte mehrere RBM-Modelle und Matrixfaktorisierungsmodelle in ihrem Ensemble, um bessere Vorhersagen zu erzielen.
Zusammenfassend lässt sich sagen, dass die Anwendung von Restricted Boltzmann Machines (RBMs) bei der kollaborativen Filterung für den Netflix-Wettbewerb darin bestand, jeden Benutzer als Trainingsfall zu behandeln und RBMs mit sichtbaren Einheiten, die Filme darstellen, und binären, versteckten Einheiten zu verwenden. Durch die Gewichtsverteilung zwischen Benutzern, die denselben Film bewertet haben, können die RBMs den großen Datensatz effektiv verarbeiten.
Die RBMs wurden mithilfe von CD-Lernen mit Iterationen von CD1, CD3, CD5 und CD9 trainiert und funktionierten ähnlich wie Matrixfaktorisierungsmodelle, die üblicherweise bei der kollaborativen Filterung verwendet werden. Die Kombination von RBMs und Matrixfaktorisierungsmodellen führte jedoch zu einer deutlichen Verbesserung der Vorhersagen. Der Gewinnerbeitrag im Netflix-Wettbewerb nutzte mehrere RBM-Modelle und Matrixfaktorisierungsmodelle in ihrem Ensemble und demonstrierte damit die Wirksamkeit dieses Ansatzes.
Die Verwendung von RBMs bei der kollaborativen Filterung zeigt ihre Fähigkeit, große und spärliche Datensätze zu verarbeiten, wie beispielsweise den Netflix-Datensatz mit Millionen von Bewertungen. Durch die Modellierung der Beziehungen zwischen Benutzern und Filmen stellen RBMs ein leistungsstarkes Werkzeug für genaue Vorhersagen und die Verbesserung von Empfehlungssystemen dar.
Die erfolgreiche Anwendung von RBMs bei der kollaborativen Filterung zeigt deren Nützlichkeit im Bereich maschinelles Lernen und Empfehlungssysteme und unterstreicht das Potenzial für die Verwendung von Ensemble-Ansätzen zur weiteren Verbesserung der Vorhersagegenauigkeit.
Vorlesung 13.1 – Die Höhen und Tiefen der Backpropagation
Vorlesung 13.1 – Die Höhen und Tiefen der Backpropagation [Neuronale Netze für maschinelles Lernen]
Das Video diskutiert die Geschichte der Backpropagation, beleuchtet ihre Ursprünge in den 1970er und 1980er Jahren und warum sie in den 1990er Jahren in Ungnade fiel. Es stellt die weit verbreitete Annahme in Frage, dass Backpropagation aufgrund der Unfähigkeit, mehrere Schichten nichtlinearer Merkmale zu verarbeiten, fehlgeschlagen ist. Die Hauptgründe für die Aufgabe waren vielmehr die damals begrenzte Rechenleistung und die geringen verfügbaren Datenmengen.
Die Backpropagation wurde mehrfach unabhängig voneinander von verschiedenen Forschern erfunden, darunter Bryson und Ho in den späten 1960er Jahren, Paul Wallace im Jahr 1974, Rama Hart und Williams im Jahr 1981, David Parker und Youngocar im Jahr 1985. Anfangs funktionierte sie für bestimmte Aufgaben nicht gut. was dazu führt, dass Forscher es aufgeben. Im Jahr 1986 wurde jedoch in einem Artikel das Potenzial demonstriert, mehrere Schichten nichtlinearer Merkmalsdetektoren zu erlernen.
Ende der 1990er Jahre hatten die meisten Forscher im Bereich maschinelles Lernen die Backpropagation aufgegeben und stattdessen Support Vector Machines (SVMs) bevorzugt. Die gängige Erklärung war, dass Backpropagation mit mehreren verborgenen Schichten und wiederkehrenden Netzwerken zu kämpfen hatte. Aus historischer Sicht waren die wahren Gründe für das Scheitern jedoch die begrenzte Rechenleistung und die kleinen beschrifteten Datensätze, die verhinderten, dass die Backpropagation bei komplexen Aufgaben wie Sehen und Sprechen glänzen konnte.
Verschiedene Arten von maschinellen Lernaufgaben stellen unterschiedliche Anforderungen. In der Statistik müssen bei niedrigdimensionalen Daten mit Rauschen die wahre Struktur und das Rauschen getrennt werden. Bayesianische neuronale Netze können damit gut umgehen, während nicht-Bayesianische neuronale Netze wie Backpropagation nicht so effektiv sind. Für solche Aufgaben sind Support-Vektor-Maschinen und Gauß-Prozesse besser geeignet. In der künstlichen Intelligenz müssen für hochdimensionale Daten mit komplexer Struktur geeignete Darstellungen gefunden werden, die durch Backpropagation durch die Nutzung mehrerer Schichten und ausreichender Rechenleistung erlernt werden können.
Die Einschränkungen von Support-Vektor-Maschinen werden diskutiert, wobei darauf hingewiesen wird, dass sie als Erweiterung von Perzeptronen mit dem Kernel-Trick angesehen werden. Sie basieren auf nicht adaptiven Funktionen und einer Schicht adaptiver Gewichte. Obwohl sie gut funktionieren, können sie nicht mehrere Ebenen der Darstellung erlernen. Das Video erwähnt auch kurz ein historisches Dokument aus dem Jahr 1995, eine Wette zwischen Larry Jackel und Vladimir Vapnik über das theoretische Verständnis und die zukünftige Verwendung großer neuronaler Netze, die mit Backpropagation trainiert wurden. Letztlich erwiesen sich beide Seiten als falsch, da die Einschränkungen eher praktischer als theoretischer Natur waren.
Das Scheitern der Backpropagation in den 1990er Jahren ist eher auf die Einschränkungen der Rechenleistung und der kleinen Datensätze als auf die inhärenten Fähigkeiten zurückzuführen. Es hatte immer noch Potenzial für komplexe Aufgaben und wurde schließlich erfolgreich, als größere Datensätze und leistungsfähigere Computer verfügbar wurden. Das Video betont, wie wichtig es ist, bei der Auswahl der geeigneten Algorithmen verschiedene maschinelle Lernaufgaben und ihre spezifischen Anforderungen zu berücksichtigen.
Vorlesung 13.2 – Glaubensnetze
Vorlesung 13.2 – Glaubensnetze [Neuronale Netze für maschinelles Lernen]
Ich habe die Backpropagation in den 1990er-Jahren aufgegeben, weil sie auf eine große Anzahl von Labels angewiesen war, die damals rar waren. Mich inspirierte jedoch der Erfolg des Lernens mit wenigen eindeutigen Bezeichnungen. Um die Vorteile des Gradientenabstiegslernens zu bewahren, ohne dass umfangreiche Beschriftungen erforderlich sind, habe ich alternative Zielfunktionen untersucht. Generative Modelle, die darauf abzielen, Eingabedaten zu modellieren und nicht Etiketten vorherzusagen, passten gut zu diesem Ziel. Grafische Modelle, ein Konzept, das diskrete Graphstrukturen mit realwertigen Berechnungen kombiniert, erwiesen sich als vielversprechender Ansatz in der Statistik und künstlichen Intelligenz. Während Boltzmann-Maschinen frühe Beispiele für ungerichtete grafische Modelle waren, führte Bradford Neil 1992 gerichtete grafische Modelle namens Sigmoid-Glaubensnetze ein, die ähnliche Einheiten wie Boltzmann-Maschinen verwendeten. Die Herausforderung bestand dann darin, diese Sigmoid-Glaubensnetze zu erlernen.
Beim Erlernen des Sigmoid-Glaubens sind bei Nets mehrere Probleme aufgetreten. Tiefe Netzwerke mit mehreren verborgenen Schichten litten unter langsamem Lernen. Es wurde festgestellt, dass eine schlechte Gewichtsinitialisierung zu diesem Problem beitrug. Backpropagation neigte auch dazu, in suboptimalen lokalen Optima stecken zu bleiben, die zwar einigermaßen gut, aber für tiefe Netze alles andere als optimal waren. Ein Rückzug auf einfachere Modelle, die eine konvexe Optimierung ermöglichten, war zwar möglich, wurde jedoch nicht der Komplexität realer Daten gerecht. Um diese Einschränkungen zu überwinden, erwies sich unüberwachtes Lernen als Lösung. Durch den Einsatz von unbeaufsichtigtem Lernen könnten wir die Effizienz und Einfachheit von Gradientenmethoden und stochastischen Mini-Batch-Abstieg zur Gewichtsanpassung nutzen. Der Schwerpunkt verlagerte sich jedoch auf die Modellierung der Struktur sensorischer Eingaben statt auf die Eingabe-Ausgabe-Beziehung. Die Gewichte würden angepasst, um die Wahrscheinlichkeit zu maximieren, dass das generative Modell den beobachteten sensorischen Input erzeugt.
Es traten zwei Hauptprobleme auf: das Inferenzproblem und das Lernproblem. Das Inferenzproblem bestand darin, die Zustände unbeobachteter Variablen abzuleiten, mit dem Ziel, Wahrscheinlichkeitsverteilungen über diese Variablen abzuleiten, da sie nicht unabhängig voneinander waren. Das Lernproblem bestand darin, die Interaktionen zwischen Variablen anzupassen, um die Wahrscheinlichkeit zu erhöhen, dass das Netzwerk die Trainingsdaten generiert. Dabei ging es darum, zu bestimmen, welche Knoten andere beeinflussten und wie stark ihre Wirkung war.
Die Verbindung von grafischen Modellen und neuronalen Netzen hatte eine einzigartige Dynamik. Frühe grafische Modelle stützten sich auf von Experten definierte Graphstrukturen und bedingte Wahrscheinlichkeiten mit dem Ziel, das Inferenzproblem zu lösen. Andererseits priorisierten neuronale Netze das Lernen und vermieden die manuelle Verkabelung von Wissen. Obwohl es den neuronalen Netzen an Interpretierbarkeit und spärlicher Konnektivität für einfache Schlussfolgerungen mangelte, hatten sie den Vorteil, aus Trainingsdaten zu lernen. Es wurden jedoch neuronale Netzversionen von Glaubensnetzen entwickelt. Bei der Konstruktion generativer Modelle mithilfe idealisierter Neuronen entstanden zwei Arten: energiebasierte Modelle und kausale Modelle. Energiebasierte Modelle nutzten symmetrische Verbindungen zwischen binären stochastischen Neuronen, was zu Boltzmann-Maschinen führte. Während sich das Erlernen von Boltzmann-Maschinen als Herausforderung erwies, erleichterte die Einschränkung der Konnektivität das Lernen für eingeschränkte Boltzmann-Maschinen. Allerdings schränkte dieser Ansatz die Leistungsfähigkeit neuronaler Netze mit mehreren verborgenen Schichten ein. Kausalmodelle, die gerichtete azyklische Graphen mit binären stochastischen Neuronen verwendeten, führten zu Sigmoid-Glaubensnetzen. Im Jahr 1992 zeigte Neil, dass Sigmoid-Glaubensnetze im Vergleich zu Boltzmann-Maschinen etwas einfacher zu erlernen waren. In einem Sigmoid-Glaubensnetz sind alle Variablen binäre stochastische Neuronen, und bei der Datengenerierung werden stochastische Entscheidungen Schicht für Schicht getroffen, um letztendlich unverzerrte Stichproben sichtbarer Werte zu erzeugen.
Durch die Einführung von Kausalmodellen oder hybriden Ansätzen könnten wir die Einschränkungen der Backpropagation überwinden und unbeaufsichtigtes Lernen nutzen, um die Struktur sensorischer Eingaben effektiv zu modellieren.
Bevor wir uns mit kausalen Glaubensnetzen aus Neuronen befassen, ist es wichtig, einige Hintergrundinformationen zum Zusammenhang zwischen künstlicher Intelligenz (KI) und Wahrscheinlichkeit zu liefern. In den 1970er und frühen 1980er Jahren gab es innerhalb der KI-Gemeinschaft einen starken Widerstand gegenüber Wahrscheinlichkeiten. Die Wahrscheinlichkeit wurde als ungünstig angesehen, und KI-Forscher bevorzugten die diskrete Symbolverarbeitung ohne Einbeziehung probabilistischer Elemente. Eine bemerkenswerte Ausnahme war jedoch John von Neumann, der das Potenzial für eine Verbindung zwischen formaler Logik und Thermodynamik, insbesondere der Arbeit von Boltzmann, erkannte. Leider fanden von Neumanns Ideen zu seinen Lebzeiten keinen Anklang.
Durch die Entwicklung grafischer Modelle, die Graphentheorie und Wahrscheinlichkeitstheorie kombinieren, fanden Wahrscheinlichkeiten schließlich Eingang in die KI. In den 1980er Jahren arbeiteten KI-Forscher an praktischen Problemen, die mit Unsicherheit verbunden waren, etwa medizinische Diagnosen oder die Erkundung von Mineralien. Obwohl es eine Abneigung gegen Wahrscheinlichkeiten gab, wurde deutlich, dass die Verwendung von Wahrscheinlichkeiten effektiver war als Ad-hoc-Methoden. Grafische Modelle, die von Perl Hackerman Lauritzen und anderen eingeführt wurden, stellten einen Rahmen für die Darstellung von Unsicherheiten und die Durchführung probabilistischer Berechnungen auf der Grundlage von Graphstrukturen bereit.
Grafische Modelle umfassen verschiedene Arten von Modellen, und eine Teilmenge sind Glaubensnetze. Glaubensnetze sind gerichtete azyklische Graphen, die aus stochastischen Variablen bestehen. Diese Diagramme weisen häufig nur spärlich verbundene Knoten auf und ermöglichen effiziente Inferenzalgorithmen, die Wahrscheinlichkeiten unbeobachteter Knoten berechnen. Allerdings werden diese Algorithmen exponentiell komplex, wenn sie auf dicht verbundene Netzwerke angewendet werden.
Ein Glaubensnetz dient als generatives Modell und sein Inferenzproblem besteht darin, die Zustände unbeobachteter Variablen zu bestimmen, was zu Wahrscheinlichkeitsverteilungen über diese Variablen führt. Das Lernproblem konzentriert sich auf die Anpassung der Interaktionen zwischen Variablen, um die Wahrscheinlichkeit der Generierung der beobachteten Trainingsdaten zu erhöhen.
Im Zusammenhang mit neuronalen Netzen besteht ein Zusammenhang zwischen grafischen Modellen und neuronalen Netzen. Frühe grafische Modelle stützten sich auf von Experten definierte Graphstrukturen und bedingte Wahrscheinlichkeiten und befassten sich hauptsächlich mit dem Inferenzproblem. Andererseits legten neuronale Netze den Schwerpunkt auf das Lernen aus Trainingsdaten und vermieden handgefertigtes Wissen. Während es neuronalen Netzen an Interpretierbarkeit und spärlicher Konnektivität mangelte, boten sie den Vorteil der Anpassungsfähigkeit durch Lernen.
Um generative Modelle mit idealisierten Neuronen zu konstruieren, können zwei Haupttypen berücksichtigt werden. Energiebasierte Modelle wie Boltzmann-Maschinen verbinden binäre stochastische Neuronen symmetrisch. Das Erlernen von Boltzmann-Maschinen ist jedoch eine Herausforderung. Eine weitere Option sind kausale Modelle, die gerichtete azyklische Graphen verwenden, die aus binären stochastischen Neuronen bestehen. 1992 führte Neil Sigmoid-Glaubensnetze ein, die leichter zu erlernen waren als Boltzmann-Maschinen. Sigmoid-Glaubensnetze sind Kausalmodelle, bei denen alle Variablen binäre stochastische Neuronen sind.
Um Daten aus einem Kausalmodell wie einem Sigmoid-Glaubensnetz zu generieren, werden stochastische Entscheidungen Schicht für Schicht getroffen, beginnend bei der obersten Schicht und kaskadierend bis hin zu den sichtbaren Effekten. Dieser Prozess liefert eine unvoreingenommene Stichprobe sichtbarer Werte gemäß den Überzeugungen des neuronalen Netzwerks.
Durch die Einführung unbeaufsichtigten Lernens und die Verwendung von Kausalmodellen oder Hybridansätzen ist es möglich, die Einschränkungen der Backpropagation zu überwinden und die Leistungsfähigkeit des unbeaufsichtigten Lernens zu nutzen, um die Struktur sensorischer Eingaben effektiv zu modellieren. Diese Fortschritte bieten einen vielversprechenden Weg zur Bewältigung der Herausforderungen, die tiefe neuronale Netze mit sich bringen, und ebnen den Weg für ausgefeiltere und effizientere Lernalgorithmen.
Zusammenfassend lässt sich sagen, dass die Erforschung von Glaubensnetzen und ihrer Verbindung mit neuronalen Netzen neue Möglichkeiten für KI und probabilistische Modellierung eröffnet hat. Der anfängliche Widerstand gegen die Wahrscheinlichkeit in der KI wurde überwunden und grafische Modelle haben sich als leistungsstarker Rahmen für die Darstellung von Unsicherheit und die Durchführung probabilistischer Berechnungen herausgestellt.
Glaubensnetze, insbesondere Sigmoid-Glaubensnetze, bieten einen alternativen Ansatz zur generativen Modellierung im Vergleich zu energiebasierten Modellen wie Boltzmann-Maschinen. Durch die Verwendung gerichteter azyklischer Graphen und binärer stochastischer Neuronen bieten Sigmoid-Belief-Netze eine Möglichkeit, Daten effektiver zu generieren und aus Trainingssätzen zu lernen.
Die Integration von unbeaufsichtigtem Lernen mit Kausalmodellen oder Hybridansätzen hat das Potenzial, die Einschränkungen der Backpropagation in tiefen neuronalen Netzen zu beseitigen. Durch die Modellierung der Struktur sensorischer Eingaben und die Maximierung der Wahrscheinlichkeit beobachteter Daten bieten diese Ansätze eine Möglichkeit, die Effizienz und Einfachheit von Gradientenmethoden zu nutzen und gleichzeitig die Komplexität realer Daten zu erfassen.
Die Entwicklung der KI und die Akzeptanz der Wahrscheinlichkeit haben das Fachgebiet verändert und es Forschern ermöglicht, robustere und anpassungsfähigere Modelle zu entwickeln. Im weiteren Verlauf der Reise werden wahrscheinlich weitere Fortschritte in der probabilistischen Modellierung, bei neuronalen Netzen und beim unbeaufsichtigten Lernen entstehen, die zu ausgefeilteren und intelligenteren KI-Systemen führen werden.
Durch die Kombination der Stärken grafischer Modelle und neuronaler Netze können Forscher die Grenzen der KI weiter verschieben und neue Möglichkeiten für das Verständnis, das Lernen und die Entscheidungsfindung in komplexen und unsicheren Umgebungen erschließen.
Vorlesung 13.3 – Sigmoid-Glaubensnetze lernen
Vorlesung 13.3 – Sigmoid-Glaubensnetze lernen [Neuronale Netze für maschinelles Lernen]
Das Video diskutiert die Herausforderungen beim Erlernen von Sigmoid-Glaubensnetzen und stellt zwei verschiedene Methoden zur Bewältigung dieser Herausforderungen vor. Im Gegensatz zu Boltzmann-Maschinen erfordern Sigmoid-Glaubensnetze nicht zwei verschiedene Phasen zum Lernen, was den Prozess einfacher macht. Es handelt sich um lokal normalisierte Modelle, die den Umgang mit Partitionsfunktionen und deren Ableitungen überflüssig machen.
Das Lernen in Sigmoid-Glaubensnetzen wird einfacher, wenn wir anhand beobachteter Daten unverzerrte Stichproben aus der Posterior-Verteilung über verborgene Einheiten erhalten können. Es ist jedoch schwierig, unvoreingenommene Stichproben zu erhalten, da ein Phänomen namens „Wegerklären“ auftritt, das sich auf die Posteriorverteilung auswirkt. Dieses Phänomen entsteht durch die Antikorrelation zwischen versteckten Ursachen, wenn ein beobachteter Effekt auftritt.
Das Lernen in tiefen Sigmoid-Glaubensnetzen mit mehreren Schichten verborgener Variablen wird noch anspruchsvoller. Die Posterior-Verteilung über die erste Schicht verborgener Variablen ist aufgrund der Wegerklärung nicht faktoriell, und Korrelationen zwischen versteckten Variablen bestehen sowohl im Prior- als auch im Posterior-Bereich. Die Berechnung des vorherigen Termes für die erste Schicht erfordert die Integration aller möglichen Aktivitätsmuster in höheren Schichten, was den Lernprozess komplex macht.
Es werden zwei Methoden zum Erlernen tiefer Glaubensnetze diskutiert: die Monte-Carlo-Methode und Variationsmethoden. Bei der Monte-Carlo-Methode wird eine Markov-Kette ausgeführt, um die Posterior-Verteilung anzunähern und Stichproben zu erhalten. Bei großen tiefen Glaubensnetzen kann es jedoch langsam sein. Variationsmethoden hingegen zielen darauf ab, ungefähre Stichproben aus einer anderen Verteilung zu erhalten, die der hinteren Verteilung nahe kommt. Obwohl diese Stichproben nicht unvoreingenommen sind, können sie dennoch für das Maximum-Likelihood-Lernen verwendet werden, und durch Anheben der Untergrenze der Log-Wahrscheinlichkeit können Verbesserungen bei der Modellierung der Daten erzielt werden.
Das Lernen in Sigmoid-Glaubensnetzen stellt insbesondere in tiefen Netzwerken Herausforderungen dar, aber die Monte-Carlo-Methode und Variationsmethoden bieten Ansätze, um diese Schwierigkeiten anzugehen und das Lernen möglich zu machen.
Vorlesung 13.4 – Der Wach-Schlaf-Algorithmus
Vorlesung 13.4 – Der Wach-Schlaf-Algorithmus [Neuronale Netze für maschinelles Lernen]
Der Wake-Sleep-Algorithmus ist eine Lernmethode, die für gerichtete grafische Modelle wie Sigmoid-Glaubensnetze verwendet wird. Es besteht aus zwei Phasen: der Wachphase und der Schlafphase. Im Gegensatz zu Boltzmann-Maschinen, die für ungerichtete grafische Modelle verwendet werden, ist der Wake-Sleep-Algorithmus speziell für Sigmoid-Glaubensnetze konzipiert.
Der Algorithmus ist Teil des Variationslernens, einem maschinellen Lernansatz, der die Posterior-Verteilung annähert, um komplizierte grafische Modelle zu lernen. Anstatt die exakte Posterior-Verteilung zu berechnen, was oft schwierig ist, wird sie durch Variationslernen mit einer günstigeren Näherung angenähert. Anschließend wird auf der Grundlage dieser Näherung das Maximum-Likelihood-Lernen angewendet.
Überraschenderweise funktioniert der Lernprozess immer noch effektiv, was auf zwei Faktoren zurückzuführen ist: die Verbesserung der Fähigkeit des Modells, beobachtete Daten zu generieren und die Anpassung des ungefähren Seitenzahns an den realen Seitenzahn. Dieser Effekt ermöglicht, dass Variationslernen für Sigmoid-Glaubensnetze gut funktioniert.
Der Wake-Sleep-Algorithmus verwendet zwei Sätze von Gewichten: generative Gewichte und Erkennungsgewichte. In der Wake-Phase werden Daten in die sichtbare Schicht eingespeist und unter Verwendung der Erkennungsgewichte ein Vorwärtsdurchlauf durchgeführt. Stochastische binäre Entscheidungen werden für jede verborgene Einheit unabhängig getroffen, wodurch stochastische binäre Zustände erzeugt werden. Diese Zustände werden als Stichproben aus der echten Posterior-Verteilung behandelt, und das Maximum-Likelihood-Lernen wird auf die generativen Gewichte angewendet.
In der Schlafphase ist der Vorgang umgekehrt. Ausgehend von einem Zufallsvektor in der obersten verborgenen Schicht werden unter Verwendung der generativen Gewichte binäre Zustände für jede Schicht generiert. Ziel ist es, die verborgenen Zustände aus den Daten wiederherzustellen. Um dies zu erreichen, werden die Erkennungsgewichte trainiert.
Der Wake-Sleep-Algorithmus weist Mängel auf, z. B. dass die Erkennungsgewichte nicht dem korrekten Gradienten folgen und aufgrund der Unabhängigkeitsnäherung eine falsche Modusmittelung erfolgt. Trotz dieser Einschränkungen glauben einige Forscher wie Karl Friston, dass es der Funktionsweise des Gehirns ähnelt. Andere glauben jedoch, dass in Zukunft bessere Algorithmen entdeckt werden.
Der Wach-Schlaf-Algorithmus nähert sich der hinteren Verteilung an und wechselt zwischen Wach- und Schlafphasen, um ein generatives Modell zu erlernen. Trotz seiner Einschränkungen war es einflussreich auf dem Gebiet des maschinellen Lernens.
Vorlesung 14.1 – Erlernen von Funktionsebenen durch Stapeln von RBMs
Vorlesung 14.1 – Lernen von Funktionsebenen durch Stapeln von RBMs [Neuronale Netze für maschinelles Lernen]
In diesem Video diskutiert der Sprecher einen anderen Ansatz zum Erlernen von Sigmoid-Glaubensnetzen. Sie erklären, dass sie bei der Arbeit an Sigmoid-Glaubensnetzen ihren Fokus auf Boltzmann-Maschinen verlagerten und entdeckten, dass restriktive Boltzmann-Maschinen effizient erlernt werden können. Sie erkannten, dass sie durch die Behandlung der von einer restriktiven Boltzmann-Maschine gelernten Merkmale als Daten eine andere restriktive Boltzmann-Maschine anwenden könnten, um die Korrelationen zwischen diesen Merkmalen zu modellieren. Dies führte zu der Idee, mehrere Boltzmann-Maschinen zu stapeln, um mehrere Schichten nichtlinearer Merkmale zu lernen, was ein Wiederaufleben des Interesses an tiefen neuronalen Netzen auslöste.
Anschließend geht der Referent auf die Herausforderung ein, gestapelte Boltzmann-Maschinen in einem Modell zu kombinieren. Während man eine mehrschichtige Boltzmann-Maschine erwarten würde, entdeckte ein Student namens Yitay, dass das Ergebnis eher einem Sigmoid-Glaubensnetz ähnelt. Dieser unerwartete Befund löste das Problem des Lernens tiefer Sigmoid-Glaubensnetze, indem er sich auf das Lernen ungerichteter Modelle wie Boltzmann-Maschinen konzentrierte.
Der Sprecher beschreibt den Prozess des Trainierens einer Funktionsebene, die direkt Eingaben von Pixeln erhält, und der Verwendung der Aktivierungsmuster dieser Funktionen zum Erlernen einer weiteren Funktionsebene. Dieser Vorgang kann wiederholt werden, um mehrere Ebenen zu lernen, wobei jede Ebene die korrelierte Aktivität in der darunter liegenden Ebene modelliert. Es ist erwiesen, dass das Hinzufügen einer weiteren Feature-Ebene eine Variationsuntergrenze der logarithmischen Wahrscheinlichkeit der Datengenerierung verbessert.
Um die Boltzmann-Maschinen in einem Modell zu kombinieren, erklärt der Referent die Vorgehensweise, jede Maschine einzeln zu lernen und sie dann zusammenzusetzen. Das resultierende kombinierte Modell wird als tiefes Glaubensnetz bezeichnet und besteht aus oberen Schichten, die einer restriktiven Boltzmann-Maschine ähneln, und unteren Schichten, die einem sigmoiden Glaubensnetz ähneln. Der Referent erörtert außerdem die Vorteile der Stapelung von Boltzmann-Maschinen und erläutert das Konzept der Mittelung von Faktorverteilungen. Sie zeigen, dass die Mittelung zweier faktorieller Verteilungen nicht zu einer faktoriellen Verteilung führt. Das Video befasst sich weiter mit dem Lernprozess des Stapelns von Boltzmann-Maschinen und der Feinabstimmung des zusammengesetzten Modells mithilfe einer Variation des Wake-Sleep-Algorithmus. Die drei Lernphasen umfassen das Anpassen generativer und Erkennungsgewichte, das Abtasten versteckter und sichtbarer Einheiten und das Aktualisieren der Gewichte mithilfe kontrastiver Divergenz.
Es wird ein Beispiel vorgestellt, bei dem 500 binäre versteckte Einheiten verwendet werden, um alle zehn Ziffernklassen in 28x28-Pixel-Bildern zu lernen. Nach dem Training des RBM werden die erlernten Features für Erkennungs- und Generierungsaufgaben verwendet.
Das Video beleuchtet die unerwartete Entdeckung der Verwendung gestapelter Boltzmann-Maschinen zum Erlernen tiefer Glaubensnetze und bietet Einblicke in die damit verbundenen Lern- und Feinabstimmungsprozesse.
Vorlesung 14.2 – Diskriminatives Lernen für DBNs
Vorlesung 14.2 – Diskriminatives Lernen für DBNs [Neuronale Netze für maschinelles Lernen]
In diesem Video untersuchen wir den Prozess des Erlernens eines tiefen Glaubensnetzwerks. Wir beginnen mit der Stapelung restriktiver Boltzmann-Maschinen, um die ersten Schichten zu bilden, die dann als tiefes neuronales Netzwerk behandelt werden. Wir verfeinern dieses Netzwerk mithilfe diskriminierender Methoden statt generativer Methoden und zielen darauf ab, seine Fähigkeit zur Unterscheidung zwischen Klassen zu verbessern. Dieser Ansatz hatte erhebliche Auswirkungen auf die Spracherkennung und führte dazu, dass viele führende Gruppen tiefe neuronale Netze einführten, um die Fehlerraten in diesem Bereich zu reduzieren.
Um das tiefe Netzwerk zu verfeinern, folgen wir einer Vortrainingsphase, in der wir mithilfe gestapelter restriktiver Boltzmann-Maschinen jeweils eine Funktionsebene lernen. Diese Vortrainingsphase bietet einen guten Anfangssatz an Gewichten für das tiefe neuronale Netzwerk. Anschließend nutzen wir Backpropagation, ein lokales Suchverfahren, um das Netzwerk weiter zu verfeinern und für Diskriminierung zu optimieren. Diese Kombination aus Vortraining und Feinabstimmung überwindet die Einschränkungen der herkömmlichen Backpropagation, erleichtert das Erlernen tiefer neuronaler Netze und verbessert ihre Generalisierungsfähigkeiten.
Eine Vorschulung bietet Vorteile im Hinblick auf Optimierung und Generalisierung. Es lässt sich gut für große Netzwerke skalieren, insbesondere wenn jede Schicht eine Lokalität aufweist. Der Lernprozess wird paralleler, da weniger Interaktionen zwischen weit voneinander entfernten Standorten stattfinden. Darüber hinaus ermöglicht uns das Vortraining, die Rückausbreitung mit sinnvollen Merkmalsdetektoren zu starten, was zu aussagekräftigeren Anfangsgradienten im Vergleich zu Zufallsgewichten führt. Darüber hinaus weisen vorab trainierte Netzwerke eine geringere Überanpassung auf, da der Großteil der Informationen in den endgültigen Gewichten aus der Modellierung der Eingabeverteilung stammt, die typischerweise mehr Informationen als die Beschriftungen selbst enthält.
Der Einsatz von Vortraining räumt auch dem Einwand entgegen, dass es dazu führen kann, dass für die vorliegende Unterscheidungsaufgabe irrelevante Merkmale erlernt werden. Es stimmt zwar, dass wir möglicherweise Funktionen erlernen, die nie genutzt werden, aber die Rechenleistung moderner Computer ermöglicht es uns, diese Ineffizienz zu verkraften. Unter den erlernten Funktionen wird es immer einige geben, die äußerst nützlich sind, die Roheingaben übertreffen und die ungenutzten Funktionen ausgleichen. Darüber hinaus reduziert das Vortraining den Aufwand für die Backpropagation zur Entdeckung neuer Funktionen, wodurch der Bedarf an großen Mengen gekennzeichneter Daten verringert wird. Unbeschriftete Daten bleiben für die Entdeckung guter Funktionen während der Vortrainingsphase wertvoll.
Um die Wirksamkeit des Vortrainings und der Feinabstimmung zu veranschaulichen, wird im Video die Modellierung des MNIST-Datensatzes erläutert. Drei verborgene Funktionsebenen werden völlig unbeaufsichtigt erlernt und erzeugen realistisch aussehende Ziffern aus verschiedenen Klassen. Um die Nützlichkeit dieser Funktionen für die Unterscheidung zu bewerten, wird eine letzte Zehn-Wege-Softmax-Schicht hinzugefügt und Backpropagation zur Feinabstimmung verwendet. Die Ergebnisse zeigen eine verbesserte Leistung im Vergleich zum rein diskriminierenden Training, insbesondere bei permutationsinvarianten Aufgaben, bei denen es mit der Standard-Backpropagation schwierig ist, niedrige Fehlerraten zu erreichen.
Verschiedene Experimente belegen die Vorteile des Vortrainings. Wenn ein Stapel von Boltzmann-Maschinen für das Vortraining und die Feinabstimmung verwendet wird, kann die Fehlerrate bei der permutationsinvarianten MNIST-Aufgabe auf bis zu 1,0 % reduziert werden. Durch das Hinzufügen einer 10-Wege-Softmax-Schicht direkt über den vorab trainierten Boltzmann-Maschinen kann die Fehlerrate mit einigen Anpassungen weiter auf 1,15 % verbessert werden. Die Arbeit von Micro Yerin und der Gruppe von Yan Lecun zeigt, dass Pre-Training bei mehr Daten und besseren Priors besonders effektiv ist. Ihre Experimente mit zusätzlichen verzerrten Ziffernbildern und einem Faltungs-Neuronalen Netzwerk erreichten Fehlerraten von nur 0,39 % und stellten neue Rekorde in der Spracherkennung auf.
Dieser Fortschritt beim Vortraining und der Feinabstimmung tiefer neuronaler Netze hatte erhebliche Auswirkungen auf die Spracherkennung und führte zu Verbesserungen auf diesem Gebiet. Viele Forscher und Gruppen, darunter auch Microsoft Research, haben tiefe neuronale Netze für Spracherkennungsaufgaben eingesetzt und verweisen auf den Erfolg und die Fortschritte, die dieser Ansatz ermöglicht.
Der Erfolg des Vortrainings und der Feinabstimmung tiefer neuronaler Netze hat ein erneutes Interesse an neuronalen Netzen für verschiedene Anwendungen über die Spracherkennung hinaus geweckt. Forscher haben damit begonnen, das Potenzial tiefer neuronaler Netze in den Bereichen Computer Vision, Verarbeitung natürlicher Sprache und anderen Bereichen zu untersuchen. Die Kombination aus Vortraining und Feinabstimmung hat sich als leistungsstarke Technik zum Erlernen hierarchischer Darstellungen und zur Verbesserung der Leistung neuronaler Netze erwiesen.
Einer der Gründe, warum das Vortraining effektiv ist, besteht darin, dass es dabei hilft, die Einschränkungen der traditionellen Backpropagation zu überwinden, insbesondere beim Umgang mit tiefen Netzwerken. Tiefe Netzwerke mit vielen Schichten können unter dem Problem des verschwindenden Gradienten leiden, bei dem die Gradienten abnehmen, während sie sich durch die Schichten ausbreiten, was es schwierig macht, das Netzwerk effektiv zu trainieren. Indem wir das Netzwerk Schicht für Schicht vorab trainieren und die Gewichte basierend auf den gelernten Merkmalen initialisieren, bieten wir einen guten Ausgangspunkt für die Backpropagation, was zu einer effizienteren Optimierung führt.
Ein weiterer Vorteil des Vortrainings besteht darin, dass es dabei hilft, aussagekräftige und hierarchische Darstellungen der Eingabedaten zu erfassen. Die Schichten des Netzwerks lernen immer komplexere und abstraktere Funktionen, je tiefer wir in das Netzwerk vordringen. Diese hierarchische Darstellung ermöglicht es dem Netzwerk, Merkmale auf hoher Ebene zu extrahieren, die für die Unterscheidung nützlich sind. Indem wir das Netzwerk vorab trainieren, um die Verteilung der Eingabevektoren zu modellieren, stellen wir sicher, dass die gelernten Merkmale wichtige Muster und Variationen in den Daten erfassen, was zur Verbesserung der Generalisierungsleistung des Netzwerks beiträgt.
Die Kombination aus generativem Vortraining und diskriminierender Feinabstimmung ist zu einem beliebten Paradigma im Deep Learning geworden. Es nutzt die Vorteile des unbeaufsichtigten Lernens, um nützliche Anfangsfunktionen zu erlernen, und optimiert diese Funktionen dann mithilfe gekennzeichneter Daten für die spezifische Unterscheidungsaufgabe. Dieser Ansatz hat sich in verschiedenen Anwendungen als erfolgreich erwiesen und zu Durchbrüchen in der Leistung geführt.
Während sich das Gebiet des Deep Learning weiterentwickelt, erforschen Forscher ständig neue Techniken und Architekturen, um das Training und die Leistung tiefer neuronaler Netze zu verbessern. Der Erfolg des Vortrainings und der Feinabstimmung hat den Weg für Fortschritte in anderen Bereichen geebnet, beispielsweise beim Transferlernen, bei dem vorab trainierte Modelle als Ausgangspunkt für neue Aufgaben verwendet werden, und beim selbstüberwachten Lernen, bei dem Modelle lernen unbeschriftete Daten durch Vorhersage bestimmter Aspekte der Daten.
Zusammenfassend lässt sich sagen, dass die Kombination aus Vortraining und Feinabstimmung den Bereich des Deep Learning revolutioniert hat. Durch die Nutzung von unüberwachtem Lernen zum Erlernen erster Merkmale und die anschließende Verfeinerung dieser Merkmale mithilfe von überwachtem Lernen können tiefe neuronale Netze eine bessere Leistung und Generalisierungsfähigkeiten erzielen. Dieser Ansatz hatte erhebliche Auswirkungen auf verschiedene Anwendungen, darunter Spracherkennung, Computer Vision und Verarbeitung natürlicher Sprache, und treibt weiterhin Fortschritte im Bereich Deep Learning voran.
Vorlesung 14.3 – Diskriminative Feinabstimmung
Vorlesung 14.3 – Diskriminative Feinabstimmung [Neuronale Netze für maschinelles Lernen]
In diesem Video werden wir uns eingehender mit dem Prozess der diskriminierenden Feinabstimmung befassen, nachdem wir ein neuronales Netzwerk mithilfe eines Stapels von Boltzmann-Maschinen vorab trainiert haben. Wir beobachten, dass sich die Gewichte in den unteren Schichten während der Feinabstimmung nur minimal ändern. Diese kleinen Anpassungen haben jedoch erhebliche Auswirkungen auf die Klassifizierungsleistung des Netzwerks, indem sie Entscheidungsgrenzen genau festlegen.
Durch das Vortraining wird auch die Effektivität tieferer Netzwerke im Vergleich zu flacheren verbessert. Ohne vorheriges Training neigen flachere Netzwerke dazu, tiefere Netzwerke zu übertreffen. Allerdings kehrt sich dieser Trend durch Vortraining um, wobei tiefe Netzwerke eine bessere Leistung erbringen, während flache Netzwerke ohne Vortraining schlechter abschneiden.
Darüber hinaus liefern wir ein überzeugendes Argument dafür, mit generativem Training zu beginnen, bevor diskriminierendes Training in Betracht gezogen wird. Indem wir die Ergebnisse der Netzwerke in einer Reihe von Testfällen vergleichen und sie mithilfe von t-SNE visualisieren, beobachten wir zwei unterschiedliche Klassen: Netzwerke ohne Vortraining oben und Netzwerke mit Vortraining unten. Die Netzwerke innerhalb jeder Klasse weisen Ähnlichkeiten auf, es gibt jedoch keine Überschneidungen zwischen den beiden Klassen.
Durch das Vortraining können die Netzwerke qualitativ andere Lösungen entdecken, als wenn sie mit kleinen Zufallsgewichten beginnen. Die durch generatives Vortraining gefundenen Lösungen führen zu unterschiedlichen Regionen im Funktionsraum, während Netzwerke ohne Vortraining eine größere Variabilität aufweisen.
Abschließend diskutieren wir, warum eine Vorschulung gerechtfertigt ist. Bei der Generierung von Bild-Beschriftungspaaren ist es plausibler, dass die Beschriftung von den realen Objekten abhängt und nicht nur von den Pixeln im Bild. Die durch das Bild vermittelten Informationen gehen über die des Etiketts hinaus, da das Etikett nur begrenzte Informationen enthält. In solchen Fällen ist es sinnvoll, zunächst den Hochbandweg von der Welt zum Bild umzukehren, um die zugrunde liegenden Ursachen zu ermitteln und dann die entsprechende Bezeichnung zu bestimmen. Dies rechtfertigt die Vortrainingsphase, in der die Zuordnung von Bild zu Ursachen erlernt wird, gefolgt von der Unterscheidungsphase zur Zuordnung der Ursachen zum Etikett, mit möglicher Feinabstimmung der Zuordnung von Bild zu Ursachen.
Um die Vorteile des Vortrainings zu veranschaulichen, untersuchen wir ein spezifisches Experiment, das im Labor von Yoshi Banjo durchgeführt wurde. Das Experiment konzentriert sich auf die Feinabstimmung nach dem generativen Vortraining. Vor der Feinabstimmung weisen die Empfangsfelder in der ersten verborgenen Schicht der Merkmalsdetektoren minimale Änderungen auf. Diese subtilen Änderungen tragen jedoch erheblich zu einer verbesserten Diskriminierung bei.
Das Experiment beinhaltet die Unterscheidung zwischen Ziffern in einer großen Menge verzerrter Ziffern. Die Ergebnisse zeigen, dass Netzwerke mit Vortraining im Vergleich zu Netzwerken ohne Vortraining durchweg geringere Testfehler erzielen, selbst wenn Netzwerke mit einer einzigen verborgenen Schicht verwendet werden. Der Vorteil des Vortrainings wird bei der Nutzung tieferer Netzwerke noch deutlicher. Tiefe Netzwerke mit Vortraining weisen kaum oder gar keine Überschneidungen mit flachen Netzwerken auf, was die Wirksamkeit von Vortraining bei der Verbesserung der Netzwerkleistung weiter unterstreicht.
Darüber hinaus untersuchen wir die Auswirkung der Anzahl der Schichten auf den Klassifizierungsfehler. Ohne Vortraining scheinen zwei Schichten die optimale Wahl zu sein, da eine weitere Erhöhung der Anzahl der Schichten zu einer deutlich schlechteren Leistung führt. Im Gegensatz dazu wird dieses Problem durch Vortraining gemildert, da Netzwerke mit vier Schichten die mit zwei Schichten übertreffen. Die Fehlerschwankung wird reduziert und die Gesamtleistung verbessert.
Um die Gewichtsveränderungen des Netzwerks während des Trainings visuell darzustellen, werden t-SNE-Visualisierungen verwendet. Die Gewichte sowohl vorab trainierter als auch nicht vorab trainierter Netzwerke werden im gleichen Bereich dargestellt. Die resultierenden Diagramme zeigen zwei unterschiedliche Klassen: Netzwerke ohne Vortraining oben und Netzwerke mit Vortraining unten. Jeder Punkt stellt ein Modell im Funktionsraum dar und die Trajektorien zeigen den Fortschritt der Ähnlichkeit während des Trainings. Netzwerke ohne Vorschulung landen in unterschiedlichen Bereichen des Veranstaltungsraums, was auf eine größere Verbreitung von Lösungen hindeutet. Netzwerke mit Vorschulung hingegen konzentrieren sich auf eine bestimmte Region, was auf eine größere Ähnlichkeit zwischen ihnen hinweist.
Der Vergleich von Gewichtsvektoren allein reicht nicht aus, da Netzwerke mit unterschiedlichen Gewichtskonfigurationen das gleiche Verhalten zeigen können. Stattdessen werden die Ausgaben der Netzwerke in Testfällen zu Vektoren verkettet und t-SNE wird angewendet, um ihre Ähnlichkeit zu visualisieren. Die Farben in den t-SNE-Diagrammen stellen unterschiedliche Trainingsstadien dar und veranschaulichen den Fortschritt der Ähnlichkeit weiter.
Das Vortraining neuronaler Netze mittels generativem Training vor diskriminierendem Training bietet mehrere Vorteile. Es verbessert die Klassifizierungsleistung durch genaue Platzierung von Entscheidungsgrenzen, erhöht die Wirksamkeit tieferer Netzwerke und bietet eindeutige Lösungen im Funktionsraum. Durch die Berücksichtigung des Pfads mit hoher Bandbreite von der Welt zum Bild und des Pfads mit niedriger Bandbreite von der Welt zum Etikett ermöglicht das Vortraining die Wiederherstellung der zugrunde liegenden Ursachen vor der Festlegung des Etiketts. Dieser zweiphasige Ansatz rechtfertigt den Einsatz von Vortraining beim Training neuronaler Netze.