Maschinelles Lernen und neuronale Netze

MetaQuotes 2023.06.23 08:15 #561

Vorlesung 10.4 – Vollständiges Bayesianisches Lernen in die Praxis umsetzen

Vorlesung 10.4 – Vollständiges Bayesianisches Lernen praktisch umsetzen [Neuronale Netze für maschinelles Lernen]

In diesem Video erkläre ich, wie man vollständiges Bayesianisches Lernen für große neuronale Netze mit Tausenden oder sogar Millionen von Gewichtungen praktisch umsetzen kann. Bei der verwendeten Technik handelt es sich um eine Monte-Carlo-Methode, was auf den ersten Blick seltsam erscheinen mag. Wir verwenden einen Zufallszahlengenerator, um den Raum der Gewichtsvektoren auf zufällige Weise zu erkunden, jedoch mit einer Tendenz zur absteigenden Kostenfunktion. Wenn dieser Ansatz richtig durchgeführt wird, weist er eine bemerkenswerte Eigenschaft auf: Er tastet Gewichtsvektoren im Verhältnis zu ihren Wahrscheinlichkeiten in der Posterior-Verteilung ab. Indem wir eine große Anzahl von Gewichtsvektoren abtasten, können wir eine gute Annäherung an die vollständige Bayes'sche Methode erhalten.

Mit zunehmender Parameteranzahl wird die Anzahl der Gitterpunkte im Parameterraum exponentiell größer. Daher ist die Erstellung eines Rasters für mehr als ein paar Parameter nicht möglich, wenn genügend Daten vorhanden sind, um die meisten Parametervektoren höchst unwahrscheinlich zu machen. Stattdessen können wir uns auf die Auswertung eines kleinen Teils der Gitterpunkte konzentrieren, die einen wesentlichen Beitrag zu den Vorhersagen leisten. Eine Idee, die Bayesianisches Lernen möglich macht, besteht darin, Gewichtsvektoren anhand ihrer A-Posteriori-Wahrscheinlichkeiten abzutasten. Anstatt alle Terme in der Gleichung aufzusummieren, können wir Terme aus der Summe entnehmen. Wir weisen jedem Gewichtsvektor eine Gewichtung von eins oder null zu, je nachdem, ob er abgetastet wird oder nicht. Die Wahrscheinlichkeit, abgetastet zu werden, entspricht der A-Posteriori-Wahrscheinlichkeit des Gewichtsvektors, was zum korrekten erwarteten Wert führt.

Die auf der rechten Seite dargestellte Standard-Backpropagation folgt einem Pfad von einem Anfangspunkt zu einem letzten Einzelpunkt, indem sie sich entlang des Gradienten bewegt und die Kostenfunktion absenkt. Im Gegensatz dazu führt eine Abtastmethode bei jeder Gewichtsaktualisierung Gaußsches Rauschen ein, wodurch der Gewichtsvektor wandert und den Gewichtsraum kontinuierlich erkundet. Dieses Wanderverhalten begünstigt Regionen mit niedrigen Kosten und bewegt sich, wann immer möglich, tendenziell bergab. Eine wesentliche Frage ist, wie oft die Gewichte jeden Punkt im Raum besuchen. Die roten Punkte stellen während der Wanderung aufgenommene Proben dar und liegen aufgrund des inhärenten Rauschens möglicherweise nicht in den Regionen mit den niedrigsten Kosten. Nach ausreichender Untersuchung zeigt sich jedoch eine bemerkenswerte Eigenschaft der Markov-Kette Monte Carlo: Die Gewichtsvektoren werden zu unverzerrten Stichproben aus der wahren Posteriorverteilung. Gewichtsvektoren, die unter dem Seitenzahn sehr wahrscheinlich sind, werden eher durch einen roten Punkt dargestellt als sehr unwahrscheinliche. Diese als Markov-Ketten-Monte-Carlo bekannte Technik ermöglicht die Nutzung des Bayes'schen Lernens mit Tausenden von Parametern.

Die zuvor erwähnte Methode, bei der Gaußsches Rauschen hinzugefügt wird, wird Langevin-Methode genannt. Es ist zwar effektiv, aber nicht der effizienteste Ansatz. Es stehen ausgefeiltere Methoden zur Verfügung, bei denen die Gewichtsvektoren weniger Zeit benötigen, um den Raum zu erkunden, bevor sie zuverlässige Stichproben erhalten. Ein solcher Ansatz ist die Verwendung von Mini-Batches beim vollständigen Bayes'schen Lernen. Wenn wir den Gradienten der Kostenfunktion für einen zufälligen Mini-Batch berechnen, erhalten wir eine unvoreingenommene Schätzung mit Stichprobenrauschen. Dieses Abtastrauschen kann verwendet werden, um das für die Markov-Ketten-Monte-Carlo-Methode erforderliche Rauschen bereitzustellen. Eine clevere Idee von Welling und Mitarbeitern ermöglicht eine effiziente Probenahme aus der hinteren Gewichtsverteilung mithilfe von Mini-Batch-Methoden. Dieser Fortschritt sollte das vollständige Bayes'sche Lernen für viel größere Netzwerke möglich machen, die ein Training mit Mini-Batches erfordern, um den Trainingsprozess abzuschließen.

Die Verwendung von Mini-Batches beim vollständigen Bayes'schen Lernen bietet mehrere Vorteile. Wenn wir den Gradienten der Kostenfunktion für einen zufälligen Mini-Batch berechnen, erhalten wir nicht nur eine unvoreingenommene Schätzung mit Stichprobenrauschen, sondern nutzen auch die Effizienz von Mini-Batch-Methoden. Das bedeutet, dass wir viel größere Netzwerke trainieren können, die sonst mit vollständigem Bayes'schen Lernen nicht zu trainieren wären.

Der von Welling und seinen Mitarbeitern erzielte Durchbruch ermöglicht eine effiziente Probenahme aus der hinteren Gewichtsverteilung mithilfe von Mini-Batch-Methoden. Ihre clevere Idee nutzt das Sampling-Rauschen, das der Mini-Batch-Gradientenschätzung innewohnt, um als Rauschen zu dienen, das für die Markov-Ketten-Monte-Carlo-Methode erforderlich ist. Durch die entsprechende Einbeziehung dieses Rauschens ist es ihnen gelungen, zuverlässige Stichproben aus der Posterior-Verteilung zu erhalten, wodurch das vollständige Bayes'sche Lernen für größere Netzwerke praktisch wird.

Mit dieser Weiterentwicklung wird es möglich, neuronale Netze mit Tausenden oder sogar Millionen von Gewichten mithilfe von Mini-Batches zu trainieren und Proben aus der hinteren Verteilung über die Gewichte zu erhalten. Dies ist besonders vorteilhaft, wenn es um große Probleme geht, die umfangreiche Rechenressourcen erfordern. Die Fähigkeit, Unsicherheiten durch vollständiges Bayesianisches Lernen einzubeziehen, sorgt für ein umfassenderes Verständnis von Modellvorhersagen und kann zu einer verbesserten Entscheidungsfindung führen.

Durch den Einsatz von Monte-Carlo-Methoden wie der Markov-Ketten-Monte-Carlo-Methode kann vollständiges Bayesianisches Lernen für große neuronale Netze praktisch umgesetzt werden. Indem wir Gewichtsvektoren anhand ihrer A-Posteriori-Wahrscheinlichkeiten abtasten, können wir die vollständige Bayes'sche Methode annähern und wertvolle Einblicke in die Unsicherheit unserer Modelle gewinnen. Mit der Einführung von Mini-Batch-Methoden ist nun eine effiziente Stichprobenziehung aus der Posteriorverteilung über Gewichte möglich, was die Anwendung des vollständigen Bayes'schen Lernens auf viel größere Netzwerke ermöglicht.

Lecture 10.4 — Making full Bayesian learning practical [Neural Networks for Machine Learning]

2016.02.04
www.youtube.com

Lecture from the course Neural Networks for Machine Learning, as taught by Geoffrey Hinton (University of Toronto) on Coursera in 2012. Link to the course (l...

Quantitativer Handel Statistik als Blick in Maschinelles Lernen im Handel:

MetaQuotes 2023.06.23 08:16 #562

Vorlesung 10.5 – Studienabbruch

Vorlesung 10.5 – Dropout [Neuronale Netze für maschinelles Lernen]

Dropout ist eine erfolgreiche Methode zum Kombinieren einer großen Anzahl neuronaler Netzwerkmodelle, ohne jedes Modell separat zu trainieren. Bei diesem Ansatz werden für jeden Trainingsfall zufällige Teilmengen versteckter Einheiten weggelassen, was zu unterschiedlichen Architekturen für jeden Fall führt. Dadurch entsteht für jeden Trainingsfall ein einzigartiges Modell, was die Frage aufwirft, wie diese Modelle während des Tests trainiert und effizient gemittelt werden können.

Zwei Möglichkeiten, die Ergebnisse mehrerer Modelle zu kombinieren, bestehen darin, ihre Ausgabewahrscheinlichkeiten zu mitteln oder das geometrische Mittel ihrer Wahrscheinlichkeiten zu verwenden. Bei dieser Methode spielt die Gewichtsverteilung eine entscheidende Rolle. Dropout bietet eine effiziente Möglichkeit zur Mittelung neuronaler Netze, obwohl die Leistung möglicherweise nicht so gut ist wie der korrekte Bayes'sche Ansatz. Während des Trainings werden versteckte Einheiten zufällig mit einer Wahrscheinlichkeit von 0,5 ausgelassen, was dazu führt, dass eine große Anzahl von Architekturen die Gewichte teilen. Dropout kann als Modellmittelung angesehen werden, bei der die meisten Modelle nicht abgetastet werden und jedes abgetastete Modell nur ein Trainingsbeispiel erhält. Durch die Gewichtsverteilung zwischen den Modellen werden sie effektiv reguliert. Zum Testzeitpunkt werden alle verborgenen Einheiten verwendet, aber ihre ausgehenden Gewichte werden halbiert, um das geometrische Mittel der Vorhersagen aus allen möglichen Modellen zu berechnen. Der Dropout kann auf mehrere ausgeblendete Ebenen ausgeweitet werden, indem in jeder Ebene ein Dropout von 0,5 angewendet wird. Diese Näherung ist schneller als die Mittelung separater Dropout-Modelle, bietet aber eine gute Näherung.

Darüber hinaus kann Dropout auf Eingabeebenen angewendet werden, bei denen die Wahrscheinlichkeit, dass Eingaben beibehalten werden, höher ist. Diese Technik wird bereits bei der Rauschunterdrückung von Autoencodern eingesetzt und hat gute Ergebnisse gezeigt. Es hat sich gezeigt, dass Dropout Fehler wirksam reduziert und eine Überanpassung in tiefen neuronalen Netzen verhindert. Es fördert die Spezialisierung verborgener Einheiten und verhindert komplexe Co-Anpassungen, die zu einer schlechten Generalisierung neuer Testdaten führen können. Indem versteckte Einheiten gezwungen werden, mit unterschiedlichen Kombinationen anderer versteckter Einheiten zusammenzuarbeiten, fördert der Ausstieg individuell nützliches Verhalten und entmutigt die Abhängigkeit von bestimmten Kooperationen. Dieser Ansatz verbessert die Leistung von Dropout-Netzwerken, indem er es jeder Einheit ermöglicht, auf einzigartige und geringfügig nützliche Weise einen Beitrag zu leisten, was zu hervorragenden Ergebnissen führt.

Dropout ist eine leistungsstarke Technik zum Trainieren und Kombinieren neuronaler Netzwerkmodelle. Es begegnet der Herausforderung der Überanpassung, indem es die Modelle durch Gewichtsverteilung und zufälliges Auslassen versteckter Einheiten reguliert. Durch die Schaffung unterschiedlicher Architekturen für jeden Schulungsfall fördert Dropout die Spezialisierung einzelner Einheiten und reduziert komplexe gemeinsame Anpassungen. Der Prozess der Mittelung der Ausgabewahrscheinlichkeiten der Modelle oder die Verwendung des geometrischen Mittels sorgt für einen ensembleähnlichen Effekt und verbessert die Gesamtleistung des Netzwerks. Obwohl Dropout möglicherweise nicht das gleiche Leistungsniveau wie der korrekte Bayes'sche Ansatz erreicht, bietet es eine praktische und effiziente Alternative. Bei Anwendung auf mehrere verborgene Ebenen kann Dropout in jeder Ebene mit einer Dropout-Wahrscheinlichkeit von 0,5 verwendet werden. Diese als „Mittelwertnetz“ bekannte Näherung kombiniert effektiv die Vorteile des Dropouts mit einer schnelleren Berechnung. Dies ist besonders nützlich, wenn die Rechenressourcen begrenzt sind.

Darüber hinaus kann Dropout auf die Eingabeebene ausgeweitet werden, indem Dropout mit einer höheren Wahrscheinlichkeit angewendet wird, Eingaben beizubehalten. Diese Technik hilft, eine Überanpassung zu verhindern und hat sich in verschiedenen Anwendungen als erfolgreich erwiesen. Es ist wichtig zu beachten, dass Dropout nicht nur die Leistung bei Trainingsdaten verbessert, sondern auch die Generalisierung auf nicht sichtbare Testdaten verbessert. Durch die Förderung des Verhaltens einzelner Einheiten und die Reduzierung komplexer Co-Anpassungen erzielen Dropout-Modelle in der Regel gute Ergebnisse bei neuen und unbekannten Beispielen.

Dropout ist eine praktische und effektive Methode zum Kombinieren neuronaler Netzwerkmodelle. Durch das zufällige Weglassen versteckter Einheiten und die Förderung des Verhaltens einzelner Einheiten verringert das Dropout die Überanpassung und verbessert die Generalisierung. Seine Einfachheit und Effizienz machen es zu einem wertvollen Werkzeug für das Training tiefer neuronaler Netze.

Lecture 10.5 — Dropout [Neural Networks for Machine Learning]

2016.02.04
www.youtube.com

Lecture from the course Neural Networks for Machine Learning, as taught by Geoffrey Hinton (University of Toronto) on Coursera in 2012. Link to the course (l...

Python im algorithmischen Handel Quantitativer Handel Maschinelles Lernen im Handel:

MetaQuotes 2023.06.23 08:16 #563

Vorlesung 11.1 – Hopfield-Netze

Vorlesung 11.1 – Hopfield-Netze [Neuronale Netze für maschinelles Lernen]

In diesem Video stellt der Moderator Hopfield-Netzwerke und ihre Rolle beim Wiederaufleben des Interesses an neuronalen Netzwerken in den 1980er Jahren vor. Hopfield-Netzwerke sind einfache Geräte, mit denen Erinnerungen als verteilte Aktivitätsmuster gespeichert werden. Es handelt sich um energiebasierte Modelle mit binären Schwellenwerten und wiederkehrenden Verbindungen.

Die Analyse von Netzwerken mit nichtlinearen Einheiten und wiederkehrenden Verbindungen kann aufgrund ihres unterschiedlichen Verhaltens, wie z. B. Einpendeln in stabile Zustände, Oszillieren oder sogar Chaos, eine Herausforderung sein. Hopfield und andere Forscher erkannten jedoch, dass bei symmetrischen Verbindungen eine globale Energiefunktion für jede binäre Konfiguration des Netzwerks definiert werden kann. Die binäre Schwellenwert-Entscheidungsregel führt in Kombination mit der richtigen Energiefunktion dazu, dass das Netzwerk energiemäßig abnimmt und schließlich ein Energieminimum erreicht. Die Energiefunktion besteht aus lokalen Beiträgen, die das Produkt aus Verbindungsgewichten und den binären Zuständen verbundener Neuronen darstellen.

Um ein Energieminimum zu finden, werden Einheiten in einem Hopfield-Netz nacheinander, eine nach der anderen, in zufälliger Reihenfolge aktualisiert. Jede Einheit berechnet ihren Zustand basierend auf der Konfiguration, die zu der niedrigsten globalen Energie führt. Diese sequentielle Aktualisierung verhindert, dass Einheiten gleichzeitig Entscheidungen treffen, die die Energie erhöhen und zu Schwingungen führen könnten. Hopfield-Netzwerke eignen sich zum Speichern von Erinnerungen, da Erinnerungen Energieminima im Netzwerk entsprechen. Speicher können teilweise oder beschädigt sein, und die Entscheidungsregel für den binären Schwellenwert kann sie bereinigen und als vollständige Speicher wiederherstellen. Dieser inhaltsadressierbare Speicher ermöglicht den Zugriff auf gespeicherte Elemente basierend auf Teilinhaltsinformationen.

Hopfield-Netze verfügen über Eigenschaften, die sie robust gegenüber Hardwareschäden machen, da sie auch nach dem Entfernen einiger weniger Einheiten noch ordnungsgemäß funktionieren. Die Gewichte im Netzwerk geben Aufschluss darüber, wie Zustände von Neuronen zusammenpassen, ähnlich wie bei der Rekonstruktion eines Dinosauriers aus wenigen Knochen. Die Speicherregel für Erinnerungen in einem Hopfield-Netz ist einfach. Durch Erhöhen der Gewichte zwischen Einheiten basierend auf dem Produkt ihrer Aktivitäten kann ein binärer Zustandsvektor gespeichert werden. Diese Regel erfordert nur einen Durchlauf der Daten und ist somit eine Online-Regel. Es handelt sich jedoch nicht um eine Fehlerkorrekturregel, die sowohl Vor- als auch Nachteile hat.

Hopfield-Netzwerke bieten einen unkomplizierten Ansatz zur Speicherung von Erinnerungen und verfügen über interessante Eigenschaften, die sie für verschiedene Anwendungen wertvoll machen.

Lecture 11.1 — Hopfield Nets [Neural Networks for Machine Learning]

2016.02.04
www.youtube.com

Lecture from the course Neural Networks for Machine Learning, as taught by Geoffrey Hinton (University of Toronto) on Coursera in 2012. Link to the course (l...

OpenCV zur Erkennung grafischer Neuronales Netz in Form Maschinelles Lernen im Handel:

MetaQuotes 2023.06.23 08:17 #564

Vorlesung 11.2 – Umgang mit falschen Minima

Vorlesung 11.2 – Umgang mit falschen Minima [Neuronale Netze für maschinelles Lernen]

In diesem Video bespreche ich die Speicherkapazität von Hopfield-Netzen und wie sie durch falsche Erinnerungen begrenzt wird. Falsche Erinnerungen treten auf, wenn benachbarte Energieminima kombiniert werden und ein neues Minimum an der falschen Stelle entsteht. Bemühungen, diese falschen Minima zu beseitigen, führten zu einer interessanten Lernmethode in komplexeren Systemen als den einfachen Hopfield-Netzen.

Ich werde auch auf eine historische Wiederentdeckung im Zusammenhang mit der Erhöhung der Kapazität von Hopfield-Netzen eingehen. Physiker, die versuchten, ihre Speicherkapazität zu erhöhen, stießen auf das Perzeptron-Konvergenzverfahren, das ursprünglich entwickelt wurde, nachdem Hopfield Hopfield-Netze als Speichergeräte erfunden hatte.

Die Kapazität eines Hopfield-Netzes beträgt unter Verwendung der Hopfield-Speicherregel für ein vollständig verbundenes Netzwerk etwa 0,15n Speicher, wobei n die Anzahl der binären Schwellenwerteinheiten darstellt. Diese Kapazität gibt die Anzahl der Erinnerungen an, die ohne Verwirrung gespeichert werden können. Jeder Speicher besteht aus einer zufälligen Konfiguration der N Einheiten, die n Informationsbits beisteuern. Somit beträgt die Gesamtinformation, die in einem Hopfield-Netz gespeichert ist, etwa 0,15 N Quadratbits.

Diese Speichermethode nutzt jedoch die zum Speichern der Gewichte erforderlichen Bits nicht effizient. Wenn wir die Anzahl der Bits analysieren, die zum Speichern der Gewichte im Computer erforderlich sind, übersteigt sie 0,15 N Quadratbits, was zeigt, dass verteilter Speicher in lokalen Energieminima nicht effizient ist.

Um die Kapazität eines Hopfield-Netzes zu verbessern, müssen wir uns mit der Verschmelzung von Energieminima befassen, die seine Leistungsfähigkeit einschränkt. Jedes Mal, wenn eine binäre Konfiguration gespeichert wird, hoffen wir, ein neues Energieminimum zu schaffen. Allerdings können benachbarte Muster dazu führen, dass Minima verschmelzen und es unmöglich wird, zwischen einzelnen Erinnerungen zu unterscheiden. Dieses Verschmelzungsphänomen begrenzt die Kapazität eines Hopfield-Netzes.

Eine faszinierende Idee, die sich aus der Verbesserung der Kapazität von Hopfield-Netzen ergab, ist das Konzept des Verlernens. Beim Verlernen geht es darum, das Netz von einem zufälligen Anfangszustand aus stabilisieren zu lassen und dann das Gegenteil der Speicherregel anzuwenden, um falsche Minima zu eliminieren. Hopfield, Feinstein und Palmer zeigten, dass Verlernen die Gedächtniskapazität effektiv steigert, und Crick und Mitchison schlugen vor, dass Verlernen während des REM-Schlafs auftreten könnte.

Die Herausforderung besteht darin, zu bestimmen, wie viel Verlernen durchgeführt werden sollte. Im Idealfall sollte das Verlernen Teil des Prozesses sein, bei dem ein Modell an die Daten angepasst wird. Die Maximum-Likelihood-Anpassung des Modells kann das Verlernen automatisch einbeziehen und so eine präzise Anleitung zum Umfang des erforderlichen Verlernens liefern.

Physiker haben Anstrengungen unternommen, um die Kapazität von Hopfield-Netzen zu verbessern, angetrieben von dem Wunsch, Verbindungen zwischen bekannten mathematischen Konzepten und der Gehirnfunktionalität zu finden. Elizabeth Gardner schlug eine effizientere Lagerungsregel vor, die die volle Kapazität der Gewichte nutzte. Diese Regel beinhaltete das mehrmalige Durchlaufen des Trainingssatzes und die Anwendung des Perzeptron-Konvergenzverfahrens, um den korrekten Zustand jeder Einheit zu trainieren.

Diese Technik ähnelt der in der Statistik verwendeten Pseudo-Likelihood-Methode, bei der Sie darauf abzielen, eine Dimension angesichts der Werte aller anderen Dimensionen richtig hinzubekommen. Das Perzeptron-Konvergenzverfahren ermöglicht mit einigen Anpassungen für die symmetrischen Gewichte in Hopfield-Netzen eine effizientere Speicherspeicherung.

Durch die Verwendung des Perzeptron-Konvergenzverfahrens und das mehrmalige Durchlaufen der Daten können wir die Speichereffizienz von Hopfield-Netzen verbessern. Diese Technik ähnelt der in der Statistik verwendeten Pseudo-Likelihood-Methode, bei der das Ziel darin besteht, eine Dimension basierend auf den Werten aller anderen Dimensionen richtig hinzubekommen. Das Perzeptron-Konvergenzverfahren ermöglicht mit entsprechenden Modifikationen für die symmetrischen Gewichte in Hopfield-Netzen eine effektivere Speicherspeicherung.

Diese von Gardner vorgestellte erweiterte Speicherregel stellt einen bedeutenden Fortschritt bei der Maximierung der Kapazität von Hopfield-Netzen dar. Durch Durchlaufen des Trainingssatzes und iteratives Anpassen der Gewichtungen basierend auf dem Perzeptron-Konvergenzverfahren kann das Netzwerk eine größere Anzahl von Erinnerungen speichern.

Es ist erwähnenswert, dass dieser Ansatz die Online-Eigenschaft von Hopfield-Netzen opfert, die die Verarbeitung von Daten in einem einzigen Durchgang ermöglicht. Der Kompromiss ist jedoch durch die verbesserte Speichereffizienz gerechtfertigt, die durch die Ausnutzung der vollen Kapazität der Gewichte erreicht wird.

Die Einbeziehung des Verlernens, wie von Hopfield, Feinstein und Palmer vorgeschlagen, bietet eine Möglichkeit, falsche Minima zu beseitigen und die Gedächtniskapazität weiter zu erhöhen. Das Verlernen ermöglicht die Trennung zusammengeführter Minima und sorgt so für eine bessere Erinnerung an individuelle Erinnerungen.

Interessanterweise schlugen Crick und Mitchison eine funktionale Erklärung für das Verlernen im REM-Schlaf vor. Sie schlugen vor, dass der Zweck des Träumens darin besteht, die Entfernung von falschen Minima zu erleichtern, das Netzwerk effektiv in einen zufälligen Zustand zurückzusetzen und frühere Muster zu verlernen.

Um die mathematische Herausforderung der Bestimmung des optimalen Ausmaßes an Verlernen anzugehen, besteht eine mögliche Lösung darin, Verlernen als Teil des Modellanpassungsprozesses zu behandeln. Durch den Einsatz der Maximum-Likelihood-Anpassung kann das Verlernen automatisch einbezogen werden, was eine genaue Anleitung zum Ausmaß des Verlernens liefert, das zur Optimierung der Modellleistung erforderlich ist.

Das Bestreben, die Kapazität von Hopfield-Netzen zu verbessern, hat wertvolle Einblicke in die Speicherspeicherung und Lernprozesse gebracht. Die Entwicklung des Perzeptron-Konvergenzverfahrens und die Erforschung des Verlernens haben uns der Ausschöpfung des vollen Potenzials von Hopfield-Netzen für eine effektive Speicherspeicherung und -abfrage näher gebracht.

Lecture 11.2 — Dealing with spurious minima [Neural Networks for Machine Learning]

2016.02.04
www.youtube.com

Lecture from the course Neural Networks for Machine Learning, as taught by Geoffrey Hinton (University of Toronto) on Coursera in 2012. Link to the course (l...

Berater für wen. Jede Maschinelles Lernen im Handel: Quantitativer Handel

MetaQuotes 2023.06.23 08:17 #565

Vorlesung 11.3 – Hopfield-Netze mit versteckten Einheiten

Vorlesung 11.3 – Hopfield-Netze mit versteckten Einheiten [Neuronale Netze für maschinelles Lernen]

In diesem Video werde ich einen neuartigen Ansatz zur Nutzung von Hopfield-Netzen und ihrer Energiefunktion vorstellen. Durch die Einbeziehung verborgener Einheiten in das Netzwerk wollen wir Interpretationen von Wahrnehmungseingaben auf der Grundlage der Zustände dieser verborgenen Einheiten ableiten. Das Schlüsselkonzept besteht darin, dass die Gewichtungen zwischen Einheiten günstige Interpretationen einschränken und wir durch die Suche nach Zuständen mit niedriger Energie gute Interpretationen der Eingabedaten finden können.

Hopfield-Netze kombinieren zwei grundlegende Ideen: die Fähigkeit, lokale Energieminima mithilfe symmetrisch verbundener binärer Schwellenwerteinheiten zu finden, und die Vorstellung, dass diese lokalen Energieminima Erinnerungen entsprechen könnten. Es gibt jedoch eine alternative Möglichkeit, die Fähigkeit zur Ermittlung lokaler Minima zu nutzen. Anstatt das Netzwerk ausschließlich zur Speicherung von Erinnerungen zu nutzen, können wir es nutzen, um Interpretationen sensorischer Eingaben zu konstruieren. Um diese Idee zu veranschaulichen, wollen wir uns mit den Details der Ableitung von Informationen aus einer zweidimensionalen Linie in einem Bild über die dreidimensionale Welt befassen. Wenn wir eine zweidimensionale Linie betrachten, kann sie von verschiedenen dreidimensionalen Kanten auf der Welt ausgehen. Durch den Verlust von Tiefeninformationen im Bild können mehrere 3D-Kanten zu demselben Erscheinungsbild auf der Netzhaut führen. Diese Mehrdeutigkeit entsteht, weil uns das Wissen über die Tiefe an jedem Ende der Linie fehlt.

Um dies zu beheben, gehen wir davon aus, dass eine gerade 3D-Kante in der Welt eine gerade 2D-Linie im Bild verursacht. Diese Annahme eliminiert jedoch zwei Freiheitsgrade in Bezug auf die Tiefe an jedem Ende der 3D-Kante. Folglich entspricht eine ganze Familie von 3D-Kanten derselben 2D-Linie, wir können jedoch jeweils nur eine davon wahrnehmen. Betrachten wir nun ein Beispiel, das zeigt, wie wir die Fähigkeit, Niedrigenergiezustände in einem Netzwerk binärer Einheiten zu finden, nutzen können, um die Interpretation sensorischer Eingaben zu unterstützen. Angenommen, wir haben eine Strichzeichnung und möchten sie als dreidimensionales Objekt interpretieren. Für jede potenzielle 2D-Linie weisen wir ein entsprechendes Neuron zu. In jedem Bild werden nur wenige Neuronen aktiviert, die die aktuellen Linien darstellen.

Um Interpretationen zu konstruieren, führen wir eine Reihe von 3D-Linieneinheiten ein, eine für jede mögliche 3D-Kante. Da jede 2D-Linieneinheit mehreren 3D-Linien entsprechen kann, müssen wir alle relevanten 3D-Linien anregen und gleichzeitig den Wettbewerb zwischen ihnen sicherstellen, da jeweils nur eine 3D-Linie aktiv sein sollte. Um dies zu erreichen, stellen wir erregende Verbindungen von der 2D-Linieneinheit zu allen in Frage kommenden 3D-Linien her, zusammen mit hemmenden Verbindungen, um den Wettbewerb zu ermöglichen.

Allerdings ist die Verkabelung des neuronalen Netzes noch nicht abgeschlossen. Wir müssen Informationen darüber einbeziehen, wie 3D-Kanten verbunden sind. Wenn beispielsweise zwei 2D-Linien im Bild zusammenlaufen, ist es sehr wahrscheinlich, dass sie Kanten mit derselben Tiefe am Verbindungspunkt entsprechen. Wir können diese Erwartung darstellen, indem wir zusätzliche Verbindungen einführen, die solche zusammenfallenden 3D-Kanten unterstützen.

Darüber hinaus können wir das häufige Vorkommen rechtwinklig aneinanderstoßender 3D-Kanten ausnutzen. Indem wir stärkere Verbindungen zwischen zwei 3D-Kanten herstellen, die in der Tiefe übereinstimmen und einen rechten Winkel bilden, können wir ihre zusammenhängende Beziehung anzeigen. Diese Verbindungen, dargestellt durch dickere grüne Linien, geben Aufschluss darüber, wie Kanten in der Welt miteinander verbunden sind, und tragen zur Bildung eines zusammenhängenden 3D-Objekts bei. Unser Netzwerk enthält nun Wissen über die Anordnung von Kanten in der Welt und wie sie projiziert werden, um Linien im Bild zu erzeugen. Wenn wir ein Bild in dieses Netzwerk einspeisen, sollte es eine Interpretation generieren. Im Fall des von mir präsentierten Bildes gibt es zwei unterschiedliche Interpretationen, die als Necker-Würfel bekannt sind. Das Netzwerk würde zwei Energieminima aufweisen, die jeweils einer der möglichen Interpretationen des Necker-Würfels entsprechen.

Bitte beachten Sie, dass dieses Beispiel als Analogie dient, um das Konzept der Verwendung von Niedrigenergiezuständen zur Interpretation von Wahrnehmungsdaten zu verstehen. Die Konstruktion eines umfassenden Modells, das das Umdrehen des Necker-Würfels genau berücksichtigt, wäre erheblich komplexer als das hier beschriebene vereinfachte Szenario. Wenn wir uns dafür entscheiden, Niedrigenergiezustände zu verwenden, um fundierte Wahrnehmungsinterpretationen darzustellen, ergeben sich zwei zentrale Herausforderungen. Zunächst müssen wir uns mit der Frage der Suche befassen – wie wir verhindern können, dass versteckte Einheiten in schlechten lokalen Energieminima gefangen bleiben. Schlechte Minima spiegeln suboptimale Interpretationen basierend auf unserem aktuellen Modell und unseren Gewichtungen wider. Gibt es einen besseren Ansatz, als einfach von einem zufälligen Ausgangszustand aus die Energie abzusenken?

Die zweite Herausforderung ist noch gewaltiger: Wie lernt man die Gewichte der Verbindungen zwischen verborgenen Einheiten sowie zwischen sichtbaren und verborgenen Einheiten? Gibt es einen einfachen Lernalgorithmus zur Anpassung dieser Gewichtungen, wenn man bedenkt, dass es keinen externen Vorgesetzten gibt, der den Lernprozess leitet? Unser Ziel ist es, dass das Netzwerk Input erhält und sinnvolle Aktivitätsmuster in den verborgenen Einheiten konstruiert, die sinnvolle Interpretationen darstellen. Dies stellt eine erhebliche Herausforderung dar.

Zusammenfassend lässt sich sagen, dass die neuartige Nutzung von Hopfield-Netzen und ihrer Energiefunktion die Einbeziehung verborgener Einheiten erfordert, um Interpretationen von Wahrnehmungseingaben abzuleiten. Die Gewichte zwischen den Einheiten stellen Einschränkungen für gute Interpretationen dar, und die Suche nach Niedrigenergiezuständen ermöglicht es uns, günstige Interpretationen zu entdecken.

Allerdings gibt es Herausforderungen zu meistern. Die erste Herausforderung ist das Suchproblem, bei dem es darum geht, nicht in schlechte lokale Energieminima zu geraten. Diese Minima stellen suboptimale Interpretationen dar und es ist entscheidend, eine effiziente Suchmethode zu finden. Die zweite Herausforderung besteht darin, die Gewichtungen der Verbindungen zwischen verborgenen Einheiten sowie zwischen sichtbaren und verborgenen Einheiten zu lernen. Diese Aufgabe wird durch das Fehlen eines Vorgesetzten oder einer externen Anleitung erschwert. Um die Gewichte anzupassen, ist ein geeigneter Lernalgorithmus erforderlich, der es dem Netzwerk ermöglicht, sinnvolle Interpretationen sensorischer Eingaben zu konstruieren. Es ist wichtig zu beachten, dass das bereitgestellte Beispiel, das die Interpretation einer 2D-Linienzeichnung als 3D-Objekt beinhaltet, eine Analogie zur Veranschaulichung des Konzepts der Verwendung von Niedrigenergiezuständen für Interpretationen darstellt. Der Aufbau eines umfassenden Modells zur Handhabung komplexerer Wahrnehmungsphänomene würde komplexere Ansätze erfordern.

Im nächsten Video werden wir uns mit dem Suchproblem befassen und mögliche Lösungen untersuchen, um nicht in schlechten lokalen Minima der Energiefunktion gefangen zu sein.

Lecture 11.3 — Hopfield nets with hidden units [Neural Networks for Machine Learning]

2016.02.04
www.youtube.com

Lecture from the course Neural Networks for Machine Learning, as taught by Geoffrey Hinton (University of Toronto) on Coursera in 2012. Link to the course (l...

Programmier-Tutorial Quantitativer Handel Berechnen Sie den Abstand

MetaQuotes 2023.06.23 08:17 #566