Sie verpassen Handelsmöglichkeiten:
- Freie Handelsapplikationen
- Über 8.000 Signale zum Kopieren
- Wirtschaftsnachrichten für die Lage an den Finanzmärkte
Registrierung
Einloggen
Sie stimmen der Website-Richtlinie und den Nutzungsbedingungen zu.
Wenn Sie kein Benutzerkonto haben, registrieren Sie sich
Vorlesung 8 - Bias-Varianz-Tradeoff
Machine Learning Course von Caltech – CS 156. Vorlesung 08 – Bias-Varianz Tradeoff
Der Professor erörtert den Bias-Varianz-Kompromiss beim maschinellen Lernen und erklärt, wie sich die Komplexität des Hypothesensatzes auf den Kompromiss zwischen Verallgemeinerung und Annäherung auswirkt. Der Dozent stellt das Konzept von Bias und Varianz vor, die die Abweichung zwischen dem Durchschnitt der Hypothesen, die ein maschineller Lernalgorithmus erzeugt, und der tatsächlichen Zielfunktion messen und wie stark die Hypothesenverteilung eines bestimmten Modells basierend auf verschiedenen Datensätzen variiert. Der Kompromiss führt zu einem größeren Hypothesensatz mit einem kleineren Bias, aber einer größeren Varianz, während ein kleinerer Hypothesensatz einen größeren Bias, aber eine kleinere Varianz hat. Der Dozent betont, wie wichtig es ist, über genügend Datenressourcen zu verfügen, um effektiv durch den Hypothesensatz zu navigieren, und hebt den Skalenunterschied zwischen der Bias-Varianz-Analyse und der VC-Analyse hervor.
Er erörtert auch den Kompromiss zwischen einfachen und komplexen Modellen in Bezug auf ihre Fähigkeit zur Annäherung und Verallgemeinerung, wobei weniger Beispiele einfache Modelle erfordern und größere Ressourcen an Beispielen komplexere Modelle erfordern. Die Bias-Varianz-Analyse ist spezifisch für die lineare Regression und setzt die Kenntnis der Zielfunktion voraus, wobei die Validierung der Goldstandard für die Auswahl eines Modells ist. Ensemble-Lernen wird durch Bagging diskutiert, das Bootstrapping verwendet, um mehrere Datensätze zu mitteln und so die Varianz zu reduzieren. Das Gleichgewicht zwischen Varianz und Kovarianz beim Ensemble-Lernen wird ebenfalls erklärt, und die lineare Regression wird als Lerntechnik mit Anpassung als erstem Teil des Lernens klassifiziert, während die Theorie eine gute Out-of-Sample-Leistung betont.
Vorlesung 9 - Das lineare Modell II
Caltech's Machine Learning Course - CS 156. Vorlesung 09 - Das lineare Modell II
Diese Vorlesung behandelt verschiedene Aspekte des linearen Modells, einschließlich der Bias-Varianz-Zerlegung, Lernkurven und Techniken für lineare Modelle wie Perceptrons, lineare Regression und logistische Regression. Der Redner betont den Kompromiss zwischen Komplexität und Verallgemeinerungsleistung, warnt vor Überanpassung und betont, wie wichtig es ist, die VC-Dimension des Hypothesenraums für gültige Garantien richtig aufzuladen. Die Verwendung von nichtlinearen Transformationen und ihre Auswirkungen auf das Generalisierungsverhalten werden ebenfalls diskutiert. Die Vorlesung behandelt ferner die logistische Funktion und ihre Anwendungen bei der Schätzung von Wahrscheinlichkeiten und führt die Konzepte der Wahrscheinlichkeits- und Cross-Entropie-Fehlermaße im Kontext der logistischen Regression ein. Abschließend werden iterative Verfahren zur Optimierung der Fehlerfunktion, wie z. B. Gradientenabstieg, erläutert.
Die Vorlesung behandelt auch eine Reihe von Themen rund um lineare Modelle und Optimierungsalgorithmen im maschinellen Lernen. Der Professor erklärt den Kompromiss zwischen Lernrate und Geschwindigkeit bei der Gradientenabstiegsoptimierung, stellt den logistischen Regressionsalgorithmus vor und diskutiert seine Fehlermaße und seinen Lernalgorithmus. Auch die Herausforderungen der Terminierung im Gradientenabstieg und der Mehrklassenklassifizierung werden angesprochen. Die Rolle der Ableitung und Auswahl von Merkmalen beim maschinellen Lernen wird betont und als eine Kunst in Anwendungsdomänen diskutiert, die in Bezug auf die VC-Dimension aufgeladen ist. Insgesamt bietet diese Vorlesung einen umfassenden Überblick über lineare Modelle und Optimierungsalgorithmen für maschinelles Lernen.
Vorlesung 10 - Neuronale Netze
Machine Learning Course von Caltech – CS 156. Vorlesung 10 – Neuronale Netze
Yaser Abu-Mostafa, Professor am California Institute of Technology, diskutiert in diesem Vortrag logistische Regression und neuronale Netze. Die logistische Regression ist ein lineares Modell, das eine Wahrscheinlichkeitsinterpretation einer begrenzten reellwertigen Funktion berechnet. Es ist nicht in der Lage, sein Fehlermaß direkt zu optimieren, daher wird das Verfahren des Gradientenabstiegs eingeführt, um eine beliebige nichtlineare Funktion zu minimieren, die glatt genug und zweimal differenzierbar ist. Obwohl es keine Lösung in geschlossener Form gibt, ist das Fehlermaß eine konvexe Funktion, was es relativ einfach macht, es unter Verwendung des Gradientenabstiegs zu optimieren.
Der stochastische Gradientenabstieg ist eine Erweiterung des Gradientenabstiegs, der in neuronalen Netzen verwendet wird. Neuronale Netze sind ein Modell, das eine Hypothese umsetzt, die durch einen biologischen Standpunkt motiviert ist und sich auf Perzeptrone bezieht. Der Backpropagation-Algorithmus ist ein effizienter Algorithmus, der zu neuronalen Netzen passt und das Modell besonders praktisch macht. Das Modell hat eine biologische Verbindung, die die Leute begeistert hat und mit dem Algorithmus einfach zu implementieren war. Obwohl es heutzutage nicht mehr das Modell der Wahl ist, haben sich neuronale Netze in der Praxis bewährt und werden immer noch als Standard in vielen Branchen eingesetzt, beispielsweise im Bankwesen und in der Kreditvergabe.
Kurze Zusammenfassung:
Vorlesung 11 - Überanpassung
Machine Learning Course von Caltech – CS 156. Vorlesung 11 – Overfitting
Diese Vorlesung stellt das Konzept und die Bedeutung von Overfitting beim maschinellen Lernen vor. Overfitting tritt auf, wenn ein Modell auf Rauschen statt auf das Signal trainiert wird, was zu einer schlechten Out-of-Sample-Anpassung führt. Die Vorlesung beinhaltet verschiedene Experimente, um die Auswirkungen verschiedener Parameter, wie Rauschpegel und Zielkomplexität, auf Overfitting zu veranschaulichen. Der Dozent betont, wie wichtig es ist, Overfitting frühzeitig zu erkennen und mit Regularisierungs- und Validierungstechniken zu verhindern. Der Einfluss von deterministischem und stochastischem Rauschen auf Overfitting wird ebenfalls diskutiert, und die Vorlesung schließt mit einer Einführung in die nächsten beiden Vorlesungen zur Vermeidung von Overfitting durch Regularisierung und Validierung.
Das Konzept des Overfitting wird diskutiert und die Bedeutung der Regularisierung bei der Prävention wird betont. Der Professor hebt den Kompromiss zwischen Overfitting und Underfitting hervor und erklärt die Rolle der VC-Dimension bei der Überanpassung, bei der die Diskrepanz in der VC-Dimension bei gleicher Anzahl von Beispielen zu Diskrepanzen bei Out-of-Sample- und In-Sample-Fehlern führt. Die praktische Frage der Validierung eines Modells und wie es sich auf Overfitting und Modellauswahl auswirken kann, wird ebenfalls behandelt. Darüber hinaus betont der Professor die Rolle von stückweise linearen Funktionen bei der Verhinderung von Overfitting und betont, wie wichtig es ist, die Anzahl der Freiheitsgrade im Modell zu berücksichtigen und durch Regularisierung einzuschränken.
Vorlesung 12 - Regularisierung
Machine Learning Course von Caltech – CS 156. Vorlesung 12 – Regularisierung
Diese Vorlesung zur Regularisierung beginnt mit einer Erläuterung des Overfitting und seiner negativen Auswirkungen auf die Verallgemeinerung von Machine-Learning-Modellen. Zwei Ansätze zur Regularisierung werden diskutiert: mathematisch und heuristisch. Anschließend geht die Vorlesung auf den Einfluss der Regularisierung auf Bias und Varianz in linearen Modellen am Beispiel von Legendre-Polynomen als expandierenden Komponenten ein. Die Beziehung zwischen C und Lambda bei der Regularisierung wird ebenfalls behandelt, mit einer Einführung in den erweiterten Fehler und seine Rolle bei der Rechtfertigung der Regularisierung für die Generalisierung. Techniken zur Gewichtsabnahme/-zunahme und die Bedeutung der Wahl des richtigen Regularizers zur Vermeidung von Overfitting werden ebenfalls besprochen. Der Vortrag endet mit einem Fokus auf die Auswahl eines guten Omega als heuristische Übung und hofft, dass Lambda als rettende Gnade für die Regularisierung dienen wird.
Der zweite Teil diskutiert den Gewichtsverlust als Möglichkeit, die Einfachheit des Netzwerks mit seiner Funktionalität in Einklang zu bringen. Der Dozent warnt vor Überregulierung und nicht optimaler Leistung und betont die Verwendung von Validierung zur Bestimmung optimaler Regularisierungsparameter für unterschiedliche Lärmpegel. Regularisierung wird als experimentell mit einer Basis in Theorie und Praxis diskutiert. Gängige Arten der Regularisierung wie L1/L2, vorzeitiges Abbrechen und Abbruch werden vorgestellt, zusammen mit der Bestimmung der geeigneten Regularisierungsmethode für verschiedene Probleme. Allgemeine Hyperparameter im Zusammenhang mit der Implementierung von Regularisierungen werden ebenfalls erörtert.
Vorlesung 13 - Validierung
Machine Learning Course von Caltech – CS 156. Vorlesung 13 – Validierung
In Vorlesung 13 liegt der Fokus auf der Validierung als wichtige Technik des maschinellen Lernens zur Modellauswahl. Der Vortrag geht auf die Besonderheiten der Validierung ein, einschließlich dessen, warum sie Validierung genannt wird und warum sie für die Modellauswahl wichtig ist. Kreuzvalidierung wird auch als eine Art der Validierung diskutiert, die es ermöglicht, alle verfügbaren Beispiele für Training und Validierung zu verwenden. Der Dozent erklärt, wie man den Out-of-Sample-Fehler anhand der Zufallsvariablen schätzt, die einen Out-of-Sample-Punkt nimmt und die Differenz zwischen der Hypothese und dem Zielwert berechnet. Der Vortrag diskutiert auch die Verzerrung, die eingeführt wird, wenn die Schätzung verwendet wird, um ein bestimmtes Modell auszuwählen, da es nicht mehr zuverlässig ist, da es auf der Grundlage des Validierungssatzes ausgewählt wurde. Das Konzept der Kreuzvalidierung wird als Methode zur Bewertung des Out-of-Sample-Fehlers für verschiedene Hypothesen eingeführt.
Außerdem behandelt er die Verwendung der Kreuzvalidierung für die Modellauswahl und -validierung, um eine Überanpassung zu verhindern, mit einem Schwerpunkt auf „Leave one out“ und 10-facher Kreuzvalidierung. Der Professor zeigt, wie wichtig es ist, Out-of-Sample-Diskrepanzen und Datenschnüffeln zu berücksichtigen, und schlägt vor, Randomisierungsmethoden einzubeziehen, um Stichprobenverzerrungen zu vermeiden. Er erklärt, dass die Kreuzvalidierung zwar die Komplexität erhöhen kann, aber in Kombination mit der Regularisierung das beste Modell ausgewählt werden kann, und weil die Validierung keine Annahmen erfordert, ist sie einzigartig. Der Professor erklärt weiter, wie die Kreuzvalidierung dabei helfen kann, prinzipientreue Entscheidungen zu treffen, selbst wenn verschiedene Szenarien und Modelle verglichen werden, und wie die Gesamtzahl der Validierungspunkte den Fehlerbalken und die Verzerrung bestimmt.
Vorlesung 14 - Support Vector Machines
Machine Learning Course von Caltech – CS 156. Vorlesung 14 – Support Vector Machines
Die Vorlesung behandelt die Bedeutung der Validierung und ihre Verwendung beim maschinellen Lernen sowie die Vorteile der Kreuzvalidierung gegenüber der Validierung. Der Schwerpunkt der Vorlesung liegt auf Support-Vektor-Maschinen (SVMs) als effektivstes Lernmodell für die Klassifikation, wobei ein detaillierter Überblick über den Abschnitt zur Maximierung des Spielraums, Formulierung und analytische Lösungen durch eingeschränkte Optimierung gegeben wird. Die Vorlesung behandelt eine Reihe technischer Aspekte, darunter die Berechnung des Abstands zwischen einem Punkt und einer Hyperebene in SVMs, die Lösung des Optimierungsproblems für SVMs und die Formulierung des SVM-Optimierungsproblems in seiner dualen Formulierung. Der Dozent diskutiert auch die praktischen Aspekte der Verwendung der quadratischen Programmierung zur Lösung des Optimierungsproblems und die Bedeutung der Identifizierung von Support-Vektoren. Die Vorlesung schließt mit einer kurzen Diskussion über die Verwendung von nichtlinearen Transformationen in SVMs.
Im zweiten Teil dieser Vorlesung über Support-Vektor-Maschinen (SVM) erklärt der Dozent, wie die Anzahl der Support-Vektoren dividiert durch die Anzahl der Beispiele eine Obergrenze für die Fehlerwahrscheinlichkeit bei der Klassifizierung eines Out-of-Sample-Punktes ergibt Verwendung von Stützvektoren mit nichtlinearer Transformation möglich. Der Professor diskutiert auch die Normalisierung von w transponiertem x plus b auf 1 und ihre Notwendigkeit zur Optimierung sowie die Soft-Margin-Version von SVM, die Fehler zulässt und bestraft. Außerdem wird der Zusammenhang zwischen der Anzahl der Support-Vektoren und der VC-Dimension erläutert und die Rauschresistenz des Verfahrens erwähnt, wobei die Soft-Version des Verfahrens bei verrauschten Daten zum Einsatz kommt.
Vorlesung 15 - Kernel-Methoden
Machine Learning Course von Caltech - CS 156. Vorlesung 15 - Kernel-Methoden
Diese Vorlesung über Kernel-Methoden stellt Support-Vektor-Maschinen (SVMs) als lineares Modell vor, das aufgrund des Konzepts der Margenmaximierung leistungsorientierter ist als herkömmliche lineare Regressionsmodelle. Wenn die Daten nicht linear trennbar sind, können nichtlineare Transformationen verwendet werden, um wellige Oberflächen zu erstellen, die dennoch komplexe Hypothesen ermöglichen, ohne einen hohen Preis für Komplexität zu zahlen. Das Video erklärt Kernel-Methoden, die in den hochdimensionalen Z-Raum gehen, und erklärt, wie man das Skalarprodukt berechnet, ohne die einzelnen Vektoren zu berechnen. Das Video skizziert auch die verschiedenen Ansätze, um einen gültigen Kernel für Klassifizierungsprobleme zu erhalten, und erklärt, wie SVM auf nicht trennbare Daten angewendet wird. Schließlich erklärt das Video das Konzept des Slack und die Quantifizierung der Margin-Verletzung in SVM, führt eine Variable xi ein, um die Margin-Verletzung zu bestrafen, und überprüft die Lagrange-Formel zur Auflösung nach Alpha.
Der zweite Teil behandelt praktische Aspekte der Verwendung von Support Vector Machines (SVMs) und Kernel-Methoden. Er erklärt das Konzept von Soft-Margin-Support-Vektor-Maschinen und wie sie eine gewisse Fehlklassifizierung ermöglichen, während sie einen breiten Spielraum beibehalten. Er spricht über die Bedeutung des Parameters C, der bestimmt, wie viele Verletzungen auftreten können, und schlägt vor, eine Kreuzvalidierung zu verwenden, um seinen Wert zu bestimmen. Er geht auch auf Bedenken hinsichtlich der konstanten Koordinate in transformierten Daten ein und versichert den Benutzern, dass sie dieselbe Rolle spielt wie der Bias-Term. Darüber hinaus diskutiert er die Möglichkeit, Kernel zu kombinieren, um neue Kernel zu erzeugen, und schlägt heuristische Methoden vor, die verwendet werden können, wenn die quadratische Programmierung beim Lösen von SVMs mit zu vielen Datenpunkten fehlschlägt.
Vorlesung 16 - Radiale Basisfunktionen
Caltech's Machine Learning Course - CS 156. Vorlesung 16 - Radiale Basisfunktionen
In dieser Vorlesung über radiale Basisfunktionen deckt Professor Yaser Abu-Mostafa eine Reihe von Themen ab, von SVMs bis hin zu Clustering, unüberwachtem Lernen und Funktionsapproximation mit RBFs. Der Vortrag behandelt den Parameterlernprozess für RBFs, die Auswirkung von Gamma auf das Ergebnis einer Gaußschen Funktion in RBF-Modellen und die Verwendung von RBFs zur Klassifizierung. Das Konzept des Clustering wird für das unüberwachte Lernen eingeführt, wobei der Lloyd-Algorithmus und das K-Means-Clustering im Detail besprochen werden. Er beschreibt auch eine Modifikation von RBFs, bei der bestimmte repräsentative Zentren für die Daten ausgewählt werden, um die Nachbarschaft um sie herum zu beeinflussen, und der K-Means-Algorithmus verwendet wird, um diese Zentren auszuwählen. Die Bedeutung der Auswahl eines geeigneten Werts für den Gammaparameter bei der Implementierung von RBFs für die Funktionsnäherung wird ebenfalls diskutiert, zusammen mit der Verwendung mehrerer Gammas für verschiedene Datensätze und der Beziehung von RBFs zur Regularisierung.
Im zweiten Teil diskutiert Yaser Abu-Mostafa radiale Basisfunktionen (RBF) und wie sie basierend auf Regularisierung abgeleitet werden können. Der Professor stellt einen Smoothness Constraint-Ansatz vor, der Ableitungen verwendet, um eine glatte Funktion zu erreichen, und stellt die Herausforderungen bei der Auswahl der Anzahl von Clustern und Gamma dar, wenn es um hochdimensionale Räume geht. Darüber hinaus erklärt der Professor, dass die Verwendung von RBF davon ausgeht, dass die Zielfunktion glatt ist, und das Eingangsrauschen im Datensatz berücksichtigt. Die Grenzen des Clustering werden ebenfalls diskutiert, aber es kann nützlich sein, repräsentative Punkte für überwachtes Lernen zu erhalten. Abschließend erwähnt der Professor, dass RBFs in bestimmten Fällen Support Vector Machines (SVMs) übertreffen können, wenn die Daten auf eine bestimmte Weise geclustert werden und die Cluster einen gemeinsamen Wert haben.
die Lösung ist einfach w gleich dem Kehrwert von phi mal y. Durch die Verwendung des Gaußschen Kerns ist die Interpolation zwischen Punkten exakt, und die Auswirkung der Fixierung des Parameters Gamma wird analysiert.
Vorlesung 17 - Drei Lernprinzipien
Machine Learning Course von Caltech – CS 156. Vorlesung 17 – Drei Lernprinzipien
Diese Vorlesung über Drei Lernprinzipien behandelt Occams Rasiermesser, Sampling Bias und Data Snooping beim maschinellen Lernen. Das Prinzip von Occams Rasiermesser wird ausführlich diskutiert, zusammen mit der Komplexität eines Objekts und einer Menge von Objekten, die auf unterschiedliche Weise gemessen werden können. Der Vortrag erklärt, dass einfachere Modelle oft besser sind, da sie die Komplexität reduzieren und die Out-of-Sample-Performance verbessern. Außerdem werden die Begriffe Falsifizierbarkeit und Nicht-Falsifizierbarkeit eingeführt. Sampling Bias ist ein weiteres Schlüsselkonzept, das diskutiert wird, zusammen mit Methoden, um damit umzugehen, wie z. B. das Abgleichen von Verteilungen von Eingabe- und Testdaten. Datenschnüffeln wird ebenfalls behandelt, mit Beispielen dafür, wie es die Gültigkeit eines Modells beeinflussen kann, einschließlich durch Normalisierung und Wiederverwendung desselben Datensatzes für mehrere Modelle.
Der zweite Teil behandelt das Thema Datenschnüffeln und seine Gefahren beim maschinellen Lernen, insbesondere in Finanzanwendungen, bei denen eine Überanpassung aufgrund von Datenschnüffeln besonders riskant sein kann. Der Professor schlägt zwei Abhilfemaßnahmen für das Datenschnüffeln vor: es zu vermeiden oder es zu berücksichtigen. Der Vortrag berührt auch die Bedeutung der Skalierung und Normalisierung von Eingabedaten sowie das Prinzip von Occams Rasiermesser im maschinellen Lernen. Darüber hinaus erläutert das Video, wie man Sampling-Bias in Computer-Vision-Anwendungen richtig korrigiert, und schließt mit einer Zusammenfassung aller behandelten Themen.