Maschinelles Lernen und neuronale Netze - Seite 4

 

Vorlesung 8 - Bias-Varianz-Tradeoff



Machine Learning Course von Caltech – CS 156. Vorlesung 08 – Bias-Varianz Tradeoff

Der Professor erörtert den Bias-Varianz-Kompromiss beim maschinellen Lernen und erklärt, wie sich die Komplexität des Hypothesensatzes auf den Kompromiss zwischen Verallgemeinerung und Annäherung auswirkt. Der Dozent stellt das Konzept von Bias und Varianz vor, die die Abweichung zwischen dem Durchschnitt der Hypothesen, die ein maschineller Lernalgorithmus erzeugt, und der tatsächlichen Zielfunktion messen und wie stark die Hypothesenverteilung eines bestimmten Modells basierend auf verschiedenen Datensätzen variiert. Der Kompromiss führt zu einem größeren Hypothesensatz mit einem kleineren Bias, aber einer größeren Varianz, während ein kleinerer Hypothesensatz einen größeren Bias, aber eine kleinere Varianz hat. Der Dozent betont, wie wichtig es ist, über genügend Datenressourcen zu verfügen, um effektiv durch den Hypothesensatz zu navigieren, und hebt den Skalenunterschied zwischen der Bias-Varianz-Analyse und der VC-Analyse hervor.

Er erörtert auch den Kompromiss zwischen einfachen und komplexen Modellen in Bezug auf ihre Fähigkeit zur Annäherung und Verallgemeinerung, wobei weniger Beispiele einfache Modelle erfordern und größere Ressourcen an Beispielen komplexere Modelle erfordern. Die Bias-Varianz-Analyse ist spezifisch für die lineare Regression und setzt die Kenntnis der Zielfunktion voraus, wobei die Validierung der Goldstandard für die Auswahl eines Modells ist. Ensemble-Lernen wird durch Bagging diskutiert, das Bootstrapping verwendet, um mehrere Datensätze zu mitteln und so die Varianz zu reduzieren. Das Gleichgewicht zwischen Varianz und Kovarianz beim Ensemble-Lernen wird ebenfalls erklärt, und die lineare Regression wird als Lerntechnik mit Anpassung als erstem Teil des Lernens klassifiziert, während die Theorie eine gute Out-of-Sample-Leistung betont.

  • 00:00:00 In diesem Abschnitt verlagert sich der Schwerpunkt auf den Bias-Varianz-Kompromiss, der ein weiterer Ansatz zum Verständnis der Verallgemeinerung ist. In den vorangegangenen Vorlesungen hat die VC-Analyse die Verallgemeinerungsfähigkeit einer ausgewählten Hypothese über die VC-Dimension eines Hypothesensatzes festgestellt. Die VC-Grenze gilt für jeden Lernalgorithmus, für alle Eingabedaten und für jede Zielfunktion. Ein Aspekt der VC-Analyse ist, dass sie ein praktisches Maß bereitstellt. Indem wir die Fehlerwahrscheinlichkeit gegen die Anzahl der Beispiele aufgetragen haben, haben wir festgestellt, dass die Anzahl der benötigten Beispiele proportional zur VC-Dimension ist, oder als Faustregel, dass Sie das 10-fache der VC-Dimension benötigen, um interessante Generalisierungseigenschaften zu erhalten. Schließlich haben wir die VC-Analyse zu einer Verallgemeinerungsgrenze zusammengefasst, die wir in späteren Techniken wie der Regularisierung verwenden werden.

  • 00:05:00 In diesem Abschnitt erörtert der Dozent den Kompromiss zwischen Annäherung und Verallgemeinerung beim Lernen. Das Lernen zielt darauf ab, ein kleines E_out zu erreichen, was bedeutet, dass die Hypothese die Zielfunktion gut approximiert und dass diese Approximation Out-of-Sample gilt. Ein komplexerer Hypothesensatz erhöht jedoch die Wahrscheinlichkeit, f gut zu approximieren, führt jedoch zu einem Problem bei der Identifizierung der geeigneten Hypothese. Ein idealer Hypothesensatz zum Lernen ist eine Singleton-Hypothese, die zufällig die Zielfunktion ist. Da wir die Zielfunktion jedoch nicht kennen, brauchen wir eine Hypothesenmenge, die groß genug ist, um eine Chance zu haben. Darüber hinaus erörtert der Dozent, wie die Bias-Varianz-Analyse auch E_out zerlegt, während die VC-Analyse die Quantifizierung des Kompromisses betont.

  • 00:10:00 In diesem Abschnitt stellt der Referent den Bias-Varianz-Kompromiss vor und wie er sich auf reellwertige Funktionen und Regression unter Verwendung von quadratischen Fehlern bezieht. Das Ziel besteht darin, den Out-of-Sample-Fehler in zwei konzeptionelle Komponenten zu zerlegen: Approximation und Generalisierung. Dazu verwendet der Sprecher den Erwartungswert des Fehlers in Bezug auf einen bestimmten Datensatz, da die endgültige Hypothese von dem verwendeten Datensatz abhängt, aber darauf abzielt, die Abhängigkeit durch Integrieren des Datensatzes aufzuheben. Das Ergebnis ist eine Möglichkeit, das allgemeine Verhalten des Fehlers zu analysieren, wenn eine bestimmte Anzahl von Datenpunkten zum Arbeiten gegeben ist.

  • 00:15:00 In diesem Abschnitt erklärt der Dozent, wie man die Erwartungswerte eines Verhaltens in Bezug auf alle möglichen Realisierungen von 100 Beispielen berechnet. Indem er die Integrationsreihenfolge umkehrt und eine Erwartung beseitigt, gelangt der Dozent zu einer sauberen Dekomposition. Der nächste Schritt besteht darin, eine Durchschnittshypothese abzuleiten, indem man den Erwartungswert aller möglichen Hypothesen erhält. Obwohl dies sicherlich eine unmögliche Aufgabe ist, bietet es ein konzeptionelles Werkzeug für die Analyse. Das Verständnis des technischen Nutzens von g bar wird wichtig, wenn der oberste Ausdruck erweitert wird, um einen linearen Begriff zu erhalten, der letztendlich die Definition von g bar erfordert.

  • 00:20:00 In diesem Abschnitt zerlegt der Dozent eine Größe in zwei Schritte, die bestimmen, wie weit die Hypothese, die ein maschineller Lernalgorithmus aus einem gegebenen Datensatz ableitet, von der Zielfunktion abweicht. Im ersten Schritt wird bewertet, wie weit diese Hypothese von der besten Hypothese abweicht, die der Algorithmus bei gegebenem Datensatz erzeugen kann, während im zweiten Schritt bewertet wird, wie weit diese beste Hypothese von der eigentlichen Zielfunktion abweicht. Der Dozent gelangt zu zwei Größen, dem Bias und der Varianz, um diese beiden Schritte zu bezeichnen. Der Bias misst die Abweichung zwischen dem Durchschnitt der Hypothesen, die ein maschineller Lernalgorithmus erzeugt, und der tatsächlichen Zielfunktion, die den Hypothesensatz des Algorithmus endlich festlegt. In der Zwischenzeit misst die Varianz, wie stark die Verteilung der Hypothesen eines bestimmten Modells basierend auf verschiedenen Datensätzen variiert.

  • 00:25:00 In diesem Abschnitt erörtert der Professor den Bias-Varianz-Kompromiss beim maschinellen Lernen. Er erklärt, dass die Verzerrung die Einschränkung des Hypothesensatzes ist und die Varianz der Unterschied im Ergebnis bei der Verwendung verschiedener Datensätze ist. Er zeigt dann, wie es einen Kompromiss zwischen Generalisierung und Annäherung gibt, wenn die Größe des Hypothesensatzes geändert wird, und veranschaulicht diese Idee mit einem Vergleich eines kleinen und eines großen Hypothesensatzes. Er argumentiert, dass ein größerer Hypothesensatz eine kleinere Verzerrung, aber eine größere Varianz haben wird, während ein kleinerer Hypothesensatz eine größere Verzerrung, aber eine kleinere Varianz haben wird.

  • 00:30:00 In diesem Abschnitt stellt der Referent das Konzept des Bias-Varianz-Kompromisses vor, bei dem die Bias abnimmt und die Varianz zunimmt, wenn der Hypothesensatz größer wird. Um dies zu verstehen, führt der Sprecher ein konkretes Beispiel an, bei dem die Zielfunktion eine Sinuskurve ist, und es werden zwei unterschiedliche Hypothesensätze angegeben: ein konstantes Modell und ein lineares Modell. Der Sprecher zeigt dann, dass das lineare Modell eine bessere Annäherung an die Sinuskurve liefert, jedoch mit einigen Fehlern. Dies ist keine Lernsituation, sondern veranschaulicht den Kompromiss zwischen Verzerrung und Varianz bei der Annäherung an die Zielfunktion und ebnet den Weg für komplexere Lernprobleme.

  • 00:35:00 In diesem Abschnitt erklärt der Dozent den Bias-Varianz-Tradeoff beim maschinellen Lernen. Er verwendet das Beispiel des Anpassens einer Linie an zwei Punkte, um erstens eine Zielfunktion zu approximieren und zweitens aus Beispielen zu lernen. Die Bias-Varianz-Analyse wird benötigt, um die Leistung eines Modells zu bewerten, unabhängig davon, welche zwei Punkte verwendet werden, und um die Herausforderungen der Bewältigung der Abhängigkeit vom Datensatz zu bewältigen. Der Dozent generiert dann Datensätze der Größe zwei Punkte, passt eine Linie an sie an und zeigt, dass der erwartete Out-of-Sample-Fehler hauptsächlich die Summe aus Bias und Varianz ist. Die sehr hellgrüne Linie, g Balken von x, ist die Durchschnittshypothese, die er erhält, wenn er dieses Spiel wiederholt. Dennoch ist es nicht das Ergebnis des Lernprozesses, da unterschiedliche Datensätze unterschiedliche Schätzungen liefern.

  • 00:40:00 In diesem Abschnitt des Videos wird das Konzept des Bias-Varianz-Kompromisses im Zusammenhang mit maschinellem Lernen erörtert. Die Varianz wird als Standardabweichung der Ausgabe des Lernprozesses berechnet, während die systematische Abweichung der Fehler zwischen der vorhergesagten Ausgabe und der Zielfunktion ist. Der Kompromiss zwischen Bias und Varianz wird anhand von zwei Modellen demonstriert, eines mit einem kleinen Bias und einer großen Varianz und das andere mit einem großen Bias und einer kleinen Varianz. Es versteht sich, dass in einer Lernsituation die Modellkomplexität eher an die verfügbaren Datenressourcen als an die Zielkomplexität angepasst werden sollte.

  • 00:45:00 In diesem Abschnitt erörtert der Referent den Bias-Varianz-Kompromiss beim Lernen und stellt das Konzept der Lernkurven vor. Lernkurven zeichnen die erwarteten Werte von E_out (Out-of-Sample-Fehler) und E_in (In-Sample-Fehler) als Funktion von N, der Größe des Datensatzes. Wenn N zunimmt, nimmt der Out-of-Sample-Fehler im Allgemeinen ab, aber dieser Trend kann durch die Komplexität des verwendeten Modells beeinflusst werden. Der Sprecher betont, wie wichtig es ist, über genügend Datenressourcen zu verfügen, um effektiv durch den Hypothesensatz zu navigieren, und stellt fest, dass verrauschte Daten diese Navigation noch schwieriger machen können. Die Lernkurven bieten eine visuelle Darstellung des Bias-Varianz-Kompromisses und wie er sich mit zunehmendem N ändert.

  • 00:50:00 In diesem Abschnitt diskutiert der Dozent die Beziehung zwischen der Bias-Varianz-Analyse und der VC-Analyse anhand von Lernkurven. Er erklärt, dass beide Theorien die Annäherung diskutieren und berücksichtigen, was bei der Verallgemeinerung passiert. Der Dozent hebt den Skalenunterschied zwischen den beiden Theorien hervor und erwähnt, dass die Verzerrung vom Hypothesensatz abhängt. Abschließend behandelt der Dozent kurz die Analyse für den Fall der linearen Regression und empfiehlt sie als gute Übung, um einen Einblick in die lineare Regression zu erhalten.

  • 00:55:00 In diesem Abschnitt beschreibt der Ausbilder das In-Sample-Fehlermuster und das Out-of-Sample-Fehlermuster, insbesondere unter Verwendung der Lernkurven. Der Kursleiter verwendet lineare Regression und Rauschen, um eine einfache Formel für den erwarteten In-Sample-Fehler zu veranschaulichen: Er ist fast perfekt, und Sie schneiden besser als perfekt ab, wenn Sie das Verhältnis von d plus 1 betrachten. Der Kursleiter betont eine sehr spezifische Kurve, die das zeigt Je mehr Datenpunkte Sie haben, desto weniger Rauschen wirkt sich auf die Fehlerrate aus. Wenn Sie sich jedoch zu stark an die Beispieldaten anpassen, passen Sie am Ende das Rauschen an, und dies schadet Ihnen, anstatt Ihnen auf lange Sicht zu helfen.

  • 01:00:00 In diesem Abschnitt spricht der Professor über den Kompromiss zwischen einfachen und komplexen Modellen und ihre Fähigkeit zur Annäherung und Verallgemeinerung. Während komplexe Modelle die Zielfunktion und Trainingsbeispiele besser annähern können, sind die einfachen Modelle besser in Bezug auf die Verallgemeinerungsfähigkeit. Dies liegt daran, dass es einen Kompromiss zwischen den beiden gibt und die Summe beider Größen in beide Richtungen gehen könnte. Der Schlüssel liegt darin, die Komplexität des Modells an die verfügbaren Datenressourcen anzupassen. Weniger Beispiele bedeuten, dass einfache Modelle verwendet werden sollten, während größere Ressourcen an Beispielen komplexe Modelle für eine bessere Leistung erfordern. Der erwartete Verallgemeinerungsfehler kann mithilfe der Formel gefunden werden, die die VC-Dimension dividiert durch die Anzahl der Beispiele ist.

  • 01:05:00 In diesem Abschnitt erläutert der Professor, inwiefern die Bias-Varianz-Analyse spezifisch für die lineare Regression ist und davon ausgeht, dass Sie die Zielfunktion kennen. Obwohl es ein hilfreicher Leitfaden ist und verwendet werden kann, um zu verstehen, wie sowohl Verzerrung als auch Varianz beeinflusst werden können, kann es nicht angeschlossen werden, um Ihnen zu sagen, was das Modell ist. Er erwähnt auch, dass der Goldstandard für die Auswahl eines Modells die Validierung ist, die Ensemble-Methoden wie Boosting umfasst. Der Professor stellt dann kurz die Idee von g bar als theoretisches Analysewerkzeug vor, merkt aber an, dass dies nicht der Schwerpunkt dieser Vorlesung ist.

  • 01:10:00 In diesem Abschnitt spricht der Professor über Ensemble-Lernen durch Bagging, bei dem ein Datensatz verwendet wird, um eine große Anzahl verschiedener Datensätze durch Bootstrapping und Mittelwertbildung zu generieren. Dies ergibt eine gewisse Dividende für das Lernen des Ensembles und kann dazu beitragen, die Varianz zu verringern, indem viele Dinge gemittelt werden. Der Moderator fragt dann, ob die Bias-Varianz immer noch durch den Bayes'schen Ansatz erscheint. Der Professor erklärt, dass, obwohl der Bayes'sche Ansatz bestimmte Annahmen macht, die Bias-Varianz immer noch existiert. Abschließend spricht er über die Beziehung der numerischen Funktionsapproximation mit der Extrapolation beim maschinellen Lernen und das Bias-Varianz-Kovarianz-Dilemma.

  • 01:15:00 In diesem Abschnitt der Vorlesung geht der Professor auf die Balance zwischen Varianz und Kovarianz im Kontext des Ensemblelernens ein. Er erklärt, dass er bei der Bias-Varianz-Analyse den Luxus hatte, unabhängig generierte Datensätze auszuwählen, unabhängige Modelle zu erstellen und diese dann zu mitteln. In der Praxis beginnt jedoch beim Erstellen von Modellen auf der Grundlage von Variationen des Datensatzes die Kovarianz zwischen den Modellen eine Rolle zu spielen. Als er später gefragt wird, ob die lineare Regression eine Lerntechnik oder nur eine Funktionsannäherung ist, erklärt der Professor, dass die lineare Regression eine Lerntechnik ist und die Anpassung der erste Teil des Lernens ist. Das hinzugefügte Element soll sicherstellen, dass das Modell außerhalb der Stichprobe gut funktioniert, worum es in der Theorie geht.
Lecture 08 - Bias-Variance Tradeoff
Lecture 08 - Bias-Variance Tradeoff
  • 2012.04.28
  • www.youtube.com
Bias-Variance Tradeoff - Breaking down the learning performance into competing quantities. The learning curves. Lecture 8 of 18 of Caltech's Machine Learning...
 

Vorlesung 9 - Das lineare Modell II



Caltech's Machine Learning Course - CS 156. Vorlesung 09 - Das lineare Modell II

Diese Vorlesung behandelt verschiedene Aspekte des linearen Modells, einschließlich der Bias-Varianz-Zerlegung, Lernkurven und Techniken für lineare Modelle wie Perceptrons, lineare Regression und logistische Regression. Der Redner betont den Kompromiss zwischen Komplexität und Verallgemeinerungsleistung, warnt vor Überanpassung und betont, wie wichtig es ist, die VC-Dimension des Hypothesenraums für gültige Garantien richtig aufzuladen. Die Verwendung von nichtlinearen Transformationen und ihre Auswirkungen auf das Generalisierungsverhalten werden ebenfalls diskutiert. Die Vorlesung behandelt ferner die logistische Funktion und ihre Anwendungen bei der Schätzung von Wahrscheinlichkeiten und führt die Konzepte der Wahrscheinlichkeits- und Cross-Entropie-Fehlermaße im Kontext der logistischen Regression ein. Abschließend werden iterative Verfahren zur Optimierung der Fehlerfunktion, wie z. B. Gradientenabstieg, erläutert.

Die Vorlesung behandelt auch eine Reihe von Themen rund um lineare Modelle und Optimierungsalgorithmen im maschinellen Lernen. Der Professor erklärt den Kompromiss zwischen Lernrate und Geschwindigkeit bei der Gradientenabstiegsoptimierung, stellt den logistischen Regressionsalgorithmus vor und diskutiert seine Fehlermaße und seinen Lernalgorithmus. Auch die Herausforderungen der Terminierung im Gradientenabstieg und der Mehrklassenklassifizierung werden angesprochen. Die Rolle der Ableitung und Auswahl von Merkmalen beim maschinellen Lernen wird betont und als eine Kunst in Anwendungsdomänen diskutiert, die in Bezug auf die VC-Dimension aufgeladen ist. Insgesamt bietet diese Vorlesung einen umfassenden Überblick über lineare Modelle und Optimierungsalgorithmen für maschinelles Lernen.

  • 00:00:00 In diesem Abschnitt erörtert Yaser Abu-Mostafa die Bias-Varianz-Zerlegung im Out-of-Sample-Fehler und veranschaulicht, wie sie sich mit dem Hypothesensatz verträgt. Er erklärt auch Lernkurven, die den Generalisierungsfehler beschreiben, und wie die Anzahl der Beispiele proportional zur VC-Dimension die Generalisierungseigenschaften bestimmt. Techniken für lineare Modelle werden ebenfalls diskutiert.

  • 00:05:00 In diesem Abschnitt des Vortrags fasst der Referent kurz das lineare Modell in Bezug auf lineare Klassifikation und lineare Regression zusammen, die in früheren Vorträgen behandelt wurden, und geht dann zum dritten Typ des linearen Modells über – der logistischen Regression. Bevor mit der logistischen Regression begonnen wird, bringt der Referent die losen Enden in Bezug auf nichtlineare Transformationen und Generalisierungsfragen zusammen. Nichtlineare Transformationen bieten eine Plattform für die Anwendung von Lernalgorithmen im Z-Raum (Merkmalsraum), wobei die endgültige Hypothese immer noch im X-Raum (Eingaberaum) liegt. Bei den nichtlinearen Transformationen betont der Referent, dass die Verallgemeinerungsfragen ausgespart wurden und er im Vortrag das fehlende Stück liefern wird.

  • 00:10:00 In diesem Abschnitt diskutiert der Dozent den Preis, den man für nichtlineare Transformationen zahlt, wenn es um das Generalisierungsverhalten im X-Raum geht. Indem Sie das lineare Modell im X-Raum verwenden, können Sie einen Gewichtsvektor von d+1 freien Parametern erhalten. Die VC-Dimension im Merkmalsraum kann jedoch potenziell viel größer sein als die des X-Raums. Wenn die VC-Dimension zu groß ist, dann gibt es, obwohl es möglich ist, das Polynom 17. Ordnung anzupassen, keine wirkliche Chance auf Verallgemeinerung. Es werden zwei Fälle diskutiert, wobei der erste Fall fast linear trennbar ist und der zweite Fall echt nichtlinear ist. Um E_in auf Null zu bringen, muss man in einen hochdimensionalen Raum gehen, was zu einem Problem wird, da nur zwei Punkte zu klassifizieren sind.

  • 00:15:00 In diesem Abschnitt der Vorlesung diskutiert der Dozent den Kompromiss zwischen Approximation und Generalisierung beim Umgang mit linearen Modellen. Er spricht darüber, wie die Verwendung eines komplexeren Modells, wie z. B. einer Oberfläche vierter Ordnung, die Daten besser annähern kann, aber möglicherweise nicht gut verallgemeinert werden kann. Er erwähnt auch die Idee, eine Transformation in einen nichtlinearen Raum zu verwenden, warnt jedoch davor, die Anzahl der Parameter herabzusetzen. Der Ausbilder erklärt, dass das Aufladen der VC-Dimension des gesamten im Geist erforschten Hypothesenraums wichtig ist, damit die durch die VC-Ungleichung bereitgestellte Garantie gültig ist.

  • 00:20:00 In diesem Abschnitt konzentriert sich die Diskussion auf die Gefahren des Datenschnüffelns bei der Auswahl eines Modells, bevor die Daten betrachtet werden. Es wird betont, dass diese Praxis zu einem kontaminierten Hypothesensatz führen kann, was bedeutet, dass die Daten nicht mehr vertrauenswürdig sind, um die Leistung in der realen Welt widerzuspiegeln. Das Konzept der logistischen Regression wird zusammen mit ihrem einzigartigen Modell, Fehlermaß und Lernalgorithmus eingeführt. Dieses lineare Modell wird als bedeutende Ergänzung zu den zuvor besprochenen Perzeptron- und linearen Regressionsmodellen angesehen und liefert ein nützliches Beispiel für die Komplexität und Variationen, die beim maschinellen Lernen existieren.

  • 00:25:00 In diesem Abschnitt diskutiert der Dozent das lineare Modell und die verschiedenen Möglichkeiten, wie es verwendet werden kann, wie Perceptrons, lineare Regression und logistische Regression. Für die lineare Klassifizierung ist die Hypothese eine Entscheidung von +1 oder -1, was eine direkte Schwellenwertbildung des Signals ist. Im Fall der linearen Regression ist die Ausgabe dieselbe wie die Eingabe, während die logistische Regression eine Nichtlinearität, die als logistische Funktion bezeichnet wird, auf das Signal anwendet, die als Wahrscheinlichkeit interpretiert wird, dass etwas passiert. Der Dozent erläutert die Form der logistischen Funktion und ihre Anwendungen bei der Schätzung von Wahrscheinlichkeiten für verschiedene Probleme, wie z. B. Kreditkartenanwendungen.

  • 00:30:00 In diesem Abschnitt wird das Konzept einer weichen Schwelle oder eines Sigmoids im Zusammenhang mit der logistischen Funktion eingeführt. Diese Funktion nimmt ein lineares Signal als Eingabe und gibt eine Wahrscheinlichkeit aus. Es ist besonders nützlich bei der Vorhersage von Ergebnissen wie dem Risiko eines Herzinfarkts, bei dem mehrere Faktoren zur Wahrscheinlichkeit des Eintretens eines Ereignisses beitragen. Die Ausgabe der logistischen Regression wird während des Lernprozesses als echte Wahrscheinlichkeit behandelt, obwohl die Eingabedaten diese Informationen nicht direkt liefern.

  • 00:35:00 In diesem Abschnitt diskutieren wir überwachtes Lernen in medizinischen Daten und wie man ein Modell generiert, das eine verborgene Zielfunktion approximiert. Die Beispiele werden als binäre Ausgabe gegeben, die von einer Wahrscheinlichkeit beeinflusst wird, was dies zu einem verrauschten Fall macht. Das Ziel ist vom d-dimensionalen euklidischen Raum bis 0,1 mit einer Wahrscheinlichkeitsinterpretation, f von x. Die Hypothese g von x wird gefunden, indem man die Gewichte findet und sie mit x punktproduktiert. Das Ziel besteht darin, die Gewichte so zu wählen, dass die logistische Regressionshypothese die Zielfunktion widerspiegelt, indem ein Fehlermaß verwendet wird, das durch Wahrscheinlichkeit konstruiert wird, das sowohl plausibel als auch für den Optimierer freundlich ist. Das Fehlermaß stuft verschiedene Hypothesen nach der Wahrscheinlichkeit ein, dass sie tatsächlich das Ziel sind, das die Daten generiert hat.

  • 00:40:00 In diesem Abschnitt des Vortrags diskutiert der Referent die Verwendung von Wahrscheinlichkeit und die Kontroverse um ihre Anwendung. Er erklärt, dass die Verwendung der Wahrscheinlichkeit darin besteht, die plausibelste Hypothese angesichts der Daten zu finden. Es ist jedoch kein vollständig sauberer Prozess, da die Wahrscheinlichkeit nicht die erforderliche Wahrscheinlichkeit ist. Anschließend stellt der Referent eine Wahrscheinlichkeitsformel vor und erläutert, wie daraus ein vollwertiges Fehlermaß abgeleitet werden kann. Die Formel wird dann verwendet, um die Wahrscheinlichkeit eines gesamten Datensatzes zu ermitteln, die ein Produkt der Wahrscheinlichkeiten einzelner Datenpunkte ist. Er kommt zu dem Schluss, dass es bei der Auswahl einer Hypothese immer einen Kompromiss geben wird, da die Bevorzugung eines Beispiels die anderen durcheinander bringen kann.

  • 00:45:00 In diesem Abschnitt des Vortrags erklärt der Referent, wie die Maximierung der Wahrscheinlichkeit einer Hypothese unter einem Datensatz zu einer Minimierung des Fehlermaßes führen kann. Die Verwendung des natürlichen Logarithmus ermöglicht es, dass die Maximierung zu einer Minimierung wird, was zu einem Fehlermaß im Trainingssatz führt. Nach der Vereinfachung der Formel nennt der Sprecher das Fehlermaß den In-Sample-Fehler der logistischen Regression und definiert es als das Fehlermaß zwischen der Hypothese, die von w abhängt, angewendet auf x_n, und dem Wert, der als Label für dieses Beispiel angegeben ist , das ist y_n. Der Referent geht auch auf die interessante Interpretation des Risiko-Scores ein, der Herzinfarktgefährdete anhand des Vorzeichens von w transponiert x_n identifiziert.

  • 00:50:00 In diesem Abschnitt wird das Kreuzentropiefehlermaß eingeführt, um die Genauigkeit binärer Vorhersagen zu messen. Ziel ist es, dieses Fehlermaß zu minimieren, um die Vorhersagen des Modells zu verbessern. Anders als bei der linearen Regression gibt es jedoch keine Lösung in geschlossener Form, um das Fehlermaß für die logistische Regression zu minimieren. Stattdessen wird eine iterative Lösung benötigt, die durch das Gradientenabstiegsverfahren erreicht wird. Bei dieser Methode wird ein Schritt entlang der steilsten Neigung der Oberfläche gemacht und wiederholt, bis das Minimum erreicht ist. Die Konvexität des Fehlermaßes für die logistische Regression macht den Gradientenabstieg zu einer guten Wahl für die Optimierung.

  • 00:55:00 In diesem Abschnitt der Vorlesung diskutiert der Professor die iterativen Methoden, die verwendet werden, um den Minimalwert der Fehlerfunktion im linearen Modell zu finden. Er erklärt, dass diese Methoden darin bestehen, sich in kleinen Schritten entlang der Oberfläche zu bewegen und lokale Annäherungen mit Kalkül, insbesondere Taylor-Reihen, vorzunehmen. Anschließend führt er das Konzept des Gradientenabstiegs ein, bei dem das nächste Gewicht durch das aktuelle Gewicht plus die Bewegung in eine bestimmte Richtung bestimmt wird, die durch Auflösen nach dem Einheitsvektor in Richtung des steilsten Abstiegs bestimmt wird. Der Professor erklärt weiter, wie man als Bewegungsrichtung diejenige Richtung wählt, die den negativsten Wert für das Skalarprodukt zwischen einem Vektor und einem Einheitsvektor erreicht.

  • 01:00:00 In diesem Abschnitt diskutiert der Dozent den Kompromiss zwischen der Größe des Schritts oder der Lernrate bei der Optimierung des Gradientenabstiegs. Wenn Sie sehr kleine Schritte unternehmen, erreichen Sie schließlich das Minimum, aber es würde ewig dauern, während größere Schritte schneller wären, aber möglicherweise keine lineare Annäherung anwenden. Nach der Analyse der Diagramme besteht der beste Kompromiss darin, zunächst eine hohe Lernrate zu haben, um steile Flanken zu nutzen, und vorsichtiger zu werden, wenn man sich dem Minimum nähert, um ein Überschwingen zu vermeiden. Der Dozent stellt dann die Formel für eine feste Lernrate vor, wobei die Lernrate proportional zur Größe des Gradienten ist. Dann wird der logistische Regressionsalgorithmus eingeführt, bei dem der Gradient unter Verwendung der In-Sample-Fehlerformel berechnet wird und das nächste Gewicht durch Subtrahieren der Lernrate multipliziert mit dem Gradienten von dem aktuellen Gewicht erhalten wird. Schließlich werden alle drei linearen Modelle, Perzeptron, lineare Regression und logistische Regression, auf einer Folie zusammengefasst und auf den Kreditbereich angewendet.

  • 01:05:00 In diesem Abschnitt geht der Professor auf die verschiedenen Arten von linearen Modellen ein, die in der Kreditanalyse implementiert werden können, sowie auf die entsprechenden verwendeten Fehlermaße und Lernalgorithmen. Beispielsweise wird das Perzeptron für die binäre Klassifizierung verwendet und die logistische Regression wird verwendet, um die Ausfallwahrscheinlichkeit zu berechnen. Für jedes Modell wurden unterschiedliche Fehlermaße verwendet, wie z. B. der binäre Klassifikationsfehler für das Perzeptron und der Kreuzentropiefehler für die logistische Regression. Der verwendete Lernalgorithmus war abhängig von dem gewählten Fehlermaß, wie dem Perzeptron-Lernalgorithmus für Klassifikationsfehler und Gradientenabstieg für Kreuzentropiefehler. Abschließend diskutiert der Professor kurz Terminierungskriterien und Probleme, die sich bei der Terminierung im Gradientenabstieg ergeben, da eine richtig analysierte Terminierung aufgrund vieler Unbekannter in der Fehleroberfläche etwas schwierig ist.

  • 01:10:00 In diesem Abschnitt erklärt der Referent, dass Gradient Descent ein effektiver, aber nicht narrensicherer Optimierungsalgorithmus ist. Wenn die Oberfläche, auf der der Optimierungsalgorithmus zu navigieren versucht, mehrere lokale Minima aufweist, findet der Algorithmus möglicherweise nur ein lokales Minimum anstelle eines globalen Minimums, das das beste Ergebnis liefert. Der Sprecher schlägt vor, eine Kombination von Kriterien zu verwenden, um den Optimierungsalgorithmus zu beenden, und stellt fest, dass der konjugierte Gradient eine gültige Alternative zum Gradientenabstieg ist. Der Referent schlägt vor, dass es im Bereich der Optimierung viele Ansätze gibt, um dieses Problem anzugehen, wenn lokale Minima zu einem echten Problem in einer Anwendung werden.

  • 01:15:00 In diesem Abschnitt erklärt der Professor das Konzept der Kreuzentropie, das eine Möglichkeit ist, eine Beziehung zwischen zwei Wahrscheinlichkeitsverteilungen unter Verwendung von logarithmischen und erwarteten Werten herzustellen. Der Professor erörtert auch die Grenzen der binären Suche und Methoden zweiter Ordnung in der Optimierung und betont, dass ausgeklügeltere Methoden zwar zu besseren Ergebnissen führen, aber in Bezug auf die CPU-Zyklen zu teuer sein können. Als Antwort auf eine Frage bestätigt der Professor schließlich, dass die logistische Regression auf eine Umgebung mit mehreren Klassen angewendet werden kann, wie am Beispiel der Erkennung von Ziffern gezeigt wird.

  • 01:20:00 In diesem Abschnitt der Vorlesung geht der Professor auf verschiedene Methoden zur Mehrklassenklassifikation ein, darunter ordinale Regression und baumbasierte binäre Entscheidungen. Der Professor stellt auch die Verwendung der tanh-Funktion vor, die als neuronale Funktion in neuronalen Netzen verwendet wird. Das Konzept der Lernrate wird ebenfalls diskutiert, wobei der Professor erwähnt, dass es Heuristiken für adaptive Lernraten gibt, die verwendet werden können, und eine Faustregel für die Wahl der Lernrate vorgestellt wird. Darüber hinaus wird zwischen sinnvollen Merkmalen und Merkmalen, die sich aus der Betrachtung des spezifischen Datensatzes ergeben, unterschieden, wobei erstere weniger wahrscheinlich die VC-Garantie verlieren.

  • 01:25:00 In diesem Abschnitt diskutiert der Professor den Prozess der Ableitung von Merkmalen beim maschinellen Lernen und betont, dass es sich um eine Kunst handelt, die von der Anwendungsdomäne abhängt. Obwohl es möglich ist, Merkmale basierend auf den Daten abzuleiten, wird das endgültige Hypothesen-Set immer noch das Generalisierungsverhalten bestimmen. Der Professor merkt auch an, dass die Auswahl von Merkmalen beim maschinellen Lernen automatisch erfolgt, aber Teil des Lernens wird und in Bezug auf die VC-Dimension berechnet wird. Das Thema Auswahl von Merkmalen wird in der zukünftigen Vorlesung über neuronale Netze und verborgene Schichten weiter behandelt.
Lecture 09 - The Linear Model II
Lecture 09 - The Linear Model II
  • 2012.05.02
  • www.youtube.com
The Linear Model II - More about linear models. Logistic regression, maximum likelihood, and gradient descent. Lecture 9 of 18 of Caltech's Machine Learning ...
 

Vorlesung 10 - Neuronale Netze



Machine Learning Course von Caltech – CS 156. Vorlesung 10 – Neuronale Netze

Yaser Abu-Mostafa, Professor am California Institute of Technology, diskutiert in diesem Vortrag logistische Regression und neuronale Netze. Die logistische Regression ist ein lineares Modell, das eine Wahrscheinlichkeitsinterpretation einer begrenzten reellwertigen Funktion berechnet. Es ist nicht in der Lage, sein Fehlermaß direkt zu optimieren, daher wird das Verfahren des Gradientenabstiegs eingeführt, um eine beliebige nichtlineare Funktion zu minimieren, die glatt genug und zweimal differenzierbar ist. Obwohl es keine Lösung in geschlossener Form gibt, ist das Fehlermaß eine konvexe Funktion, was es relativ einfach macht, es unter Verwendung des Gradientenabstiegs zu optimieren.

Der stochastische Gradientenabstieg ist eine Erweiterung des Gradientenabstiegs, der in neuronalen Netzen verwendet wird. Neuronale Netze sind ein Modell, das eine Hypothese umsetzt, die durch einen biologischen Standpunkt motiviert ist und sich auf Perzeptrone bezieht. Der Backpropagation-Algorithmus ist ein effizienter Algorithmus, der zu neuronalen Netzen passt und das Modell besonders praktisch macht. Das Modell hat eine biologische Verbindung, die die Leute begeistert hat und mit dem Algorithmus einfach zu implementieren war. Obwohl es heutzutage nicht mehr das Modell der Wahl ist, haben sich neuronale Netze in der Praxis bewährt und werden immer noch als Standard in vielen Branchen eingesetzt, beispielsweise im Bankwesen und in der Kreditvergabe.

Kurze Zusammenfassung:

  • Die logistische Regression ist ein lineares Modell, das eine Wahrscheinlichkeitsinterpretation einer begrenzten reellwertigen Funktion berechnet;
  • Die Methode des Gradientenabstiegs wird eingeführt, um die logistische Regression zu optimieren, aber sie ist nicht in der Lage, ihr Fehlermaß direkt zu optimieren;
  • Der stochastische Gradientenabstieg ist eine Erweiterung des Gradientenabstiegs, der in neuronalen Netzen verwendet wird.
  • Neuronale Netze sind ein Modell, das eine Hypothese umsetzt, die durch einen biologischen Standpunkt motiviert ist und sich auf Perceptrons bezieht;
  • Der Backpropagation-Algorithmus ist ein effizienter Algorithmus, der zu neuronalen Netzen passt und das Modell besonders praktisch macht;
  • Obwohl neuronale Netze heutzutage nicht mehr das Modell der Wahl sind, werden sie immer noch als Standard in vielen Branchen eingesetzt, beispielsweise im Bankwesen und in der Kreditvergabe.
Lecture 10 - Neural Networks
Lecture 10 - Neural Networks
  • 2012.05.06
  • www.youtube.com
Neural Networks - A biologically inspired model. The efficient backpropagation learning algorithm. Hidden layers. Lecture 10 of 18 of Caltech's Machine Learn...
 

Vorlesung 11 - Überanpassung



Machine Learning Course von Caltech – CS 156. Vorlesung 11 – Overfitting

Diese Vorlesung stellt das Konzept und die Bedeutung von Overfitting beim maschinellen Lernen vor. Overfitting tritt auf, wenn ein Modell auf Rauschen statt auf das Signal trainiert wird, was zu einer schlechten Out-of-Sample-Anpassung führt. Die Vorlesung beinhaltet verschiedene Experimente, um die Auswirkungen verschiedener Parameter, wie Rauschpegel und Zielkomplexität, auf Overfitting zu veranschaulichen. Der Dozent betont, wie wichtig es ist, Overfitting frühzeitig zu erkennen und mit Regularisierungs- und Validierungstechniken zu verhindern. Der Einfluss von deterministischem und stochastischem Rauschen auf Overfitting wird ebenfalls diskutiert, und die Vorlesung schließt mit einer Einführung in die nächsten beiden Vorlesungen zur Vermeidung von Overfitting durch Regularisierung und Validierung.

Das Konzept des Overfitting wird diskutiert und die Bedeutung der Regularisierung bei der Prävention wird betont. Der Professor hebt den Kompromiss zwischen Overfitting und Underfitting hervor und erklärt die Rolle der VC-Dimension bei der Überanpassung, bei der die Diskrepanz in der VC-Dimension bei gleicher Anzahl von Beispielen zu Diskrepanzen bei Out-of-Sample- und In-Sample-Fehlern führt. Die praktische Frage der Validierung eines Modells und wie es sich auf Overfitting und Modellauswahl auswirken kann, wird ebenfalls behandelt. Darüber hinaus betont der Professor die Rolle von stückweise linearen Funktionen bei der Verhinderung von Overfitting und betont, wie wichtig es ist, die Anzahl der Freiheitsgrade im Modell zu berücksichtigen und durch Regularisierung einzuschränken.

  • 00:00:00 In diesem Abschnitt führt der Dozent in das Thema Overfitting beim maschinellen Lernen und seine Bedeutung ein, wobei er feststellt, dass die Fähigkeit, mit Overfitting umzugehen, Profis von Amateuren auf diesem Gebiet unterscheidet. Als Hauptursache für Overfitting wird Rauschen identifiziert, und der Dozent stellt das Konzept der Regularisierung und Validierung als Techniken zum Umgang mit Overfitting vor. Der Abschnitt dient als Einführung in ein neues Thema, das in den nächsten drei Vorlesungen behandelt wird.

  • 00:05:00 In diesem Abschnitt erklärt der Dozent das Konzept der Überanpassung, indem er zeigt, wie es auftreten kann, wenn ein Polynom 4. Ordnung an eine Zielfunktion 2. Ordnung mit zusätzlichem Rauschen angepasst wird. Dies führt zu null Trainingsfehlern und einer schlechten Out-of-Sample-Anpassung, was ein klassisches Beispiel für Overfitting ist, bei dem das Modell weiter ging als nötig. Dieser Punkt wird weiter betont, wenn die Überanpassung in neuronalen Netzen diskutiert wird, da E_in während des Trainings abfällt, während E_out hoch bleibt. Der Dozent weist auch darauf hin, dass Overfitting ein Vergleichsbegriff ist, da es eine andere Situation geben muss, die besser ist, und Overfitting innerhalb desselben Modells auftreten kann.

  • 00:10:00 In diesem Abschnitt erörtert Professor Abu-Mostafa die Überanpassung, die auftritt, wenn E_in verringert wird, E_out jedoch aufgrund der Anpassung des Rauschens anstelle des Signals zunimmt. Er erklärt, dass die effektive VC-Dimension mit der Zeit wächst, aber der Generalisierungsfehler immer schlimmer wird, wenn die Anzahl der Parameter zunimmt. Eine Überanpassung kann auftreten, wenn zwei verschiedene Modelle oder Instanzen innerhalb desselben Modells verglichen werden. Eine Möglichkeit, dies zu beheben, besteht darin, eine Überanpassung zu erkennen, indem der auf Validierung basierende Early-Stopping-Algorithmus verwendet wird, der als Regularisierung dient, um eine Überanpassung zu verhindern. Um zu vermeiden, dass das Rauschen angepasst wird, wenn eine Überanpassung auftritt, ist es wichtig, es frühzeitig zu erkennen und zu stoppen, anstatt E_in weiter zu minimieren.

  • 00:15:00 In diesem Abschnitt erläutert der Dozent, wie eine Überanpassung aufgrund von Rauschen in den Daten auftreten kann. Es wird eine Fallstudie mit zwei verschiedenen Modellen präsentiert – eines mit einem rauschenden Ziel niedriger Ordnung und ein anderes mit einem geräuschlosen Ziel hoher Ordnung. Ein Polynom 2. Ordnung und ein Polynom 10. Ordnung werden verwendet, um die Daten anzupassen. Für die Anpassung zweiter Ordnung beträgt der In-Sample-Fehler 0,05 und der Out-of-Sample-Fehler ist etwas höher. Im Gegensatz dazu stellt der Fit 10. Ordnung ein Problem dar, da der In-Sample-Fehler kleiner ist als der des Fits 2. Ordnung. Der Out-of-Sample-Fehler steigt jedoch dramatisch an, was auf einen Fall von Überanpassung hinweist, bei dem das Rauschen in das Modell eingepasst wurde.

  • 00:20:00 In diesem Abschnitt erörtert der Dozent die Überanpassung und wie sie auch in geräuschlosen Situationen auftreten kann, wenn das Modell eine andere Art von Rauschen anpasst. Er gibt ein Beispiel für die Anpassung eines Modells 10. Ordnung an ein verrauschtes Ziel 10. Ordnung und wie dies zu einer Überanpassung führte. Dann zeigt er, dass die Anpassung der Komplexität des Modells an die Datenressourcen statt an die Zielkomplexität trotz eines einfacheren Modells zu einer besseren Leistung führen kann. Der Dozent betont, dass Generalisierungsprobleme von der Größe und Qualität des Datensatzes abhängen und die einfache Anpassung der Komplexität des Modells an die Zielfunktion nicht immer der beste Ansatz ist.

  • 00:25:00 In diesem Abschnitt wird das Konzept der Überanpassung beim maschinellen Lernen untersucht. Der Vortrag verwendet Lernkurven, um zu demonstrieren, wie der In-Sample-Fehler für ein komplexeres Modell kleiner, aber der Out-of-Sample-Fehler größer ist, wodurch der Graubereich definiert wird, in dem eine Überanpassung auftritt. Der Vortrag zeigt auch ein Experiment mit zwei Lernenden, von denen einer eine 10. Ordnung und der andere eine 2. Ordnung wählt, um ein Ziel 50. Ordnung ohne Rauschen zu erreichen. Trotz des Fehlens von Rauschen erleben beide Lernenden immer noch eine Überanpassung, was zur Definition des tatsächlichen Rauschens und zur Notwendigkeit der Vorsicht bei Problemen mit maschinellem Lernen in der realen Welt führt. Der Vortrag kommt zu dem Schluss, dass Overfitting in den meisten Fällen auftritt, und betont, wie wichtig es ist, dieses Problem zu verstehen und anzugehen.

  • 00:30:00 In diesem Abschnitt erörtert der Dozent die Parameter, die die Überanpassung beeinflussen, einschließlich des Rauschpegels, der Zielkomplexität und der Anzahl der Datenpunkte. Um interessante Zielfunktionen mit hoher Komplexität zu erstellen, verwendet der Dozent einen Standardsatz von Legendre-Polynomen mit bestimmten Koeffizienten, die orthogonal zueinander sind. Durch Normierung des Signals auf eine Energie von 1 kann der Dozent feststellen, dass Sigma zum Quadrat die Menge an Rauschen ist. Beim Generieren von Instanzen des Experiments verwendet der Dozent verschiedene Kombinationen aus Rauschen, Zielkomplexität und Anzahl der Datenpunkte, um die Persistenz der Überanpassung zu beobachten.

  • 00:35:00 In diesem Abschnitt diskutiert der Dozent eine Overfitting-Messmethode, die die Out-of-Sample-Fehler von zwei verschiedenen Modellen vergleicht: einem Polynom 2. Ordnung und einem Polynom 10. Ordnung. Das Maß ist die Differenz zwischen dem Out-of-Sample-Fehler für das komplexe Modell und dem Out-of-Sample-Fehler für das einfache Modell. Wenn der Out-of-Sample-Fehler des komplexen Modells größer ist, wodurch das Maß positiv wird, liegt eine Überanpassung vor. Anschließend zeigt der Dozent, wie sich das Overfitting-Maß bei unterschiedlichem Rauschen und Zielkomplexität verändert. Wenn der Rauschpegel zunimmt und die Zielkomplexität zunimmt, verschlimmert sich die Überanpassung. Der Dozent weist auch darauf hin, dass Overfitting ein erhebliches Problem darstellt und angegangen werden muss.

  • 00:40:00 In diesem Abschnitt wird das Konzept des Rauschens beim Overfitting über konventionelles Rauschen hinaus erweitert und in stochastisches Rauschen und deterministisches Rauschen unterteilt. Es wird angemerkt, dass mehr Daten normalerweise zu weniger Überanpassung führen und eine Zunahme des stochastischen oder deterministischen Rauschens zu mehr Überanpassung führt. Deterministisches Rauschen ist definiert als der Teil der Zielfunktion, den ein Hypothesensatz nicht erfassen kann, und wird als Rauschen bezeichnet, weil ein Hypothesensatz damit nicht umgehen kann. Das Konzept, dass etwas, das nicht erfasst werden kann, Rauschen ist, wird anhand eines hypothetischen Szenarios weiter untersucht, bei dem einem jungen Geschwisterkind mit einem begrenzten Zahlenverständnis komplexe Zahlen erklärt werden.

  • 00:45:00 In diesem Abschnitt der Vorlesung wird der Unterschied zwischen deterministischem und stochastischem Rauschen erklärt und der Einfluss von deterministischem Rauschen auf Overfitting analysiert. Es wird betont, dass das deterministische Rauschen von dem verwendeten Hypothesensatz abhängt, und dass mit zunehmender Zielkomplexität auch das deterministische Rauschen und die Überanpassung zunehmen. Dies geschieht jedoch erst ab einer bestimmten Zielkomplexität. Für endliches N gelten die gleichen Probleme mit stochastischem Rauschen für deterministisches Rauschen, da Sie aufgrund der begrenzten Stichprobengröße einen Teil davon erfassen können. Es wird auch erwähnt, dass die Verwendung eines komplexeren Hypothesensatzes nicht immer besser ist und zu einer Überanpassung führen kann.

  • 00:50:00 In diesem Abschnitt erörtert der Dozent das Problem der Überanpassung, wenn ihm eine endliche Stichprobe gegeben wird. Er erklärt, dass man, sobald man ein endliches Sample hat, die Fähigkeit hat, das Rauschen sowohl stochastisch als auch deterministisch anzupassen, was zu einer schlechteren Leistung führen kann. Der Dozent bietet eine quantitative Analyse, die dem Ziel Rauschen hinzufügt, um einen Einblick in die Rolle von stochastischem und deterministischem Rauschen zu erhalten. Er addiert und subtrahiert den Zentroid und das Epsilon, um quadrierte Terme und Kreuzterme zu erhalten, was zu einem Varianzterm, einem Biasterm und einem hinzugefügten Term führt. Der hinzugefügte Term ist einfach Sigma zum Quadrat, die Varianz des Rauschens.

  • 00:55:00 In diesem Abschnitt des Vortrags diskutiert der Referent die Zerlegung des Erwartungswerts in Bias und Varianz und wie sie sich auf deterministisches und stochastisches Rauschen beziehen. Beide stellen die beste Annäherung an die Zielfunktion bzw. das nicht vorhersagbare Rauschen dar. Die Zunahme der Anzahl von Beispielen verringert die Varianz, aber sowohl Voreingenommenheit als auch Varianz sind angesichts einer Hypothese unvermeidlich. Das deterministische Rauschen und das stochastische Rauschen haben beide eine endliche Version der Datenpunkte, die die Varianz beeinflussen, indem sie die Anpassung anfälliger für eine Überanpassung machen. Der Referent gibt einen Einstieg in die nächsten beiden Vorträge zur Vermeidung von Overfitting, indem er zwei Ansätze diskutiert, Regularisierung und Validierung. Regularisierung ist wie das Bremsen, um eine Überanpassung zu vermeiden, während die Validierung das Endergebnis überprüft, um sicherzustellen, dass eine Überanpassung vermieden wird.

  • 01:00:00 In diesem Abschnitt erörtert der Professor das Konzept, die Überanpassung durch eine eingeschränkte Anpassung oder Regularisierung zu bremsen. Er verwendet das Beispiel der Anpassung von Punkten an ein Polynom 4. Ordnung, verhindert jedoch, dass es vollständig passt, indem er etwas Reibung hineinbringt. Die ausgeübte Bremskraft ist minimal, führt jedoch zu einer drastischen Reduzierung der Überanpassung, während dennoch eine fantastische Passform erreicht wird. Der Professor merkt an, dass es wichtig ist, die Regularisierung zu verstehen und wie man sie wählt, um eine Überanpassung zu verhindern. Die Frage-und-Antwort-Sitzung befasst sich mit der Bedeutung der Randomisierung beim stochastischen Gradientenabstieg und dem Zeichnen von Out-of-Sample-Fehlern in neuronalen Netzwerkdiagrammen.

  • 01:05:00 In diesem Abschnitt erklärt der Professor, dass das deterministische und das stochastische Rauschen in einem Lernszenario gleich sind, da das deterministische Rauschen durch die Unfähigkeit eines Hypothesensatzes verursacht wird, näher an die Zielfunktion heranzukommen. Bei realen Lernproblemen ist die Komplexität der Zielfunktion im Allgemeinen unbekannt, und das Rauschen kann nicht identifiziert werden. Das Ziel, die Überanpassung konzeptionell zu verstehen, besteht darin, eine Überanpassung ohne die Einzelheiten des Rauschens zu vermeiden. Übertraining ist gleichbedeutend mit Überanpassung, bezogen auf dasselbe Modell. Andere Fehlerquellen wie Fließkommazahlen haben einen begrenzten Einfluss auf die Überanpassung, die nie erwähnt wird. In Bezug auf das lineare Modell dritter Ordnung (logistische Regression) stellt der Professor klar, dass bei Anwendung auf linear trennbare Daten ein lokales Minimum und ein In-Sample-Fehler von Null erreicht werden können.

  • 01:10:00 In diesem Abschnitt erörtert der Professor das Problem der Überanpassung und die Version davon bei endlichen Stichproben, die aufgrund des Beitrags von Rauschen sowohl von stochastischen als auch von deterministischen Faktoren in einer endlichen Stichprobe auftritt. Dies führt dazu, dass der Algorithmus dieses Rauschen anpasst, was bei der Anpassung größerer Modelle wie H_10 schädlich ist. Bei der Erörterung der Verwendung stückweiser linearer Funktionen zur Vermeidung einer Überanpassung betont der Professor, wie wichtig es ist, die Anzahl der Freiheitsgrade in Ihrem Modell zu berücksichtigen und Schritte zu unternehmen, um Ihr Modell in Bezug auf die Anpassung durch Regularisierung einzuschränken. Schließlich behandelt der Professor die praktische Frage der Validierung eines Modells und wie es sich auf Overfitting und Modellauswahl auswirken kann.

  • 01:15:00 In diesem Abschnitt erörtert der Professor den Kompromiss zwischen Overfitting und Underfitting und erklärt, dass Sie sich möglicherweise einer Ressource berauben müssen, die für das Training hätte verwendet werden können, um zu einer besseren Hypothese zu gelangen. Der Professor geht auch auf die VC-Dimension (Vapnik-Chervonenkis) und ihren Zusammenhang mit Overfitting ein und erklärt, dass die Diskrepanz in der VC-Dimension bei gleicher Anzahl von Beispielen der Grund für Diskrepanzen im Out-of-Sample und In ist -Beispielfehler. Der Professor stellt auch klar, dass, obwohl sie die Zielkomplexität in den Farbdiagrammen dargestellt haben, die Zielkomplexität nicht explizit gemessen wird und es keinen klaren Weg gibt, sie in die Energie des deterministischen Rauschens abzubilden. Abschließend erörtert der Professor, wie sich die Zielkomplexität in der Bias-Varianz-Zerlegung in etwas übersetzen könnte und wie sie sich auf Overfitting und Generalisierung auswirkt.
Lecture 11 - Overfitting
Lecture 11 - Overfitting
  • 2012.05.10
  • www.youtube.com
Overfitting - Fitting the data too well; fitting the noise. Deterministic noise versus stochastic noise. Lecture 11 of 18 of Caltech's Machine Learning Cours...
 

Vorlesung 12 - Regularisierung



Machine Learning Course von Caltech – CS 156. Vorlesung 12 – Regularisierung

Diese Vorlesung zur Regularisierung beginnt mit einer Erläuterung des Overfitting und seiner negativen Auswirkungen auf die Verallgemeinerung von Machine-Learning-Modellen. Zwei Ansätze zur Regularisierung werden diskutiert: mathematisch und heuristisch. Anschließend geht die Vorlesung auf den Einfluss der Regularisierung auf Bias und Varianz in linearen Modellen am Beispiel von Legendre-Polynomen als expandierenden Komponenten ein. Die Beziehung zwischen C und Lambda bei der Regularisierung wird ebenfalls behandelt, mit einer Einführung in den erweiterten Fehler und seine Rolle bei der Rechtfertigung der Regularisierung für die Generalisierung. Techniken zur Gewichtsabnahme/-zunahme und die Bedeutung der Wahl des richtigen Regularizers zur Vermeidung von Overfitting werden ebenfalls besprochen. Der Vortrag endet mit einem Fokus auf die Auswahl eines guten Omega als heuristische Übung und hofft, dass Lambda als rettende Gnade für die Regularisierung dienen wird.

Der zweite Teil diskutiert den Gewichtsverlust als Möglichkeit, die Einfachheit des Netzwerks mit seiner Funktionalität in Einklang zu bringen. Der Dozent warnt vor Überregulierung und nicht optimaler Leistung und betont die Verwendung von Validierung zur Bestimmung optimaler Regularisierungsparameter für unterschiedliche Lärmpegel. Regularisierung wird als experimentell mit einer Basis in Theorie und Praxis diskutiert. Gängige Arten der Regularisierung wie L1/L2, vorzeitiges Abbrechen und Abbruch werden vorgestellt, zusammen mit der Bestimmung der geeigneten Regularisierungsmethode für verschiedene Probleme. Allgemeine Hyperparameter im Zusammenhang mit der Implementierung von Regularisierungen werden ebenfalls erörtert.

  • 00:00:00 In diesem Abschnitt geht Yaser Abu-Mostafo auf die Details der Überanpassung ein, die auftritt, wenn ein Modell zu gut an die Daten angepasst wird, auf Kosten einer schlechten Verallgemeinerung. Selbst wenn die Daten nicht verrauscht sind, kann aufgrund der Einschränkungen des Modells deterministisches Rauschen auftreten, das zu einem Muster führt, das den Out-of-Sample-Fehler beeinträchtigt und eine Überanpassung verursacht. Abu-Mostafo führt jedoch die Regularisierung als erstes Heilmittel für Overfitting ein, eine Technik, die in fast jeder maschinellen Lernanwendung verwendet wird und deren Verständnis wichtig ist.

  • 00:05:00 In diesem Abschnitt diskutiert der Dozent zwei Ansätze zur Regularisierung im maschinellen Lernen. Der erste Ansatz ist ein mathematischer Ansatz, bei dem Glattheitsbeschränkungen auferlegt werden, um schlecht gestellte Probleme zu lösen, aber die in diesen Entwicklungen getroffenen Annahmen sind für praktische Anwendungen nicht immer realistisch. Der zweite Ansatz ist heuristisch und beinhaltet die Behinderung der Minimierung von In-Sample-Fehlern, indem die Anpassung gebremst wird, was zur Bekämpfung von Overfitting beiträgt. Der Dozent gibt ein Beispiel mit einer Sinuskurve und einer Linienanpassung und zeigt, dass wir durch Regularisierung und Steuerung des Offsets und der Steigung der Linien möglicherweise eine bessere Leistung außerhalb der Stichprobe erzielen können.

  • 00:10:00 In diesem Abschnitt diskutiert der Dozent die Auswirkungen der Regularisierung auf die Verzerrung und Varianz eines linearen Modells. Durch die Regularisierung wird die Varianz reduziert, während die Verzerrung aufgrund der unvollkommenen Anpassung leicht erhöht wird. Der Dozent zeigt am Beispiel eines Polynommodells mit Legendre-Polynomen als expandierenden Komponenten den Effekt der Regularisierung auf Bias und Varianz. Mit der Regularisierung übertrifft das lineare Modell das ungeregelte Modell und sogar das konstante Modell. Die Vorlesung befasst sich mit der mathematischen Entwicklung einer der bekanntesten Regularisierungstechniken des maschinellen Lernens mit einem Fokus auf konkrete Schlussfolgerungen und Lektionen, die für den Umgang mit realen Situationen gelernt werden können.

  • 00:15:00 In diesem Abschnitt stellt der Dozent die Legendre-Polynome vor und erklärt, wie sie zur Konstruktion eines Hypothesensatzes für die Polynomregression verwendet werden können. Durch die Verwendung dieser Polynome, die orthogonal sind und unterschiedliche Koordinaten behandeln, ist der relevante Parameter eine Kombination von Gewichten und nicht nur ein einzelnes Gewicht. Der Hypothesensatz kann parametrisiert und in linearer Form dargestellt werden, was einfache analytische Lösungen ermöglicht. Die Zielfunktion ist unbekannt, und das Ziel besteht darin, mit einem endlichen Trainingssatz eine gute Annäherung dafür zu erhalten. Der Dozent geht auch auf die unbeschränkten und beschränkten Lösungen zur Minimierung des In-Sample-Fehlers durch lineare Regression ein.

  • 00:20:00 In diesem Abschnitt diskutiert der Dozent das Konzept der Regularisierung, das eine Einschränkung ist, die auf die Gewichte von Hypothesenmengen angewendet wird. Bei der Regularisierung wird ein Budget C für das Quadrat der Gesamtgröße der Gewichtungen festgelegt, was bedeutet, dass nicht alle Gewichtungen zu groß sein können. Das Problem besteht darin, den In-Sample-Fehler zu minimieren, während dieser Einschränkung unterworfen ist. Die Lösung wird unter Verwendung von Lagrange-Multiplikatoren oder KKT erhalten, was eine neue Lösung namens w_reg ergibt. Der Dozent erklärt, dass das Ziel darin besteht, einen Punkt innerhalb eines Kreises auszuwählen, der den In-Sample-Fehler minimiert, was erfordert, so weit wie möglich nach außen zu gehen, ohne die Einschränkung zu verletzen.

  • 00:25:00 In diesem Abschnitt wird das Konzept der Regularisierung diskutiert, wobei das Ziel darin besteht, ein Modell abzuleiten, das sich gut auf unsichtbare Daten verallgemeinern lässt. Die Lösung der linearen Regression ist das absolute Minimum, das die Nebenbedingung erfüllt. Das Hauptaugenmerk liegt auf der Ableitung der analytischen Bedingung zum Erreichen des Minimums von E_in, abhängig von der Nebenbedingung, um einen Kompromiss zwischen dem Ziel und der Nebenbedingung zu finden. Der Gradient der Zielfunktion muss orthogonal zur Ellipse sein, und der Vektor w zeigt in Richtung der roten Fläche. Die analytische Bedingung für w_reg ist, dass der Gradient proportional zum Negativ der Lösung sein muss. Durch Minimieren der Lösungsgleichung erhält man bedingungslos das Minimum von E_in.

  • 00:30:00 In diesem Abschnitt behandelt die Vorlesung die Beziehung zwischen den Parametern C und Lambda bei der Regularisierung. Je größer der Wert von C, desto kleiner der Wert von Lambda, da der Regularisierungsterm weniger betont wird. Umgekehrt wird der Regularisierungsterm signifikanter, wenn C abnimmt, und der Wert von Lambda muss steigen, um die Bedingung durchzusetzen. Die Vorlesung führt auch in den erweiterten Fehler ein, der die Summe aus Fehlerfunktion und Regularisierungsterm ist. Es ist äquivalent zu einem Optimierungsproblem ohne Beschränkungen zum Minimieren der Fehlerfunktion, während es der Beschränkung unterliegt. Diese Entsprechung rechtfertigt die Regularisierung im Hinblick auf die Verallgemeinerung und ist auf jeden Regularisierer anwendbar. Abschließend liefert die Vorlesung die Formel zur Minimierung von Augmented Error und schließt mit der Bereitstellung der Lösung ab.

  • 00:35:00 In diesem Abschnitt diskutiert der Referent die Lösung des Regularisierungsproblems. Die Lösung wird durch w_reg dargestellt, was eine Modifikation der pseudoinversen Lösung mit einem zusätzlichen Regularisierungsterm ist. Unter sauberen Annahmen haben wir Ein-Schritt-Lernen, einschließlich Regularisierung. Mit anderen Worten, wir können direkt eine Lösung haben, ohne eine eingeschränkte Optimierung durchzuführen. Der Regularisierungsterm in der Lösung wird dominant, wenn Lambda zunimmt, was w_reg auf null drückt und eine immer kleinere Lösung erzeugt. Der Sprecher wendet dann die Regularisierung auf ein bekanntes Problem an und zeigt, dass die Wahl von Lambda kritisch ist und eine heuristische Auswahl für den Typ des Regularisierers erforderlich ist.

  • 00:40:00 In diesem Abschnitt werden das Konzept der Regularisierung und die damit verbundene Methode, bekannt als Weight Decay, vorgestellt. Weight Decay ist ein berühmter Regularisierer beim maschinellen Lernen, bei dem w transponiert w minimiert und sichergestellt wird, dass die Gewichte klein sind, sodass der Name „Decay“ gegeben ist. Bei der Verwendung neuronaler Netze kann der Gewichtsabfall durch Batch-Gradientenabstieg implementiert werden, wobei die Hinzufügung dieses Begriffs die Gewichte vor jeder Bewegung im Gewichtsraum verkleinert, was begrenzt, wie viel man über die Funktion lernen kann, wenn λ groß ist. Zu den Variationen des Gewichtsabfalls gehören das Zuweisen von Wichtigkeitsfaktoren zu bestimmten Gewichten und das Verwenden verschiedener Konstanten, um mit der Art des verwendeten Regularisierers zu experimentieren.

  • 00:45:00 In diesem Abschnitt erörtert der Dozent Techniken zur Gewichtsabnahme und Gewichtszunahme, die Einschränkungen sind, die beim maschinellen Lernen verwendet werden, um den von Modellen verwendeten Gewichtsbereich zu begrenzen. Bei der Gewichtsabnahme werden Modelle gezwungen, kleinere Gewichte zu verwenden, während die Gewichtszunahme größere Gewichte einschränkt. Der Dozent erklärt, dass für beide Techniken ein optimaler Lambdawert gewählt werden muss, um die beste Out-of-Sample-Performance zu erzielen. Darüber hinaus erörtert der Dozent, wie man den richtigen Regularizer auswählt, und betont, wie wichtig es ist, eine Überanpassung durch die Verwendung von Richtlinien zu vermeiden, die bei der Auswahl von Regularizern helfen. Letztlich empfiehlt der Dozent, mit praktischen Regeln die optimalen Regularisierer zu finden, etwa die Vermeidung von hochfrequentem stochastischem Rauschen.

  • 00:50:00 In diesem Abschnitt der Vorlesung erklärt der Kursleiter die verschiedenen Arten von Rauschen, die zu Überanpassung führen können, und warum es wichtig ist, einen Regularizer zu wählen, der dazu neigt, glattere Hypothesen auszuwählen. Er definiert die allgemeine Form der Regularisierung und den vergrößerten Fehler, der minimiert wird, was der Gleichung ähnelt, die in der VC-Analyse verwendet wird. Er diskutiert auch die Entsprechung zwischen der Komplexität einer einzelnen Hypothese und der Komplexität der Menge von Objekten und wie E_aug eine bessere Schätzung für E_out als E_in ist.

  • 00:55:00 In diesem Abschnitt der Vorlesung über Regularisierung wird die Idee des erweiterten Fehlers als besserer Proxy für den Out-of-Sample-Fehler diskutiert. Die Regularisierung zielt darauf ab, die Überanpassung zu reduzieren, die im Wesentlichen das Rauschen mehr als das Signal anpasst. Das Leitprinzip für die Auswahl eines Regularizers ist es, sich in Richtung glatter zu bewegen, da Rauschen nicht glatt ist und glattere Lösungen dazu neigen, Rauschen mehr zu schaden als dem passenden Signal. Das Konzept von einfacher wird auch in einem Fall eingeführt, in dem glatter nicht gut anwendbar ist. Die Wahl eines guten Omega ist eine heuristische Übung, und die Mathematik ist nur so gut wie die Annahme, auf der sie basiert. Der Vortrag endet mit der Hoffnung, dass Lambda als rettende Gnade für die Wahl des Regularisierers dienen würde.

  • 01:00:00 In diesem Abschnitt der Vorlesung wird das Konzept des Gewichtsabfalls für neuronale Netze untersucht, wobei kleine Gewichte zu einer Einfachheit der Funktion und größere Gewichte zu einer logischen Abhängigkeit führen, um die Implementierung beliebiger Funktionen zu ermöglichen. Eine andere Form des Regularisierers ist die Gewichtungseliminierung, bei der einige der Gewichtungen innerhalb eines Netzwerks gezwungen werden, Null zu sein, was zu einer kleineren VC-Dimension führt, was eine bessere Verallgemeinerung und eine geringere Wahrscheinlichkeit einer Überanpassung ermöglicht. Eine weiche Gewichtungseliminierung wird eingeführt, wodurch eine kontinuierliche Funktion auf das Netzwerk angewendet wird, um einige der Gewichtungen gegenüber anderen hervorzuheben. Abschließend wird das vorzeitige Beenden als eine Form des Regularizers diskutiert, der empfiehlt, das Training vor dem Ende zu beenden, da dies eine Möglichkeit ist, die Funktion indirekt zu vereinfachen.

  • 01:05:00 In diesem Abschnitt erklärt der Professor, dass die Regularisierung durch den Optimierer erfolgt und dass wir die Zielfunktion nicht ändern. Stattdessen übergeben wir die Zielfunktion, also den In-Sample-Fehler, an den Optimierer und weisen ihn an, ihn zu minimieren. Der Professor warnt dann davor, den Regularisierer einfach in den Optimierer zu stecken, was zu Überregulierung und nicht optimaler Leistung führen kann, wenn es nicht richtig gemacht wird. Er betont, wie wichtig es ist, so viel wie möglich in der Zielfunktion zu erfassen und dann die Validierung zu verwenden, um den optimalen Wert für den Regularisierungsparameter Lambda zu bestimmen. Der Professor zeigt dann, wie sich die Wahl des Lambdas bei unterschiedlichen Geräuschpegeln ändert und wie die Verwendung von Validierung dazu beitragen kann, das bestmögliche Ergebnis angesichts des Geräuschpegels zu ermitteln. Abschließend diskutiert er die Verwendung verschiedener Arten von Regularizern mit unterschiedlichen Parametern, abhängig von der Leistung.

  • 01:10:00 In diesem Abschnitt erörtert der Professor die Verwendung von Regularisierern beim maschinellen Lernen, das eher eine experimentelle Aktivität als eine vollständig prinzipientreue Aktivität ist. Der maschinelle Lernansatz ist irgendwo zwischen Theorie und Praxis angesiedelt, was bedeutet, dass er in beidem stark verankert ist. Der Professor verwendet Legendre-Polynome als orthogonale Funktionen, weil sie eine interessante Allgemeingültigkeit bieten und die Lösung einfach ist. Die Regularisierung ermöglicht es einem Benutzer, einen optimalen Punkt für die beste Leistung zu finden, der zwischen zwei diskreten Schritten liegen könnte. Der hinzugefügte Regularisierungsterm hängt nicht explizit vom Datensatz ab. Der optimale Parameter Lambda hängt jedoch vom Trainingssatz ab, der durch Validierung bestimmt wird.

  • 01:15:00 In diesem Abschnitt wird das Konzept der Regularisierung eingeführt, bei dem der Verlustfunktion ein Strafterm hinzugefügt wird, um eine Überanpassung in maschinellen Lernmodellen zu vermeiden. Die beiden häufigsten Arten der Regularisierung, L1 und L2, werden zusammen mit ihren jeweiligen Vor- und Nachteilen diskutiert. Darüber hinaus wird die Verwendung von vorzeitigem Abbruch und Abbruch als alternative Regularisierungstechniken erläutert. Die Vorlesung schließt mit einem Überblick darüber, wie man die geeignete Regularisierungsmethode für ein gegebenes Problem bestimmt, sowie allgemeine Hyperparameter, die bei der Implementierung von Regularisierung zu berücksichtigen sind.
Lecture 12 - Regularization
Lecture 12 - Regularization
  • 2012.05.14
  • www.youtube.com
Regularization - Putting the brakes on fitting the noise. Hard and soft constraints. Augmented error and weight decay. Lecture 12 of 18 of Caltech's Machine ...
 

Vorlesung 13 - Validierung




Machine Learning Course von Caltech – CS 156. Vorlesung 13 – Validierung

In Vorlesung 13 liegt der Fokus auf der Validierung als wichtige Technik des maschinellen Lernens zur Modellauswahl. Der Vortrag geht auf die Besonderheiten der Validierung ein, einschließlich dessen, warum sie Validierung genannt wird und warum sie für die Modellauswahl wichtig ist. Kreuzvalidierung wird auch als eine Art der Validierung diskutiert, die es ermöglicht, alle verfügbaren Beispiele für Training und Validierung zu verwenden. Der Dozent erklärt, wie man den Out-of-Sample-Fehler anhand der Zufallsvariablen schätzt, die einen Out-of-Sample-Punkt nimmt und die Differenz zwischen der Hypothese und dem Zielwert berechnet. Der Vortrag diskutiert auch die Verzerrung, die eingeführt wird, wenn die Schätzung verwendet wird, um ein bestimmtes Modell auszuwählen, da es nicht mehr zuverlässig ist, da es auf der Grundlage des Validierungssatzes ausgewählt wurde. Das Konzept der Kreuzvalidierung wird als Methode zur Bewertung des Out-of-Sample-Fehlers für verschiedene Hypothesen eingeführt.

Außerdem behandelt er die Verwendung der Kreuzvalidierung für die Modellauswahl und -validierung, um eine Überanpassung zu verhindern, mit einem Schwerpunkt auf „Leave one out“ und 10-facher Kreuzvalidierung. Der Professor zeigt, wie wichtig es ist, Out-of-Sample-Diskrepanzen und Datenschnüffeln zu berücksichtigen, und schlägt vor, Randomisierungsmethoden einzubeziehen, um Stichprobenverzerrungen zu vermeiden. Er erklärt, dass die Kreuzvalidierung zwar die Komplexität erhöhen kann, aber in Kombination mit der Regularisierung das beste Modell ausgewählt werden kann, und weil die Validierung keine Annahmen erfordert, ist sie einzigartig. Der Professor erklärt weiter, wie die Kreuzvalidierung dabei helfen kann, prinzipientreue Entscheidungen zu treffen, selbst wenn verschiedene Szenarien und Modelle verglichen werden, und wie die Gesamtzahl der Validierungspunkte den Fehlerbalken und die Verzerrung bestimmt.

  • 00:00:00 In diesem Abschnitt liegt der Schwerpunkt auf der Validierung, einer weiteren wichtigen Technik des maschinellen Lernens, die für die Modellauswahl verwendet wird. Der Prozess umfasst die Auswahl einer Validierungssatzgröße und deren Verwendung zur Validierung des Modellauswahlprozesses. Der Vortrag geht auf die Besonderheiten der Validierung ein, einschließlich dessen, warum sie Validierung genannt wird und warum sie für die Modellauswahl wichtig ist. Die Diskussion umfasst auch die Kreuzvalidierung, eine Art der Validierung, die die Verwendung aller verfügbaren Beispiele für Training und Validierung ermöglicht. Der Vortrag stellt die Validierung der Regularisierung gegenüber, soweit es um die Kontrolle geht.

  • 00:05:00 In diesem Abschnitt diskutiert der Dozent Validierung und Regularisierung im Zusammenhang mit der bekannten Gleichung, die sich mit der Differenz zwischen dem In-Sample-Error und dem Out-of-Sample-Error aufgrund der Komplexität des Modells befasst. Die Regularisierung schätzt die Strafe für Overfit-Komplexität, während die Validierung versucht, den Out-of-Sample-Fehler direkt zu schätzen. Der Dozent erklärt, wie man den Out-of-Sample-Fehler anhand der Zufallsvariablen schätzt, die einen Out-of-Sample-Punkt nimmt und die Differenz zwischen der Hypothese und dem Zielwert berechnet. Der Dozent betont, wie sich die Varianz auf die Qualität der Schätzung auswirkt, und schlägt vor, einen vollständigen Satz von Punkten anstelle von einem zu verwenden.

  • 00:10:00 In diesem Abschnitt wird der Begriff eines Validierungssatzes und des Validierungsfehlers als unverzerrte Schätzung des Out-of-Sample-Fehlers eingeführt. Der erwartete Wert des Validierungsfehlers ist E_out, was eine andere Form des erwarteten Werts an einem einzelnen Punkt ist. Die Varianz des Validierungsfehlers wird analysiert, um zu zeigen, dass es eine Verbesserung in der Schätzung basierend auf E_val im Vergleich zu einem einzelnen Punkt gibt. Die Varianz ist letztendlich proportional zu 1/K, was bedeutet, dass eine Erhöhung von K den Fehlerbalken verkleinern und die Zuverlässigkeit der Schätzung verbessern kann. Die Anzahl der Validierungspunkte ist jedoch nicht kostenlos und wirkt sich direkt auf die Anzahl der für das Training verfügbaren Punkte aus.

  • 00:15:00 In diesem Abschnitt liegt der Fokus auf dem Prozess der Validierung, wobei K Punkte von N Punkten für Validierungszwecke genommen werden, während die verbleibende Teilmenge D_train für das Training verwendet wird. Es ist auch wichtig zu beachten, wie nützlich es ist, eine zuverlässige Schätzung eines Validierungssatzes zu haben, um sicherzustellen, dass die endgültige Hypothese zuverlässig ist. Es sollte jedoch nicht das Ziel sein, eine zuverlässige Schätzung einer schlechten Menge zu haben. Wenn der Wert von K erhöht wird, wird die Schätzung zuverlässiger, aber die Qualität der Hypothese nimmt ab. Daher ist es wichtig, einen Weg zu finden, um den Preis nicht zahlen zu müssen, der mit der Erhöhung von K einhergeht. Eine Möglichkeit besteht darin, den Datensatz nach Schätzung des Fehlers wiederherzustellen und mit dem vollständigen Satz zu trainieren, um bessere Ergebnisse zu erzielen.

  • 00:20:00 In diesem Abschnitt liegt der Fokus auf dem Leistungskompromiss bei der Verwendung eines Validierungssets während des Trainings. Der reduzierte Satz von D_train hat im Vergleich zum vollständigen Trainingssatz D weniger Beispiele, mit denen wir die endgültige Hypothese g minus erhalten. Um eine Schätzung zu erhalten, werten wir g minus auf einem Validierungssatz D_val aus und fügen dann den Rest der Beispiele zurück in den Topf und melden g. Ein großes K bedeutet jedoch, dass der Unterschied zwischen g minus und g größer ist, und dies wirkt sich auf die Zuverlässigkeit der von uns gemeldeten Schätzung aus. Daher gibt es eine Faustregel, ein Fünftel für die Validierung zu verwenden, um das Beste aus beiden Welten zu erhalten. Wir nennen es Validierung, weil es den Lernprozess beeinflusst und bei der Entscheidungsfindung hilft.

  • 00:25:00 In diesem Abschnitt liegt der Schwerpunkt auf dem Verständnis des Unterschieds zwischen Testfehler und Validierungsfehler. Wenn der Testsatz unverzerrt ist und zur Schätzung von E_out verwendet wird, treten Schwankungen in der Schätzung auf. Wenn ein vorzeitiges Stoppen verwendet wird, ändert sich die Verzerrung der Schätzung. In einem Mini-Lernszenario ist leicht zu erkennen, dass der Erwartungswert des Minimums kleiner als 0,5 ist, was ihn zu einer optimistischen Tendenz macht. Dasselbe passiert, wenn ein Punkt für ein frühes Stoppen gewählt wird – der gewählte Punkt ist das Minimum bei der Realisierung, und eine optimistische Tendenz wird eingeführt.

  • 00:30:00 In diesem Abschnitt behandelt die Vorlesung die Verwendung des Validierungssets für die Modellauswahl im maschinellen Lernen. Der Prozess umfasst das Trainieren von M Modellen unter Verwendung eines in Trainings- und Validierungssätze aufgeteilten Datensatzes und das anschließende Bewerten der Leistung jedes Modells im Validierungssatz, um Schätzungen des Out-of-Sample-Fehlers zu erhalten. Das Modell mit dem kleinsten Validierungsfehler wird ausgewählt, aber aufgrund dieses Auswahlverfahrens besteht das Risiko einer Verzerrung. Dennoch ist die Verzerrung in der Praxis im Allgemeinen gering und kann akzeptiert werden, um eine zuverlässige Schätzung des Out-of-Sample-Fehlers zu erhalten.

  • 00:35:00 In diesem Abschnitt diskutiert der Dozent die Verzerrung, die eingeführt wird, wenn die Schätzung verwendet wird, um ein bestimmtes Modell auszuwählen, da es nicht mehr zuverlässig ist, da es basierend auf dem Validierungssatz ausgewählt wurde. Der Erwartungswert des Schätzers wird zu einer verzerrten Schätzung des Out-of-Sample-Fehlers. Ein Experiment mit zwei Modellen erzeugte eine Kurve, die eine systematische Tendenz zum einen oder anderen Modell anzeigte. Die Kurven in der Grafik zeigen die Lernkurve rückwärts und wie der Out-of-Sample-Fehler mit weiteren Beispielen für das Training abfällt. Je größer der Validierungssatz wird, desto zuverlässiger wird die Schätzung, und die Kurven, die die Fehler der Modelle anzeigen, konvergieren.

  • 00:40:00 In diesem Abschnitt erklärt die Vorlesung, wie man die Diskrepanz oder Verzerrung zwischen dem Training mit einem speziellen Hypothesensatz und dem Finden der endgültigen Hypothese mit einem Validierungssatz schätzt. Der Validierungssatz wird als Trainingsfehler für den endgültigen Hypothesensatz angesehen, und mit ein wenig Mathematik in Bezug auf die VC-Dimension und die effektive Komplexität kann eine Schätzung des Out-of-Sample-Fehlers erhalten werden. Obwohl mehr Beispiele die Schätzung verbessern, müssen logarithmische Beiträge berücksichtigt werden, wenn aus einer größeren Anzahl von Hypothesen ausgewählt wird. Nichtsdestotrotz geht die effektive Komplexität beim Umgang mit einem einzelnen Parameter mit einer VC-Dimension von 1 einher, was nicht allzu schwierig zu handhaben ist. Wenn Sie also über ein geeignetes Set verfügen, wird die Schätzung des Out-of-Sample-Fehlers nicht zu sehr vom tatsächlichen Wert abweichen.

  • 00:45:00 In diesem Abschnitt erörtert der Referent die Idee der Datenkontamination bei der Verwendung von Fehlerschätzungen, um Entscheidungen zu treffen, insbesondere im Kontext der Validierung. Der Trainingssatz gilt als vollständig kontaminiert, während der Testsatz vollständig sauber ist und eine unvoreingenommene Schätzung liefert. Das Validierungsset ist jedoch leicht kontaminiert, da es verwendet wird, um einige Entscheidungen zu treffen. Daher ist es wichtig, sich nicht hinreißen zu lassen und bei Bedarf zu einem anderen Validierungsset überzugehen. Der Redner führt dann die Kreuzvalidierung als ein Validierungsverfahren ein, das eine bessere Schätzung mit einem kleineren Fehlerbalken erhalten kann, solange es dabei nicht voreingenommen ist.

  • 00:50:00 In diesem Abschnitt stellt der Professor das Konzept der Validierung durch Kreuzvalidierung vor, insbesondere die „Leave one out“-Methode. Bei dieser Methode wird der Datensatz zweigeteilt, wobei ein Punkt für die Validierung und der Rest für das Training verwendet wird. Der Prozess wird für verschiedene Punkte wiederholt, was zu mehreren unvoreingenommenen und unvollkommenen Schätzungen führt. Da alle Schätzungen auf einem Training mit N minus 1 Datenpunkten basieren, haben sie einen roten Faden. Obwohl sie unvollkommen sind, geben die wiederholten Schätzungen Einblick in das Verhalten des Modells und helfen, es für die beste Out-of-Sample-Leistung zu optimieren.

  • 00:55:00 In diesem Abschnitt wird das Konzept der Kreuzvalidierung als Methode zur Bewertung des Out-of-Sample-Fehlers für verschiedene Hypothesen eingeführt. Durch Aufteilen des Datensatzes in Trainings- und Validierungssätze ist es möglich, die Leistung des Modells anhand von unsichtbaren Daten abzuschätzen. Zur Veranschaulichung des Prozesses wird die Methode "eins weglassen" verwendet. Die Wirksamkeit der Kreuzvalidierung wird diskutiert, wobei gezeigt wird, dass die Verwendung von N minus 1 Punkten zum Trainieren und N Punkten zum Validieren bemerkenswert effizient ist, um genaue Ergebnisse zu erhalten.

  • 01:00:00 In diesem Abschnitt erörtert der Professor die Verwendung der Kreuzvalidierung für die Modellauswahl. Er demonstriert dies, indem er das lineare und das konstante Modell mit drei Punkten vergleicht, und zeigt, wie das konstante Modell gewinnt. Dann wendet er eine Kreuzvalidierung auf das Problem an, eine Trennfläche für handgeschriebene Ziffern zu finden, indem er eine nichtlineare Transformation 5. Ordnung mit 20 Merkmalen verwendet. Er verwendet die Kreuzvalidierung „eins weglassen“, um 20 Modelle zu vergleichen, und wählt aus, wo das Hinzufügen von Funktionen beendet werden soll. Er zeigt, dass der Kreuzvalidierungsfehler eng mit dem Out-of-Sample-Fehler übereinstimmt und dass seine Verwendung als Kriterium für die Modellauswahl zu Minima bei 6 Merkmalen mit verbesserter Leistung im Vergleich zur Verwendung des vollständigen Modells ohne Validierung führt.

  • 01:05:00 In diesem Abschnitt erörtert der Professor die Verwendung von Validierung zur Verhinderung von Overfitting und wie sie als ähnlich zur Regularisierung angesehen wird. Er erklärt, dass die „Eins weglassen“-Validierung für die meisten realen Probleme nicht praktikabel ist, und schlägt vor, stattdessen eine 10-fache Kreuzvalidierung zu verwenden. Er gibt auch Hinweise zur Anzahl der zu verwendenden Parameter basierend auf der Größe des Datensatzes und erklärt, warum die Modellauswahl durch Validierung nicht als Datenschnüffeln gilt.

  • 01:10:00 In diesem Abschnitt erörtert der Professor die Bedeutung der Berücksichtigung von Out-of-Sample-Diskrepanzen und Datenschnüffeln bei der Verwendung des Validierungssets zur Modellauswahl. Er betont die Notwendigkeit, Randomisierungsmethoden wie das Werfen von Münzen zu verwenden, um Stichprobenverzerrungen zu vermeiden, und Kreuzvalidierungstechniken zu verwenden, um den Regularisierungsparameter in vielen praktischen Fällen auszuwählen. Während die Kreuzvalidierung die Berechnungskomplexität erhöhen kann, kann sie auch mit der Regularisierung kombiniert werden, um die beste Hypothese für ein Modell auszuwählen. Der Professor merkt an, dass es zwar andere Methoden für die Modellauswahl gibt, die Validierung jedoch insofern einzigartig ist, als sie keine Annahmen erfordert.

  • 01:15:00 In diesem Abschnitt erörtert der Professor, wie die Validierung dabei helfen kann, bei der Auswahl von Modellen prinzipientreue Entscheidungen zu treffen, unabhängig von der Art der Wahl, und wie sie auch zur Aktualisierung des Modells im Falle einer Zeitentwicklung oder eines Tracking-Systems verwendet werden kann Evolution. Beim Vergleich von Validierung und Kreuzvalidierung erklärt er, dass beide Methoden voreingenommen sind, aber die Kreuzvalidierung ermöglicht, dass mehr Beispiele sowohl für das Training als auch für die Validierung verwendet werden können, was zu einer kleineren Fehlerbar und einer geringeren Anfälligkeit für Voreingenommenheit führt. Obwohl es möglich sein kann, Datensätze zu haben, die so groß sind, dass eine Kreuzvalidierung nicht erforderlich ist, liefert der Professor ein Beispiel, bei dem selbst mit 100 Millionen Punkten eine Kreuzvalidierung aufgrund der Art der Daten immer noch vorteilhaft war.

  • 01:20:00 In diesem Abschnitt erörtert der Professor Szenarien, in denen die Kreuzvalidierung nützlich ist, und spricht mögliche Probleme damit an. Er erklärt, dass Kreuzvalidierung relevant wird, wenn der relevanteste Teil eines großen Datensatzes kleiner als der gesamte Datensatz ist. Bei der Entscheidung zwischen konkurrierenden Modellen ist ein statistischer Nachweis erforderlich, um die Signifikanz des Out-of-Sample-Fehlers zu bestimmen. Der Professor gibt an, dass es bei einem kleineren Datensatz keine endgültige Antwort darauf gibt, ob es besser ist, die Datenmenge erneut abzutasten oder den Satz für die Kreuzvalidierung in Stücke zu zerlegen. Der Professor diskutiert auch die Rolle der Ausgewogenheit zwischen den Klassen und wie sich Bias verhält, wenn die Anzahl der ausgelassenen Punkte erhöht wird. Abschließend erklärt der Professor, dass die Gesamtzahl der Validierungspunkte den Fehlerbalken bestimmt und die Verzerrung eine Funktion davon ist, wie die Kreuzvalidierung verwendet wird.

  • 01:25:00 In diesem Abschnitt erörtert der Professor den Fehlerbalken und wie er einen Hinweis auf die Anfälligkeit für Verzerrungen in einer Schätzung liefern kann. Wenn zwei Szenarien vergleichbare Fehlerbalken aufweisen, gibt es keinen Grund zu der Annahme, dass eines anfälliger für Verzerrungen ist. Es bedarf jedoch einer detaillierten Analyse, um den Unterschied zwischen der Betrachtung jeweils eines Szenarios und der Berücksichtigung von Korrelationen zu erkennen. Der Professor kommt zu dem Schluss, dass, solange eine Reihe von Faltungen durchgeführt werden und jedes Beispiel genau einmal in der Kreuzvalidierungsschätzung vorkommt, es keine Präferenz zwischen den Szenarien in Bezug auf die Verzerrung gibt.
Lecture 13 - Validation
Lecture 13 - Validation
  • 2012.05.17
  • www.youtube.com
Validation - Taking a peek out of sample. Model selection and data contamination. Cross validation. Lecture 13 of 18 of Caltech's Machine Learning Course - C...
 

Vorlesung 14 - Support Vector Machines



Machine Learning Course von Caltech – CS 156. Vorlesung 14 – Support Vector Machines

Die Vorlesung behandelt die Bedeutung der Validierung und ihre Verwendung beim maschinellen Lernen sowie die Vorteile der Kreuzvalidierung gegenüber der Validierung. Der Schwerpunkt der Vorlesung liegt auf Support-Vektor-Maschinen (SVMs) als effektivstes Lernmodell für die Klassifikation, wobei ein detaillierter Überblick über den Abschnitt zur Maximierung des Spielraums, Formulierung und analytische Lösungen durch eingeschränkte Optimierung gegeben wird. Die Vorlesung behandelt eine Reihe technischer Aspekte, darunter die Berechnung des Abstands zwischen einem Punkt und einer Hyperebene in SVMs, die Lösung des Optimierungsproblems für SVMs und die Formulierung des SVM-Optimierungsproblems in seiner dualen Formulierung. Der Dozent diskutiert auch die praktischen Aspekte der Verwendung der quadratischen Programmierung zur Lösung des Optimierungsproblems und die Bedeutung der Identifizierung von Support-Vektoren. Die Vorlesung schließt mit einer kurzen Diskussion über die Verwendung von nichtlinearen Transformationen in SVMs.

Im zweiten Teil dieser Vorlesung über Support-Vektor-Maschinen (SVM) erklärt der Dozent, wie die Anzahl der Support-Vektoren dividiert durch die Anzahl der Beispiele eine Obergrenze für die Fehlerwahrscheinlichkeit bei der Klassifizierung eines Out-of-Sample-Punktes ergibt Verwendung von Stützvektoren mit nichtlinearer Transformation möglich. Der Professor diskutiert auch die Normalisierung von w transponiertem x plus b auf 1 und ihre Notwendigkeit zur Optimierung sowie die Soft-Margin-Version von SVM, die Fehler zulässt und bestraft. Außerdem wird der Zusammenhang zwischen der Anzahl der Support-Vektoren und der VC-Dimension erläutert und die Rauschresistenz des Verfahrens erwähnt, wobei die Soft-Version des Verfahrens bei verrauschten Daten zum Einsatz kommt.

  • 00:00:00 In diesem Abschnitt geht der Dozent auf die Bedeutung der Validierung ein, insbesondere im Hinblick auf ihren Einsatz beim maschinellen Lernen. Das Konzept der unverzerrten und optimistischen Verzerrung als Folge von Validierungsfehlern und seine Auswirkungen auf die Modellauswahl werden ebenfalls erläutert. Der Vorteil der Kreuzvalidierung gegenüber der Validierung wird in diesem Abschnitt weiter hervorgehoben. Darüber hinaus stellt der Dozent Support Vector Machines als das effektivste Lernmodell für die Klassifikation vor und nennt dessen intuitive Interpretation, eine prinzipielle Ableitung und das Optimierungspaket als wesentliche Vorteile des Lernmodells. Eine detaillierte Gliederung des Abschnitts, der die Maximierung von Gewinnspannen, Formulierungen und analytischen Lösungen durch eingeschränkte Optimierung beinhaltet, wird ebenfalls präsentiert.

  • 00:05:00 In diesem Abschnitt wurde das Konzept der Maximierung des Spielraums bei der linearen Trennung erläutert. Während alle Linien, die linear trennbare Daten trennen, keinen In-Sample-Fehler haben, können einige bessere Ränder haben, die eine größere Verallgemeinerung ermöglichen. Es wird erklärt, dass ein größerer Spielraum besser ist, da in lauten Situationen die Wahrscheinlichkeit höher ist, dass der neue Punkt korrekt klassifiziert wird. Dies hängt mit der Wachstumsfunktion zusammen und wie eine größere Wachstumsfunktion für die Verallgemeinerung beim maschinellen Lernen nachteilig ist. Es wird gezeigt, dass die Maximierung des Spielraums bei der Verallgemeinerung helfen kann, indem nach Linien gesucht wird, die nicht nur die Daten korrekt trennen, sondern auch den maximal möglichen Spielraum für diese Datenpunkte haben.

  • 00:10:00 In diesem Abschnitt diskutiert der Dozent fette Ränder und wie sie die Leistung eines Klassifikators verbessern können. Dadurch, dass ein Klassifikator einen Spielraum einer bestimmten Größe haben muss, wird die Anzahl möglicher Dichotomien reduziert, was zu einer kleineren Wachstumsfunktion und einer kleineren VC-Dimension führt. Je größer der Spielraum ist, desto besser ist die Out-of-Sample-Leistung des Klassifikators. Der Dozent erklärt dann, wie man nach dem größtmöglichen Spielraum löst, indem man den Abstand zwischen der Hyperebene und dem nächsten Datenpunkt ermittelt und den Vektor w normalisiert, um die Analyse zu vereinfachen. Das Signal oder der Abstand zwischen der Hyperebene und den Datenpunkten ist nicht der euklidische Abstand, sondern die Reihenfolge der nächsten und entferntesten Punkte und muss konvertiert werden, um den euklidischen Abstand zu erhalten.

  • 00:15:00 In diesem Abschnitt erklärt der Dozent einige für die Support-Vector-Machine-Analyse relevante technische Einzelheiten. Um die Leistung verschiedener Flugzeuge zu vergleichen, wird zunächst die euklidische Distanz als Maßstab verwendet. Zweitens wird w aus dem Vektor X extrahiert, um Support-Vektor-Maschinen bequemer zu analysieren, und w&sub0; wird herausgezogen, damit es nicht mit dem w-Vektor verwechselt wird, der nun eine neue Rolle hat. Das Ziel besteht darin, den Abstand zwischen xₙ (dem nächstgelegenen Punkt) und der Ebene zu berechnen. Der Dozent zeigt, dass der Vektor w orthogonal zur Ebene und zu jedem Vektor auf der Ebene ist, was bedeutet, dass er orthogonal zu jedem Normalenvektor auf der Ebene ist, also können wir jetzt den Abstand zwischen xₙ und der Ebene berechnen.

  • 00:20:00 In diesem Abschnitt erläutert der Referent, wie der Abstand zwischen einem Punkt und einer Hyperebene in SVMs berechnet wird. Dies kann durch Projizieren des Vektors, der von dem Punkt zu einem generischen Punkt auf der Hyperebene geht, auf die Richtung erfolgen, die orthogonal zu der Hyperebene ist. Der Einheitsvektor in dieser Richtung wird durch Normalisieren der Länge des Vektors berechnet. Mit etwas Algebra leitet der Sprecher eine Formel für die Entfernung ab, die durch Hinzufügen eines fehlenden Terms vereinfacht wird. Diese Formel kann verwendet werden, um die Kombination von w's auszuwählen, die die bestmögliche Spanne ergibt. Das daraus resultierende Optimierungsproblem ist wegen des Minimums in den Constraints nicht sehr benutzerfreundlich. Durch einige einfache Beobachtungen kann dieses Problem jedoch in ein freundlicheres quadratisches umformuliert werden.

  • 00:25:00 In diesem Abschnitt erklärt der Dozent, wie das Optimierungsproblem für Support Vector Machines (SVMs) gelöst werden kann. Sie zeigen zunächst, wie SVMs als eingeschränktes Optimierungsproblem formuliert werden können, bei dem sie eine Zielfunktion minimieren müssen, die linearen Ungleichungsbeschränkungen unterliegt. Sie beweisen, dass es möglich ist, Lagrange-Multiplikatoren zu verwenden, um die Ungleichheitsbeschränkungen in Gleichheitsbeschränkungen umzuwandeln und dann die neue Lagrange-Funktion zu lösen. Sie stellen fest, dass dieser Ansatz unabhängig voneinander von Karush und Kuhn-Tucker entdeckt wurde und als KKT Lagrangian bezeichnet wird. Der Dozent betont, dass das Verfahren ähnlich dem Verfahren zur Regularisierung ist, und erinnert sich an die Gradientenbedingung für die Lösung.

  • 00:30:00 In diesem Abschnitt erklärt der Dozent die Beziehung zwischen SVM und Regularisierung und der Lagrange-Formulierung. Es ist wichtig zu beachten, dass die Beschränkungen zu einem Gradienten ungleich Null führen, im Gegensatz zum Problem ohne Beschränkungen, bei dem der Gradient gleich 0 ist. Die Lagrange-Formulierung ist von Variablen wie w und b abhängig, und es gibt neue Variablen, Lagrange-Multiplikatoren wie den Alpha-Vektor . Das vorliegende Problem besteht darin, die Zielfunktion unter Beschränkungen der Form zu minimieren, und dann geben wir ihr einen Lagrange-Namen. Der interessante Teil ist, dass wir tatsächlich in Bezug auf Alpha maximieren, obwohl die Alphas nicht negativ sein müssen, und daher müssen wir darauf achten. Der Abschnitt endet mit einer kurzen Erklärung des unbeschränkten Teils, wo wir den Gradienten der Lagrange-Funktion in Bezug auf w und b minimieren müssen.

  • 00:35:00 In diesem Abschnitt der Vorlesung erklärt der Referent, wie man das SVM-Optimierungsproblem in seiner dualen Formulierung formuliert. Er optimiert das Problem zuerst in Bezug auf w und b, was zu zwei Bedingungen führt, die er wieder in die ursprüngliche Lagrange-Funktion einsetzt, was zur dualen Formulierung des Problems führt, was nur in Bezug auf die Lagrange-Multiplikatoren alpha eine schöne Formel ist. Dann setzt er die Einschränkung für die Alphas auf nichtnegativ und löst das Maximierungsproblem in Abhängigkeit von diesen Einschränkungen, was zu den optimalen Werten von Alpha führt, die die Unterstützungsvektoren bestimmen.

  • 00:40:00 In diesem Abschnitt erörtert der Referent die praktischen Aspekte der Verwendung der quadratischen Programmierung zur Lösung des zuvor vorgestellten Optimierungsproblems für Support-Vektor-Maschinen. Das Ziel und die Beschränkungen werden in Koeffizienten übersetzt, die zur Minimierung an das quadratische Programmierpaket weitergegeben werden. Die Matrixdimension hängt von der Anzahl der Beispiele ab, und dies wird bei großen Datensätzen zu einer praktischen Überlegung. Der Sprecher warnt davor, dass bei einer großen Anzahl von Beispielen die quadratische Programmierung Schwierigkeiten hat, die Lösung zu finden, und möglicherweise die Verwendung von Heuristiken erfordert.

  • 00:45:00 In diesem Abschnitt befasst sich die Vorlesung mit den Lösungen, die die quadratische Programmierung bietet, insbesondere Alpha, und wie sie sich auf das ursprüngliche Problem der Bestimmung der Gewichte, der Oberfläche, des Rands und b bezieht. Der Vortrag hebt die Bedeutung der Identifizierung von Stützvektoren hervor, die die Punkte sind, die die Ebene und den Rand definieren. Die Mathematik hinter positiven Lambdas (in diesem Fall Alphas) bietet eine Möglichkeit, Unterstützungsvektoren zu identifizieren, da sie nur Punkte mit positiven Werten berücksichtigt. Dies bedeutet, dass diese Alpha-Werte für die Definition der Grenze zwischen den beiden Klassifizierungen entscheidend sind, und die Identifizierung ihrer Position ist entscheidend für die Optimierung der Gewichtungen und die Schaffung der maximalen Marge.

  • 00:50:00 In diesem Abschnitt wird das Konzept der Support Vectors im Zusammenhang mit dem Support Vector Machine (SVM) Algorithmus eingeführt und diskutiert. Stützvektoren sind als die Datenpunkte definiert, die der Entscheidungsgrenze oder Hyperebene, die die Datenklassen trennt, am nächsten sind. Der SVM-Algorithmus optimiert ein quadratisches Programmierproblem, um die Unterstützungsvektoren und die Parameter der Entscheidungsfunktion zu bestimmen. Die Werte der Parameter hängen nur von den Stützvektoren ab, die die kritischen Punkte sind, was eine gute Verallgemeinerung des Modells ermöglicht. Nichtlineare Transformationen werden auch kurz als Möglichkeit zur Handhabung nicht separierbarer Daten diskutiert. Das Transformieren der Daten in einen höherdimensionalen Raum verkompliziert das Optimierungsproblem nicht, und die gleiche Technik kann verwendet werden, um die Unterstützungsvektoren und die Entscheidungsfunktion zu finden.

  • 00:55:00 In diesem Abschnitt des Videos diskutiert der Dozent die Verwendung von nichtlinearen Transformationen in SVMs. Nichtlineare Transformationen werden verwendet, wenn Daten nicht linear trennbar sind, was im X-Raum der Fall ist. Der Dozent demonstriert, wie man eine nichtlineare Transformation verwendet und im Z-Raum arbeitet, um ein linear trennbares Ergebnis zu erzielen. Er erklärt, dass die Lösung einfach ist und die Anzahl der Alphas von der Anzahl der Datenpunkte abhängt, nicht von der Dimensionalität des Raums, in dem Sie arbeiten. Die Schlüsselidee ist, dass Sie in einen riesigen Raum gehen können, ohne einen Preis zu zahlen in Sachen Optimierung. Die Stützvektoren werden im Z-Raum identifiziert, aber im X-Raum sehen sie wie Datenpunkte aus.

  • 01:00:00 In diesem Abschnitt diskutiert der Dozent das Verallgemeinerungsergebnis, das die Verwendung von Stützvektoren mit nichtlinearer Transformation möglich macht. Die Anzahl der Unterstützungsvektoren, die die Anzahl der effektiven Parameter darstellt, dividiert durch die Anzahl der Beispiele, ergibt eine Obergrenze für die Fehlerwahrscheinlichkeit bei der Klassifizierung eines Out-of-Sample-Punktes. Wenn der erwartete Wert mehrerer Läufe dieser Maschinerie zutrifft, dann wird das tatsächliche E_out, das Sie in einem bestimmten Fall erhalten, nach oben durch eine bekannte Art von Grenze begrenzt (z. B. die Anzahl der Parameter, Freiheitsgrade und VC-Dimension geteilt durch). die Anzahl der Beispiele). Dieses Ergebnis veranlasst die Menschen, Unterstützungsvektoren und Unterstützungsvektoren mit der nichtlinearen Transformation zu verwenden, da Sie nicht für die Berechnung des Wechsels in eine höhere Dimension oder die damit verbundene Verallgemeinerung bezahlen.

  • 01:05:00 In diesem Abschnitt erklärt der Professor, warum er w transponiert x plus b auf 1 normalisiert und warum diese Normalisierung für die Optimierung notwendig ist. Er beantwortet auch eine Frage dazu, wie SVM mit nichtlinear trennbaren Punkten durch nichtlineare Transformationen umgeht und wie die Soft-Margin-Version von SVM Fehler zulässt und sie bestraft. Darüber hinaus geht der Professor kurz auf die Beziehung zwischen der Anzahl der Unterstützungsvektoren und der VC-Dimension ein und wie die Alphas die Parameter in SVM darstellen.

  • 01:10:00 In diesem Abschnitt diskutiert der Dozent die Beziehung zwischen der Anzahl der Nicht-Null-Parameter und der VC-Dimension, die per Definition der Anzahl der Support-Vektoren entspricht. Das Margenmaß kann je nach verwendeter Norm variieren, es gibt jedoch keinen zwingenden Grund, eine der anderen in Bezug auf die Leistung zu bevorzugen. Während es kein direktes Verfahren zum Beschneiden von Unterstützungsvektoren gibt, sind das Nehmen von Teilmengen und das Erhalten der Unterstützungsvektoren der Unterstützungsvektoren mögliche rechnerische Überlegungen. Das SVM-Verfahren ist nicht besonders anfällig für Rauschen, und in Fällen von verrauschten Daten wird die weiche Version des Verfahrens verwendet, die dem nicht verrauschten Fall bemerkenswert ähnlich ist.
Lecture 14 - Support Vector Machines
Lecture 14 - Support Vector Machines
  • 2012.05.18
  • www.youtube.com
Support Vector Machines - One of the most successful learning algorithms; getting a complex model at the price of a simple one. Lecture 14 of 18 of Caltech's...
 

Vorlesung 15 - Kernel-Methoden



Machine Learning Course von Caltech - CS 156. Vorlesung 15 - Kernel-Methoden

Diese Vorlesung über Kernel-Methoden stellt Support-Vektor-Maschinen (SVMs) als lineares Modell vor, das aufgrund des Konzepts der Margenmaximierung leistungsorientierter ist als herkömmliche lineare Regressionsmodelle. Wenn die Daten nicht linear trennbar sind, können nichtlineare Transformationen verwendet werden, um wellige Oberflächen zu erstellen, die dennoch komplexe Hypothesen ermöglichen, ohne einen hohen Preis für Komplexität zu zahlen. Das Video erklärt Kernel-Methoden, die in den hochdimensionalen Z-Raum gehen, und erklärt, wie man das Skalarprodukt berechnet, ohne die einzelnen Vektoren zu berechnen. Das Video skizziert auch die verschiedenen Ansätze, um einen gültigen Kernel für Klassifizierungsprobleme zu erhalten, und erklärt, wie SVM auf nicht trennbare Daten angewendet wird. Schließlich erklärt das Video das Konzept des Slack und die Quantifizierung der Margin-Verletzung in SVM, führt eine Variable xi ein, um die Margin-Verletzung zu bestrafen, und überprüft die Lagrange-Formel zur Auflösung nach Alpha.

Der zweite Teil behandelt praktische Aspekte der Verwendung von Support Vector Machines (SVMs) und Kernel-Methoden. Er erklärt das Konzept von Soft-Margin-Support-Vektor-Maschinen und wie sie eine gewisse Fehlklassifizierung ermöglichen, während sie einen breiten Spielraum beibehalten. Er spricht über die Bedeutung des Parameters C, der bestimmt, wie viele Verletzungen auftreten können, und schlägt vor, eine Kreuzvalidierung zu verwenden, um seinen Wert zu bestimmen. Er geht auch auf Bedenken hinsichtlich der konstanten Koordinate in transformierten Daten ein und versichert den Benutzern, dass sie dieselbe Rolle spielt wie der Bias-Term. Darüber hinaus diskutiert er die Möglichkeit, Kernel zu kombinieren, um neue Kernel zu erzeugen, und schlägt heuristische Methoden vor, die verwendet werden können, wenn die quadratische Programmierung beim Lösen von SVMs mit zu vielen Datenpunkten fehlschlägt.

  • 00:00:00 In diesem Abschnitt der Vorlesung über Kernel-Methoden stellt Yaser Abu-Mostafa das Konzept der Support Vector Machines (SVMs) vor und weist darauf hin, dass sie nichts anderes als ein lineares Modell in der einfachsten Form sind, sondern eher leistungsorientiert sind wegen der Idee, die Marge zu maximieren. Durch die Verwendung eines Pakets quadratischer Programmierung können wir das SVM-Problem lösen und die Alphas zurückbekommen, was uns hilft, die Unterstützungsvektoren zu identifizieren. Wenn die Daten nicht linear trennbar sind, können wir eine nichtlineare Transformation verwenden, aber die resultierende wackelige Oberfläche ermöglicht es uns immer noch, eine komplexe Hypothese zu erhalten, ohne einen hohen Preis für Komplexität zu zahlen. Wir können den Out-of-Sample-Fehler basierend auf der Anzahl der Support-Vektoren vorhersagen, die eine In-Sample-Größe ist.

  • 00:05:00 In diesem Abschnitt erläutert das Video das Konzept der Kernel-Methoden und ihre Rolle bei der Erweiterung von Support-Vektor-Maschinen über den linear trennbaren Fall hinaus. Die Idee hinter Kernel-Methoden ist es, in einen hochdimensionalen Z-Raum zu gehen, ohne den Preis für Komplexität zu zahlen. Das Video erklärt, dass der Schlüssel dazu darin besteht, das Skalarprodukt im Z-Raum berechnen zu können, ohne die einzelnen Vektoren in diesem Raum tatsächlich zu berechnen. Hier kommen Kernel ins Spiel, da sie die Berechnung innerer Produkte nur mit expliziten Eingaben ermöglichen. Das Video erklärt weiter die Implikationen dieser Methoden für den Umgang mit nichtlinearen Transformationen und weichen Rändern und wie sie in der Praxis zur Bewältigung komplexer Probleme eingesetzt werden können.

  • 00:10:00 In diesem Abschnitt erklärt die Vorlesung die Verwendung des Skalarprodukts im Z-Raum und wie es mit Kernel-Methoden zusammenhängt. Das innere Produkt ist notwendig, um die Lagrange-Funktion zu bilden und Beschränkungen an die quadratische Programmierung weiterzugeben, aber es kann nur unter Verwendung innerer Produkte berechnet werden, um eine Support-Vektor-Maschinerie auszuführen. Indem man ein verallgemeinertes inneres Produkt oder Kernel verwendet, das einem Z-Raum entspricht, kann man zwei Punkte x und x Bindestrich in eine Funktion transformieren, die durch x und x Bindestrich bestimmt wird, die als Kern bezeichnet wird. Es wird ein Beispiel für einen zweidimensionalen euklidischen Raum gegeben, der eine Polynomtransformation 2. Ordnung verwendet.

  • 00:15:00 In diesem Abschnitt erörtert der Dozent das Konzept der Kernel-Methoden und wie Kernel berechnet werden, ohne x und x Bindestrich zu transformieren. Der Dozent improvisiert einen Kernel, der die Dinge nicht in den Z-Raum transformiert, und überzeugt das Publikum davon, dass der Kernel einer Transformation in einen Z-Raum entspricht, wobei er dort ein inneres Produkt nimmt. Durch Quadrieren eines Kernels mit dem zur Q-Potenz erhobenen 1 + x_xdash erklärt der Dozent, wie dies in einem bestimmten Raum zu einem inneren Produkt wird und es zu einem gültigen Kernel macht. Außerdem vergleicht der Dozent den Rechenaufwand dafür mit anderen Dimensionen, unabhängig von der Komplexität von Q, die gleich bleibt.

  • 00:20:00 In diesem Abschnitt erklärt der Dozent eine Kernmethode zur Polynomtransformation, die ohne eigentliche Erweiterung des Polynoms durchgeführt werden kann. Indem man den Logarithmus nimmt und ihn potenziert, wird das Polynom zu einer einfachen Operation, die keine große Erweiterung erfordert. Dies ist ein einfaches Polynom, das in 2D visualisiert und für andere Fälle extrapoliert werden kann. Ein Kernel, der auf einen höherdimensionalen Raum abgebildet wird, kann erhalten werden, indem man ein inneres Produkt in diesem Raum nimmt. Der Dozent stellt ein Beispiel für einen Kern vor, der keinen Skalarproduktterm im X- oder Z-Raum hat, aber einem Skalarprodukt in einem unendlichdimensionalen Raum entspricht. Trotz der Herausforderungen, in einen unendlich dimensionalen Raum zu gehen, ist die Kernel-Methode immer noch nützlich, und die Anzahl der Unterstützungsvektoren kann verwendet werden, um die Verallgemeinerung eines Modells zu bestimmen.

  • 00:25:00 In diesem Abschnitt demonstriert der Dozent den radialen Basisfunktionskern, einen ausgeklügelten Kern, der einem unendlichdimensionalen Raum entspricht, und zeigt, wie er in Aktion funktioniert, indem er einen leicht nicht trennbaren Fall nimmt. Der Dozent generiert zufällig 100 Punkte und zeigt, dass es keine Trennlinie gibt. Dann transformiert der Dozent X in einen unendlichdimensionalen Raum und berechnet den Kern, der eine einfache Exponentialfunktion ist. Der Dozent gibt dies an die quadratische Programmierung weiter, die die Stützvektoren zurückgibt. Wenn der Dozent die Unterstützungsvektoren abdunkelt, wird es einfacher, die beiden Klassen zu sehen.

  • 00:30:00 In diesem Abschnitt erörtert der Referent die Idee von Kernel-Methoden und wie sie zur Klassifizierung verwendet werden können. Er präsentiert ein Beispiel für die Verwendung eines Kernels auf einem Datensatz von Punkten, um sie in einen unendlich dimensionalen Raum zu transformieren, in dem sie durch eine lineare Ebene getrennt werden können. Die resultierenden Spielraum- und Unterstützungsvektoren werden verwendet, um die In-Sample-Menge zu bestimmen, die die Generalisierungseigenschaft leitet. Der Sprecher erklärt dann weiter, wie ein gültiger Kern, der einem Skalarprodukt in einem gewissen Z-Raum entspricht, beim Formulieren des Problems und beim Konstruieren der Hypothese verwendet werden kann. Insgesamt betont er die Nützlichkeit von Kernel-Methoden und wie sie zur Lösung von Klassifikationsproblemen eingesetzt werden können.

  • 00:35:00 In diesem Abschnitt lernen wir, wie man das lineare Modell in eine Kernel-Form übersetzt, wo Support Vector Machines zu einem Modell werden, das die Wahl des Kernels ermöglicht. Der Kernel nimmt den Platz des inneren Produkts ein, nachdem innere Produkte mit dem Z-Raum genommen wurden. Das resultierende Modell hängt von der Wahl des Kernels ab, und wir können auch nach b auflösen, indem wir einen Unterstützungsvektor einfügen. Der Kernel ist jedoch schwer zu bestimmen, da Sie seine Gültigkeit nicht überprüfen können, ohne den Z-Raum zu besuchen. Nichtsdestotrotz veranschaulichen wir, wie wir Ansätze vergleichen können, indem wir uns die funktionale Form verschiedener Kernel ansehen.

  • 00:40:00 In diesem Abschnitt erläutert der Dozent die Bedingungen zum Erhalt eines gültigen Kernels bei Kernel-Methoden. Es gibt drei Ansätze: Konstruktion, bei der ein Kern aus einem konzeptionellen oder expliziten Satz von Transformationen konstruiert wird; Mercer-Bedingung, die erfordert, dass ein bestimmter Kern symmetrisch ist und dass eine aus den Kernwerten konstruierte Matrix positiv semidefinit ist; und schließlich ein Improvisationsansatz, bei dem die Lebensfähigkeit des Kernels ein sehr praktisches Anliegen ist und zwei Bedingungen gleichzeitig erfüllt werden müssen. Diese sind, dass der Kernel symmetrisch ist und die aus Kernelwerten konstruierte Matrix für jede Auswahl von Punkten positiv semidefinit sein muss, wie es die Bedingung von Mercer erfordert.

  • 00:45:00 In diesem Abschnitt beschreibt der Dozent Situationen, in denen Daten nicht linear trennbar sind, und wie man in solchen Fällen den Support-Vector-Machine-Algorithmus anwendet. Es könnte zwei Szenarien nicht separierbarer Daten geben, eines, bei dem die Nicht-Separierbarkeit gering ist, und das andere, bei dem die Nicht-Separierbarkeit signifikant ist. Um mit nichtlinear trennbaren Daten umzugehen, kann man Fehler machen und durch Verallgemeinerung lernen, anstatt zu versuchen, komplexe übermäßig hochdimensionale Räume zu verwenden, die alle Datenpunkte enthalten, wodurch der Fehler gering gehalten wird. Im Falle einer schwerwiegenden Nichttrennbarkeit muss man sich für eine nichtlineare Transformation entscheiden und Kernel oder Support-Vektor-Maschinen mit weichem Rand verwenden. Der Dozent spricht dann über die Idee der Margenverletzung und wie man sie quantifiziert, um Klassifizierungsfehler zu berücksichtigen.

  • 00:50:00 In diesem Abschnitt stellt der Dozent das Konzept von Slack und die Quantifizierung der Margenverletzung in SVM vor. Er erklärt, dass er für jeden Punkt, der die Verletzung der Margin misst, einen Slack einführt und den gesamten Verstoß bestraft, indem er diese Slacks addiert. Er wählt dieses Fehlermaß, das angemessen ist und die Verletzung der Marge misst, anstelle von anderen. Dann führt er die neue Optimierung ein, die den Fehlerterm der Margenverletzung minimiert und gleichzeitig die Marge maximiert. Die Konstante C gibt die relative Wichtigkeit dieses Begriffs der Margin-Verletzung gegenüber dem vorherigen Term an, der den Margin maximiert. Abhängig vom Wert von C könnte das Endergebnis linear trennbare Daten oder ein Kompromiss sein, da es den Kompromiss zwischen Margin und Slack darstellt. Abschließend überprüft er die Lagrange-Formulierung unter Hinzufügung der neuen Terme.

  • 00:55:00 In diesem Abschnitt erläutert der Dozent das neue Problem der quadratischen Programmierung, das durch Hinzufügen der Variablen xi eingeführt wurde, um Randverletzungen zu bestrafen. Die Lagrange-Funktion enthält neue Einschränkungen für xi, die für die Verwendung von Lagrange-Multiplikatoren, Beta, gelöst werden müssen. Der Dozent zeigt dann, wie die Minimierung von w und b unverändert bleibt und stellt fest, dass das Auflösen nach xi zu einer Größe führt, die immer Null ist. Dieser Befund führt dazu, dass Beta aus der Lagrange-Funktion herausfällt und die gleiche Lösung wie zuvor übrig bleibt, mit der einzigen Auswirkung, dass Alpha jetzt nicht nur größer oder gleich Null ist, sondern auch kleiner oder gleich C.

  • 01:00:00 In diesem Abschnitt des Videos geht der Dozent auf das Konzept der Soft-Margin-Support-Vector-Maschinen ein, die eine gewisse Fehlklassifizierung zulassen und dennoch einen großen Spielraum beibehalten. Die Lösung beinhaltet eine zusätzliche Einschränkung, die erfordert, dass Alpha höchstens C ist, zusammen mit der bereits vorhandenen Gleichheitsbeschränkung. Die Soft-Margin-Support-Vektor-Maschinen umfassen sowohl Margin- als auch Nicht-Margin-Support-Vektoren, wobei letztere die Punkte sind, die die Marge verletzen, wodurch ein Schlupf verursacht wird, der durch den Wert xi dargestellt wird. Der Wert von C ist ein wichtiger Parameter, der bestimmt, wie viele Verletzungen auftreten können, und dies wird normalerweise durch Kreuzvalidierung bestimmt.

  • 01:05:00 In diesem Abschnitt diskutiert der Dozent praktische Punkte zur Verwendung von Support Vector Machines (SVMs) und Kernel-Methoden. Er erklärt, dass die quadratische Programmierung möglicherweise nicht konvergiert, wenn die Daten nicht linear trennbar sind, was zu einer Situation führt, in der es keine praktikable Lösung gibt. Er ermutigt die Benutzer jedoch, faul zu sein und trotzdem Alphas aus der quadratischen Programmierung an die Lösung zurückzugeben, um zu bewerten, ob sie die Daten trennt oder nicht. Darüber hinaus geht er auf Bedenken hinsichtlich der konstanten Koordinate 1 ein, die mit den Daten transformiert wird, und erklärt, dass sie effektiv dieselbe Rolle wie der Bias-Term b spielt und dass Benutzer sich keine Sorgen darüber machen müssen, dass mehrere Koordinaten dieselbe Rolle haben.

  • 01:10:00 In diesem Abschnitt erklärt der Professor, dass die Linearität von Support Vector Machines (SVMs) von bestimmten Annahmen abhängt und in einigen Fällen besser als linear sein kann. Die Dimension der Daten kann die Effektivität von SVM beeinträchtigen, aber der RBF-Kernel kann mit unendlichen Dimensionen umgehen, wenn die Terme höherer Ordnung schnell abklingen. Ein gültiger Kernel muss ein wohldefiniertes inneres Produkt haben, das von der Konvergenz abhängt. Der Professor geht nicht auf SVMs ein, die auf Regressionsfälle verallgemeinert werden, da sie mehr technische Details erfordern, und der größte Erfolg von SVMs liegt in der Klassifizierung. Schließlich kann es Beschwerden von quadratischen Programmierpaketen geben, dass sie nicht positiv definit sind, aber die Lösungen können immer noch mit einer gewissen Zuverlässigkeit in Ordnung sein.

  • 01:15:00 In diesem Abschnitt erörtert der Professor die Möglichkeit, Kerne zu kombinieren, um neue Kerne zu erzeugen, und die Anforderung an die Kombination, ein inneres Produkt in einem Z-Raum beizubehalten. Er erwähnt auch, dass das Problem der quadratischen Programmierung der Engpass bei der Lösung von Problemen mit SVMs ist, und gibt eine Schätzung der Anzahl von Punkten an, die durch quadratische Programmierung gehandhabt werden können. Darüber hinaus schlägt er heuristische Methoden vor, die verwendet werden können, wenn die quadratische Programmierung beim Lösen von SVMs mit zu vielen Datenpunkten fehlschlägt.
Lecture 15 - Kernel Methods
Lecture 15 - Kernel Methods
  • 2012.05.24
  • www.youtube.com
Kernel Methods - Extending SVM to infinite-dimensional spaces using the kernel trick, and to non-separable data using soft margins. Lecture 15 of 18 of Calte...
 

Vorlesung 16 - Radiale Basisfunktionen



Caltech's Machine Learning Course - CS 156. Vorlesung 16 - Radiale Basisfunktionen

In dieser Vorlesung über radiale Basisfunktionen deckt Professor Yaser Abu-Mostafa eine Reihe von Themen ab, von SVMs bis hin zu Clustering, unüberwachtem Lernen und Funktionsapproximation mit RBFs. Der Vortrag behandelt den Parameterlernprozess für RBFs, die Auswirkung von Gamma auf das Ergebnis einer Gaußschen Funktion in RBF-Modellen und die Verwendung von RBFs zur Klassifizierung. Das Konzept des Clustering wird für das unüberwachte Lernen eingeführt, wobei der Lloyd-Algorithmus und das K-Means-Clustering im Detail besprochen werden. Er beschreibt auch eine Modifikation von RBFs, bei der bestimmte repräsentative Zentren für die Daten ausgewählt werden, um die Nachbarschaft um sie herum zu beeinflussen, und der K-Means-Algorithmus verwendet wird, um diese Zentren auszuwählen. Die Bedeutung der Auswahl eines geeigneten Werts für den Gammaparameter bei der Implementierung von RBFs für die Funktionsnäherung wird ebenfalls diskutiert, zusammen mit der Verwendung mehrerer Gammas für verschiedene Datensätze und der Beziehung von RBFs zur Regularisierung.

Im zweiten Teil diskutiert Yaser Abu-Mostafa radiale Basisfunktionen (RBF) und wie sie basierend auf Regularisierung abgeleitet werden können. Der Professor stellt einen Smoothness Constraint-Ansatz vor, der Ableitungen verwendet, um eine glatte Funktion zu erreichen, und stellt die Herausforderungen bei der Auswahl der Anzahl von Clustern und Gamma dar, wenn es um hochdimensionale Räume geht. Darüber hinaus erklärt der Professor, dass die Verwendung von RBF davon ausgeht, dass die Zielfunktion glatt ist, und das Eingangsrauschen im Datensatz berücksichtigt. Die Grenzen des Clustering werden ebenfalls diskutiert, aber es kann nützlich sein, repräsentative Punkte für überwachtes Lernen zu erhalten. Abschließend erwähnt der Professor, dass RBFs in bestimmten Fällen Support Vector Machines (SVMs) übertreffen können, wenn die Daten auf eine bestimmte Weise geclustert werden und die Cluster einen gemeinsamen Wert haben.

  • 00:00:00 In diesem Abschnitt stellt Abu-Mostafa eine Möglichkeit vor, SVM zu verallgemeinern, indem Fehler oder Verletzungen des Spielraums zugelassen werden, was dem Design einen weiteren Freiheitsgrad hinzufügt. Indem sie einen Parameter C haben, geben sie einen Grad an, bis zu dem Verletzungen des Spielraums erlaubt sind. Die gute Nachricht ist, dass die Lösung identisch mit der quadratischen Programmierung ist. Es ist jedoch nicht klar, wie man den besten Wert für C wählt, weshalb eine Kreuzvalidierung verwendet wird, um den C-Wert zu bestimmen, der die Out-of-Sample-Fehlerschätzung minimiert. SVM ist eine hervorragende Klassifizierungstechnik und für viele Menschen das Modell der Wahl, da es einen sehr geringen Overhead und ein bestimmtes Kriterium hat, das es besser macht als die Auswahl einer zufälligen Trennebene.

  • 00:05:00 In diesem Abschnitt erörtert der Professor das radiale Basisfunktionsmodell und seine Bedeutung für das Verständnis verschiedener Facetten des maschinellen Lernens. Das Modell basiert auf der Idee, dass jeder Punkt in einem Datensatz den Wert der Hypothese an jedem Punkt x durch die Entfernung beeinflusst, wobei näher gelegene Punkte einen größeren Einfluss haben. Die Standardform des radialen Basisfunktionsmodells ist gegeben durch h(x), das von der Distanz zwischen x und dem Datenpunkt x_n abhängt, gegeben durch die Norm von x minus x_n zum Quadrat, und einem positiven Parameter Gamma in einem Exponential bestimmt durch die Gewicht bestimmt werden. Das Modell wird wegen seines symmetrischen Einflusses um das Datenpunktzentrum als radial bezeichnet, und es wird als Basisfunktion bezeichnet, weil es der Baustein der funktionalen Form des Modells ist.

  • 00:10:00 In diesem Abschnitt des Videos geht der Dozent auf den Parameterlernprozess für radiale Basisfunktionen ein. Das Ziel besteht darin, die mit w_1 bis w_N bezeichneten Parameter zu finden, die eine Art Fehler basierend auf den Trainingsdaten minimieren. Die Punkte x_n werden ausgewertet, um den In-Sample-Fehler auszuwerten. Der Dozent führt Gleichungen ein, die nach den Unbekannten, den ws, zu lösen sind, und zeigt, dass, wenn Phi umkehrbar ist,
    die Lösung ist einfach w gleich dem Kehrwert von phi mal y. Durch die Verwendung des Gaußschen Kerns ist die Interpolation zwischen Punkten exakt, und die Auswirkung der Fixierung des Parameters Gamma wird analysiert.

  • 00:15:00 In diesem Abschnitt erörtert der Dozent die Auswirkung von Gamma auf das Ergebnis einer Gaußschen Funktion in RBF-Modellen. Wenn Gamma klein ist, ist die Gaußsche Breite und führt sogar zwischen zwei Punkten zu einer erfolgreichen Interpolation. Wenn Gamma jedoch groß ist, stirbt der Einfluss der Punkte ab, was zu einer schlechten Interpolation zwischen Punkten führt. Der Dozent zeigt auch, wie RBFs zur Klassifizierung verwendet werden, wobei das Signal der Hypothesenwert ist, der dann minimiert wird, um dem +1/-1-Ziel für Trainingsdaten zu entsprechen. Abschließend erklärt der Dozent, wie radiale Basisfunktionen mit anderen Modellen zusammenhängen, einschließlich der einfachen Nächste-Nachbar-Methode.

  • 00:20:00 In diesem Abschnitt erörtert der Dozent die Implementierung der Nächste-Nachbar-Methode unter Verwendung von radialen Basisfunktionen (RBFs) durch Beeinflussung eines nahegelegenen Punktes. Die Nächster-Nachbar-Methode ist spröde und abrupt, sodass das Modell weniger abrupt gemacht werden kann, indem es modifiziert wird, um die k-nächsten Nachbarn zu werden. Durch die Verwendung eines Gaußschen anstelle eines Zylinders kann die Oberfläche geglättet werden. Der Dozent modifizierte dann das exakte Interpolationsmodell, um das Problem von N Parametern und N Datenpunkten zu bewältigen, indem er eine Regularisierung einführte, die Probleme der Überanpassung und Unteranpassung löst. Das resultierende Modell ist als Ridge-Regression bekannt.

  • 00:25:00 In diesem Abschnitt beschreibt der Dozent eine Modifikation radialer Basisfunktionen, bei der bestimmte wichtige oder repräsentative Zentren für die Daten ausgewählt werden, um die Nachbarschaft um sie herum zu beeinflussen. Die Anzahl der Zentren wird als K bezeichnet, was viel kleiner ist als die Gesamtzahl der Datenpunkte N, sodass weniger Parameter zu berücksichtigen sind. Die Herausforderung besteht jedoch darin, die Zentren so auszuwählen, dass sie die Dateneingaben darstellen, ohne die Trainingsdaten zu kontaminieren. Der Dozent erklärt den K-Means-Clustering-Algorithmus zur Auswahl dieser Zentren, wobei das Zentrum für jede Gruppe benachbarter Punkte als Mittelwert dieser Punkte zugewiesen wird.

  • 00:30:00 In diesem Abschnitt wird das Konzept des Clustering für unüberwachtes Lernen eingeführt. Das Ziel besteht darin, ähnliche Datenpunkte zusammenzufassen; jeder Cluster hat ein Zentrum, das die Punkte innerhalb des Clusters darstellt. Das Ziel besteht darin, den mittleren quadratischen Fehler jedes Punkts innerhalb seines Clusters zu minimieren. Die Herausforderung besteht darin, dass dieses Problem NP-schwer ist, aber durch Verwendung des Lloyd-Algorithmus, auch bekannt als K-Means, iterativ ein lokales Minimum gefunden werden kann. Der Algorithmus minimiert den gesamten mittleren quadratischen Fehler, indem er die Cluster fixiert und die Zentren optimiert und dann die Zentren fixiert und die Cluster iterativ optimiert.

  • 00:35:00 In diesem Abschnitt über radiale Basisfunktionen wird das Konzept des Lloyd-Algorithmus für Clustering diskutiert. Der Algorithmus von Lloyd beinhaltet das Erstellen neuer Cluster, indem jeder Punkt genommen und sein Abstand zum neu gewonnenen Mittelwert gemessen wird. Der nächste Mittelwert wird dann als zu dem Cluster dieses Punktes gehörend bestimmt. Der Algorithmus fährt hin und her fort und reduziert die Zielfunktion, bis ein lokales Minimum erreicht ist. Die anfängliche Konfiguration der Zentren bestimmt das lokale Minimum, und das Ausprobieren verschiedener Ausgangspunkte kann zu unterschiedlichen Ergebnissen führen. Der Algorithmus wird auf eine nichtlineare Zielfunktion angewendet, und seine Fähigkeit, Cluster basierend auf Ähnlichkeit statt auf der Zielfunktion zu erstellen, wird demonstriert.

  • 00:40:00 In diesem Abschnitt erörtert der Sprecher den Algorithmus von Lloyd, bei dem wiederholt Datenpunkte geclustert und die Clusterzentren bis zur Konvergenz aktualisiert werden. Der Algorithmus wird radiale Basisfunktionen umfassen, und obwohl die aus den Daten in diesem Beispiel erzeugte Clusterbildung keine natürliche Clusterbildung aufwies, stellt der Sprecher fest, dass die Clusterbildung sinnvoll ist. Die Art und Weise, wie Zentren als Einflusszentrum dienen, kann jedoch Probleme verursachen, insbesondere bei der Verwendung von unüberwachtem Lernen. Der Referent vergleicht dann den vorherigen Vortrag über Stützvektoren mit den aktuellen Datenpunkten, wobei die Stützvektoren repräsentativ für die Trennebene sind und nicht die Dateneingaben wie die generischen Zentren aus diesem Vortrag.

  • 00:45:00 In diesem Abschnitt erläutert der Moderator den Prozess der überwachten und unüberwachten Auswahl wichtiger Punkte mit dem RBF-Kernel. Die Zentren werden mit dem Lloyd-Algorithmus gefunden, und die Hälfte des Auswahlproblems ist bereits gelöst. Die Gewichte werden anhand von Etiketten bestimmt, und es gibt K Gewichte und N Gleichungen. Da K kleiner als N ist, muss etwas nachgeben, und der Moderator zeigt, wie dieses Problem mit der Matrix Phi gelöst werden kann, die K Spalten und N Zeilen hat. Der Ansatz beinhaltet das Begehen eines In-Sample-Fehlers, aber die Chancen einer Verallgemeinerung sind gut, da nur K Gewichte bestimmt werden. Der Moderator bezieht diesen Prozess dann auf neuronale Netze und betont die Vertrautheit dieser Konfiguration mit Schichten.

  • 00:50:00 In diesem Abschnitt erörtert der Referent die Vorteile der Verwendung radialer Basisfunktionen und wie sie im Vergleich zu neuronalen Netzen funktionieren. Das radiale Basisfunktionsnetzwerk wird so interpretiert, dass es lokale Regionen im Raum betrachtet, ohne sich um die weit entfernten Punkte zu kümmern, während neuronale Netzwerke erheblich stören. Die Nichtlinearität des radialen Basisfunktionsnetzwerks ist Phi, während die entsprechende Nichtlinearität des neuronalen Netzwerks Theta ist, die beide mit w kombiniert werden, um h zu erhalten. Darüber hinaus hat das radiale Basisfunktionsnetzwerk zwei Schichten und kann unter Verwendung von Support-Vektor-Maschinen implementiert werden. Abschließend hebt der Referent hervor, dass der Gamma-Parameter der Gaußschen in radialen Basisfunktionen nun als echter Parameter behandelt und erlernt wird.

  • 00:55:00 In diesem Abschnitt erörtert der Dozent die Bedeutung der Auswahl eines geeigneten Werts für den Gammaparameter bei der Implementierung von radialen Basisfunktionen (RBFs) für die Funktionsnäherung. Wenn Gamma festgelegt ist, kann das Pseudo-Inverse-Verfahren verwendet werden, um die erforderlichen Parameter zu erhalten. Wenn Gamma jedoch nicht festgelegt ist, kann Gradientenabstieg verwendet werden. Der Dozent erklärt einen iterativen Ansatz namens Erwartungsmaximierungsalgorithmus (EM), der verwendet werden kann, um schnell zu den geeigneten Werten von Gamma und den notwendigen Parametern für den RBF zu konvergieren. Darüber hinaus diskutiert der Dozent die Verwendung mehrerer Gammas für verschiedene Datensätze und die Beziehung von RBFs zur Regularisierung. Abschließend vergleicht der Dozent RBFs mit ihrer Kernel-Version und die Verwendung von Support-Vektoren zur Klassifikation.

  • 01:00:00 In diesem Abschnitt vergleicht der Dozent zwei verschiedene Ansätze, die denselben Kernel verwenden. Der erste Ansatz ist eine direkte RBF-Implementierung mit 9 Zentren, die unüberwachtes Lernen von Zentren verwendet, gefolgt von einer pseudo-inversen und linearen Regression zur Klassifizierung. Der zweite Ansatz ist eine SVM, die den Spielraum maximiert, einem Kernel entspricht und zur quadratischen Programmierung übergeht. Trotz der Tatsache, dass die Daten nicht normal geclustert werden, arbeitet die SVM besser mit null In-Sample-Fehlern und mehr Nähe zum Ziel. Abschließend diskutiert der Dozent, wie RBFs vollständig auf Regularisierung basierend abgeleitet werden können, wobei ein Term den In-Sample-Fehler minimiert und der andere Term Regularisierung ist, um sicherzustellen, dass die Funktion außerhalb nicht verrückt ist.

  • 01:05:00 In diesem Abschnitt stellt der Professor einen Glattheitsbeschränkungsansatz vor, der Beschränkungen für Ableitungen beinhaltet, um eine reibungslose Funktion sicherzustellen. Die Glattheit wird durch die Größe der k-ten Ableitung gemessen, die analytisch parametrisiert und quadriert und dann von minus unendlich bis plus unendlich integriert wird. Die Beiträge verschiedener Ableitungen werden mit Koeffizienten kombiniert und mit einem Regularisierungsparameter multipliziert. Die resultierende Lösung führt zu radialen Basisfunktionen, die die glatteste Interpolation darstellen. Darüber hinaus erklärt der Professor, wie SVM ein zweistufiges neuronales Netzwerk simuliert, und erörtert die Herausforderung, die Anzahl der Zentren beim Clustering auszuwählen.

  • 01:10:00 In diesem Abschnitt diskutiert der Professor die Schwierigkeiten, die bei der Wahl der Anzahl der Cluster in RBF und der Wahl von Gamma im Umgang mit hochdimensionalen Räumen auftreten. Der dem RBF innewohnende Fluch der Dimensionalität macht es schwierig, selbst mit anderen Verfahren eine gute Interpolation zu erwarten. Der Professor überprüft verschiedene Heuristiken und bestätigt, dass Kreuzvalidierung und andere ähnliche Techniken für die Validierung nützlich sind. Der Professor erklärt weiter, wie man Gamma auswählt, indem man die Parameter unter Verwendung allgemeiner nichtlinearer Optimierung gleichberechtigt behandelt. Er erörtert auch, wie man den EM-Algorithmus verwendet, um ein lokales Minimum für Gamma zu erhalten, wenn die w_k's konstant sind. Abschließend erwähnt der Professor, dass zweischichtige neuronale Netze ausreichen, um alles anzunähern, aber es können Fälle auftreten, in denen man mehr als zwei Schichten benötigt.

  • 01:15:00 In diesem Abschnitt erklärt der Professor, dass eine der zugrunde liegenden Annahmen bei der Verwendung radialer Basisfunktionen (RBF) darin besteht, dass die Zielfunktion glatt ist. Dies liegt daran, dass die RBF-Formel auf der Lösung des Approximationsproblems mit Glätte basiert. Es gibt jedoch eine weitere Motivation für die Verwendung von RBF, nämlich die Berücksichtigung von Eingangsrauschen im Datensatz. Wenn das Rauschen in den Daten gaußförmig ist, werden Sie feststellen, dass sich der Wert der Hypothese durch die Annahme von Rauschen nicht wesentlich ändern sollte, wenn Sie x ändern, um nichts zu verpassen. Das Ergebnis ist eine Gaußsche Interpolation. Der Student fragt, wie man Gamma in der RBF-Formel auswählt, und der Professor sagt, dass die Breite der Gauß-Kurve mit den Abständen zwischen Punkten vergleichbar sein sollte, damit es eine echte Interpolation gibt und es ein objektives Kriterium für die Auswahl von Gamma gibt. Auf die Frage, ob die Anzahl der Cluster in K-Zentren ein Maß für die VC-Dimension ist, sagt der Professor, dass die Anzahl der Cluster die Komplexität des Hypothesensatzes beeinflusst, was wiederum die VC-Dimension beeinflusst.

  • 01:20:00 In diesem Abschnitt erörtert der Professor die Grenzen des Clustering und wie es als halbgare Clustering-Methode beim unbeaufsichtigten Lernen eingesetzt werden kann. Er erklärt, dass Clustering schwierig sein kann, da die inhärente Anzahl von Clustern oft unbekannt ist, und selbst wenn es Clustering gibt, ist möglicherweise nicht klar, wie viele Cluster es gibt. Clustering kann jedoch immer noch nützlich sein, um repräsentative Punkte für überwachtes Lernen zu erhalten, um die Werte richtig zu ermitteln. Der Professor erwähnt auch, dass RBFs in bestimmten Fällen eine bessere Leistung als SVMs erbringen können, wenn die Daten auf eine bestimmte Weise geclustert sind und die Cluster einen gemeinsamen Wert haben.
Lecture 16 - Radial Basis Functions
Lecture 16 - Radial Basis Functions
  • 2012.05.29
  • www.youtube.com
Radial Basis Functions - An important learning model that connects several machine learning models and techniques. Lecture 16 of 18 of Caltech's Machine Lear...
 

Vorlesung 17 - Drei Lernprinzipien



Machine Learning Course von Caltech – CS 156. Vorlesung 17 – Drei Lernprinzipien

Diese Vorlesung über Drei Lernprinzipien behandelt Occams Rasiermesser, Sampling Bias und Data Snooping beim maschinellen Lernen. Das Prinzip von Occams Rasiermesser wird ausführlich diskutiert, zusammen mit der Komplexität eines Objekts und einer Menge von Objekten, die auf unterschiedliche Weise gemessen werden können. Der Vortrag erklärt, dass einfachere Modelle oft besser sind, da sie die Komplexität reduzieren und die Out-of-Sample-Performance verbessern. Außerdem werden die Begriffe Falsifizierbarkeit und Nicht-Falsifizierbarkeit eingeführt. Sampling Bias ist ein weiteres Schlüsselkonzept, das diskutiert wird, zusammen mit Methoden, um damit umzugehen, wie z. B. das Abgleichen von Verteilungen von Eingabe- und Testdaten. Datenschnüffeln wird ebenfalls behandelt, mit Beispielen dafür, wie es die Gültigkeit eines Modells beeinflussen kann, einschließlich durch Normalisierung und Wiederverwendung desselben Datensatzes für mehrere Modelle.

Der zweite Teil behandelt das Thema Datenschnüffeln und seine Gefahren beim maschinellen Lernen, insbesondere in Finanzanwendungen, bei denen eine Überanpassung aufgrund von Datenschnüffeln besonders riskant sein kann. Der Professor schlägt zwei Abhilfemaßnahmen für das Datenschnüffeln vor: es zu vermeiden oder es zu berücksichtigen. Der Vortrag berührt auch die Bedeutung der Skalierung und Normalisierung von Eingabedaten sowie das Prinzip von Occams Rasiermesser im maschinellen Lernen. Darüber hinaus erläutert das Video, wie man Sampling-Bias in Computer-Vision-Anwendungen richtig korrigiert, und schließt mit einer Zusammenfassung aller behandelten Themen.

  • 00:00:00 In diesem Abschnitt erklärt Professor Abu-Mostafa die Vielseitigkeit radialer Basisfunktionen (RBF) beim maschinellen Lernen. Er stellt fest, dass RBFs als Baustein für Gaußsche Cluster beim unbeaufsichtigten Lernen und als weiche Version des nächsten Nachbarn dienen und den Eingaberaum allmählich mit abnehmender Wirkung beeinflussen. Sie sind durch die Verwendung von Sigmoiden in der Aktivierungsfunktion der verborgenen Schicht auch mit neuronalen Netzwerken verwandt. RBFs sind auf Support-Vektor-Maschinen mit einem RBF-Kernel anwendbar, außer dass die Zentren in SVM zufällig die Support-Vektoren sind, die sich um die Trenngrenze herum befinden, während die Zentren in RBF über den gesamten Eingaberaum verteilt sind und verschiedene Cluster der Eingabe darstellen. RBFs stammen auch aus der Regularisierung, die es ermöglichte, Glättungskriterien mit einer Funktion von Ableitungen zu erfassen, die während der Interpolation und Extrapolation nach Gauß aufgelöst wurden.

  • 00:05:00 In diesem Abschnitt stellt der Dozent die drei Lernprinzipien vor: Occam's Razor, Sampling Bias und Data Snooping. Er erklärt zunächst das Rasiermesserprinzip von Occam, das besagt, dass das einfachste Modell, das zu den Daten passt, das plausibelste ist. Er stellt fest, dass die Aussage weder präzise noch selbstverständlich ist, und geht weiter auf zwei Schlüsselfragen ein: Was bedeutet es, dass ein Modell einfach ist, und woher wissen wir, dass einfacher in Bezug auf die Leistung besser ist? Der Vortrag wird diese Fragen diskutieren, um das Prinzip im maschinellen Lernen konkret und praxistauglich zu machen.

  • 00:10:00 In diesem Abschnitt erklärt der Dozent, dass Komplexität auf zwei Arten gemessen werden kann: die Komplexität eines Objekts, z. B. einer Hypothese, oder die Komplexität einer Menge von Objekten, z. B. einer Hypothesenmenge oder eines Modells. Die Komplexität eines Objekts kann durch seine minimale Beschreibungslänge oder die Ordnung eines Polynoms gemessen werden, während die Komplexität einer Menge von Objekten durch Entropie oder VC-Dimension gemessen werden kann. Der Dozent argumentiert, dass alle diese Definitionen von Komplexität mehr oder weniger über dasselbe sprechen, obwohl sie konzeptionell unterschiedlich sind.

  • 00:15:00 In diesem Abschnitt erklärt der Dozent die beiden Kategorien, die in der Literatur zur Messung der Komplexität verwendet werden, einschließlich einer einfachen Aussage und der Komplexität einer Menge von Objekten. Die Vorlesung diskutiert dann die Beziehung zwischen der Komplexität eines Objekts und der Komplexität einer Menge von Objekten, die beide mit dem Zählen zusammenhängen. Die Vorlesung liefert Beispiele zur Messung von Komplexität, einschließlich reellwertiger Parameter und SVM, die nicht wirklich komplex ist, da sie nur durch sehr wenige Unterstützungsvektoren definiert wird. Das erste von fünf Rätseln, die in diesem Vortrag vorgestellt werden, wird vorgestellt und fragt nach einem Fußballorakel, das Spielausgänge vorhersagen kann.

  • 00:20:00 In diesem Abschnitt erzählt der Sprecher die Geschichte einer Person, die Briefe verschickt, in denen der Ausgang von Fußballspielen vorhergesagt wird. Er erklärt, dass die Person eigentlich nichts vorhersagt, sondern stattdessen verschiedene Vorhersagen an Gruppen von Empfängern sendet und dann die Empfänger anspricht, die die richtige Antwort erhalten haben. Die Komplexität dieses Szenarios macht eine sichere Vorhersage unmöglich, und der Referent erklärt anhand dieses Beispiels, warum einfachere Modelle im maschinellen Lernen oft besser sind. Die Vereinfachung des Modells reduziert die Komplexität und trägt zur Verbesserung der Out-of-Sample-Performance bei, was die konkrete Aussage von Occams Rasiermesser ist.

  • 00:25:00 In diesem Abschnitt der Vorlesung erklärt der Professor das Argument hinter dem Prinzip, dass einfachere Hypothesen besser geeignet sind als komplexe. Der springende Punkt des Beweises liegt in der Tatsache, dass es weniger einfache als komplexe Hypothesen gibt, was es weniger wahrscheinlich macht, dass eine bestimmte Hypothese zu einem Datensatz passt. Wenn jedoch eine einfachere Hypothese passt, ist sie aussagekräftiger und liefert mehr Beweise als eine komplexe. Außerdem wird der Begriff der Falsifizierbarkeit eingeführt, der besagt, dass Daten die Möglichkeit haben müssen, eine Behauptung zu falsifizieren, um sie zu beweisen.

  • 00:30:00 In diesem Abschnitt werden das Konzept der Nicht-Falsifizierbarkeit und der Sampling-Bias als wichtige Prinzipien des maschinellen Lernens diskutiert. Das Axiom der Nicht-Falsifizierbarkeit bezieht sich auf die Tatsache, dass lineare Modelle zu komplex für Datensätze sind, die zu klein sind, um verallgemeinert zu werden. Der Vortrag erklärt auch die Bedeutung von roten Fahnen und erwähnt ausdrücklich, wie Occams Rasiermesser uns vor komplexen Modellen warnt, die nur in Beispieldatensätzen gut zu Daten passen. Sampling Bias ist ein weiteres Schlüsselkonzept, das anhand eines Puzzles über eine Telefonumfrage diskutiert wird. Die Umfrage sagte voraus, dass Dewey die Präsidentschaftswahlen von 1948 gewinnen würde, aber Truman gewann aufgrund einer Stichprobenvoreingenommenheit von einer Gruppe von Telefonbesitzern, die nicht repräsentativ für die allgemeine Bevölkerung war.

  • 00:35:00 In diesem Abschnitt lernen wir das Sampling-Bias-Prinzip und seine Auswirkungen auf die Lernergebnisse kennen. Das Prinzip besagt, dass verzerrte Datenproben zu verzerrten Lernergebnissen führen, da Algorithmen das Modell an die erhaltenen Daten anpassen. Ein praktisches Beispiel aus dem Finanzbereich zeigte, wie der Algorithmus eines Händlers, der historische Aktiendaten erfolgreich nutzte, scheiterte, weil er bestimmte Bedingungen auf dem Markt übersah. Eine Technik zur Behandlung von Stichprobenverzerrungen besteht darin, die Verteilungen der Eingabe- und Testdaten abzugleichen, obwohl es nicht immer möglich ist, die Wahrscheinlichkeitsverteilungen zu kennen. In solchen Fällen kann ein Resampling der Trainingsdaten oder das Anpassen der den Samples zugewiesenen Gewichtungen dabei helfen. Dies kann jedoch zu einem Verlust an Stichprobengröße und Unabhängigkeit der Punkte führen.

  • 00:40:00 In diesem Abschnitt geht der Dozent auf das Thema Sampling Bias beim maschinellen Lernen ein und stellt verschiedene Szenarien vor, in denen es vorkommen kann. In einem Fall erklärt der Dozent, wie die Gewichtung von Datenpunkten verwendet werden kann, um die Verteilung eines Datensatzes an die eines kleineren Satzes anzupassen, was zu einer verbesserten Leistung führt. In Fällen wie Präsidentschaftswahlen, in denen der Datensatz nicht gewichtet ist und eine Stichprobenverzerrung auftritt, gibt es jedoch keine Heilung. Abschließend wendet der Dozent das Konzept der Stichprobenverzerrung auf den Kreditgenehmigungsprozess an und erklärt, dass die Verwendung historischer Daten nur der genehmigten Kunden die abgelehnten Bewerber auslässt, was möglicherweise die Genauigkeit zukünftiger Genehmigungsentscheidungen beeinträchtigt. Diese Verzerrung ist in diesem Szenario jedoch weniger schwerwiegend, da Banken bei der Kreditvergabe tendenziell aggressiv sind, sodass die Grenze hauptsächlich durch die bereits genehmigten Kunden dargestellt wird.

  • 00:45:00 In diesem Abschnitt erörtert der Redner das Prinzip des Datenschnüffelns, das besagt, dass, wenn ein Datensatz einen Schritt des Lernprozesses beeinflusst hat, die Fähigkeit desselben Datensatzes zur Bewertung des Ergebnisses beeinträchtigt wurde. Datenschnüffeln ist die häufigste Falle für Praktiker und hat verschiedene Erscheinungsformen, sodass es leicht ist, in seine Fallen zu tappen. Das Betrachten der Daten ist eine der Möglichkeiten, in diese Falle zu tappen, da es den Lernenden ermöglicht, Hypothesen zu vergrößern und einzugrenzen, was den Lernprozess beeinflusst. Aufgrund seiner vielen Erscheinungsformen nennt der Redner Beispiele für Datenschnüffeln und die Entschädigung und Disziplin, die erforderlich sind, um seine Folgen zu vermeiden.

  • 00:50:00 In diesem Abschnitt erörtert der Referent das Problem des Datenschnüffelns und wie es die Gültigkeit eines Modells beeinflussen kann. Wenn man sich nur den Datensatz ansieht, ist man möglicherweise anfällig dafür, ein Modell zu entwerfen, das auf den Eigenheiten dieser Daten basiert. Es ist jedoch gültig, alle anderen Informationen zu berücksichtigen, die sich auf die Zielfunktion und den Eingaberaum beziehen, mit Ausnahme der Realisierung des Datensatzes, der für das Training verwendet wird, es sei denn, es wird eine angemessene Gebühr erhoben. Um diesen Punkt zu veranschaulichen, liefert der Referent ein Finanzprognose-Puzzle, bei dem man den Wechselkurs zwischen dem US-Dollar und dem britischen Pfund anhand eines Datensatzes von 2.000 Punkten mit einem Trainingssatz von 1.500 Punkten und einem Testsatz von 500 Punkten vorhersagt. Das Modell wird ausschließlich auf dem Trainingsdatensatz trainiert, und die Ausgabe wird auf dem Testdatensatz ausgewertet, um Datenschnüffeln zu vermeiden.

  • 00:55:00 In diesem Abschnitt erläutert das Video, wie Snooping durch Normalisierung auftreten kann, was sich auf den Testsatz auswirken und zu falschen Ergebnissen führen kann. Der Vortrag erklärt, dass eine Normalisierung nur mit Parametern erfolgen sollte, die ausschließlich aus dem Trainingsset stammen, um sicherzustellen, dass das Testset ohne Voreingenommenheit oder Schnüffeln beobachtet wird. Darüber hinaus geht das Video auf die Idee ein, denselben Datensatz für mehrere Modelle wiederzuverwenden und wie dies zu Datenschnüffeln und falschen Ergebnissen führen kann. Indem die Daten lange genug gequält werden, kann es zu einem Geständnis kommen, aber ohne ordnungsgemäße Tests an einem frischen, neuen Datensatz kann den Ergebnissen nicht vertraut werden.

  • 01:00:00 In diesem Abschnitt erörtert der Referent die Gefahr des Datenschnüffelns und wie es zu Überanpassung führen kann. Beim Datenschnüffeln geht es nicht nur darum, sich die Daten direkt anzusehen, sondern es kann auch vorkommen, dass Vorwissen aus Quellen verwendet wird, die dieselben Daten verwendet haben. Sobald wir beginnen, Entscheidungen auf der Grundlage dieses Vorwissens zu treffen, kontaminieren wir unser Modell bereits mit den Daten. Der Redner schlägt zwei Abhilfemaßnahmen für das Datenschnüffeln vor: es zu vermeiden oder es zu berücksichtigen. Während dies vermieden werden muss, ist Disziplin erforderlich und kann schwierig sein, aber es zu berücksichtigen, ermöglicht es uns, die Auswirkungen des Vorwissens auf das endgültige Modell zu verstehen. In Finanzanwendungen ist eine Überanpassung aufgrund von Datenschnüffeln besonders riskant, da das Rauschen in den Daten verwendet werden kann, um ein Modell anzupassen, das in der Stichprobe gut aussieht, aber außerhalb der Stichprobe nicht generalisiert.

  • 01:05:00 In diesem Abschnitt erörtert der Professor das Problem des Datenschnüffelns und wie es beim Testen einer Handelsstrategie zu irreführenden Ergebnissen führen kann. Unter Verwendung der „Buy and Hold“-Strategie mit Daten aus 50 Jahren für den S&P 500 zeigen die Ergebnisse einen fantastischen Gewinn, aber es gibt eine Stichprobenverzerrung, da nur aktuell gehandelte Aktien in die Analyse einbezogen wurden. Dies schafft einen unfairen Vorteil und ist eine Form des Schnüffelns, die beim maschinellen Lernen nicht verwendet werden sollte. Der Professor geht auch auf eine Frage zur Bedeutung der Skalierung und Normalisierung von Eingabedaten ein und stellt fest, dass dies zwar wichtig ist, aber aus Zeitgründen nicht behandelt wurde. Abschließend erklärt der Professor, wie man verschiedene Modelle richtig vergleicht, ohne in die Falle des Datenschnüffelns zu tappen.

  • 01:10:00 In diesem Abschnitt behandelt das Video das Datenschnüffeln und wie es eine Person optimistischer machen kann, als sie sein sollte. Beim Datenschnüffeln werden die Daten verwendet, um bestimmte Modelle abzulehnen und sich zu anderen Modellen zu leiten, ohne dies zu berücksichtigen. Durch die Berücksichtigung des Datenschnüffelns kann man die effektive VC-Dimension ihres gesamten Modells berücksichtigen und einen viel größeren Datensatz für das Modell verwenden, wodurch eine Verallgemeinerung sichergestellt wird. Der Vortrag befasst sich auch mit der Umgehung von Sampling-Bias durch Skalierung und betont die Bedeutung von Occams Rasiermesser in der Statistik. Der Professor stellt auch fest, dass es Szenarien gibt, in denen Occams Rasiermesser verletzt werden kann.

  • 01:15:00 In diesem Abschnitt erörtert der Professor das Prinzip von Occams Rasiermesser in Bezug auf maschinelles Lernen, bei dem einfachere Modelle tendenziell besser abschneiden. Die Diskussion geht dann über zu der Idee der Korrektur von Sampling-Bias in Anwendungen von Computer Vision. Die Methode ist die gleiche wie zuvor besprochen, wobei Datenpunkten unterschiedliche Gewichtungen gegeben oder erneut abgetastet werden, um die Testverteilung zu replizieren. Der Ansatz kann abhängig von den extrahierten domänenspezifischen Merkmalen modifiziert werden. Der Vortrag schließt mit einer Zusammenfassung der Diskussion.
Lecture 17 - Three Learning Principles
Lecture 17 - Three Learning Principles
  • 2012.05.31
  • www.youtube.com
Three Learning Principles - Major pitfalls for machine learning practitioners; Occam's razor, sampling bias, and data snooping. Lecture 17 of 18 of Caltech's...
Grund der Beschwerde: