Maschinelles Lernen und neuronale Netze - Seite 46

 

CS480/680 Vorlesung 5: Statistische lineare Regression



CS480/680 Vorlesung 5: Statistische lineare Regression

In dieser Vorlesung über statistische lineare Regression behandelt der Professor zahlreiche Themen, beginnend mit dem Konzept der maximalen Wahrscheinlichkeit und der Gaußschen Wahrscheinlichkeitsverteilung für verrauschte, beschädigte Daten. Sie erläutern die Verwendung von Maximum-Likelihood-Techniken beim Ermitteln der Gewichte, die die maximale Wahrscheinlichkeit für alle Datenpunkte im Datensatz ergeben. Anschließend befasst sich die Vorlesung mit der Idee des Maximum a-posteriori (MAP), der sphärischen Gaußschen Funktion und der Kovarianzmatrix. Der Redner diskutiert auch die Verwendung von A-priori-Informationen und Regularisierung. Der erwartete Fehler in der linearen Regression wird dann in zwei Terme zerlegt: einen, der das Rauschen berücksichtigt, und einen anderen, der vom Gewichtsvektor W abhängt, der weiter in Bias und Varianz zerlegt werden kann. Die Vorlesung endet mit einer Diskussion über die Verwendung des Bayes'schen Lernens zur Berechnung der Posterior-Verteilung. Insgesamt deckt die Vorlesung ein breites Themenspektrum im Zusammenhang mit der statistischen linearen Regression ab und bietet wertvolle Einblicke in die Optimierung von Modellen zur Reduzierung von Vorhersagefehlern.

Die Vorlesung konzentriert sich auf die Bayes'sche Regression, die eine Posterior-Verteilung schätzt, die in Richtung des wahren Gewichtssatzes konvergiert, je mehr Datenpunkte beobachtet werden. Es wird gezeigt, dass die vorherige Verteilung eine Verteilung über Paare von W Null und W1 ist und eine Verteilung von Linien ist. Nach der Beobachtung eines Datenpunkts wird die Posterior-Verteilung anhand der Prior- und Likelihood-Verteilung berechnet, was zu einer aktualisierten Annahme über die Position der Linie führt. Um Vorhersagen zu treffen, wird eine gewichtete Kombination der Vorhersagen der Hypothesen basierend auf der Posterior-Verteilung erstellt, was zu einer Gaußschen Vorhersage mit einem Mittelwert und einer Varianz führt, die durch spezifische Formeln gegeben sind. Der Trick, eine tatsächliche Punktvorhersage zu erhalten, besteht darin, den Mittelwert der Gaußschen Vorhersage zu ermitteln.

  • 00:00:00 In diesem Abschnitt wird das Konzept des Lernens mit maximaler Wahrscheinlichkeit und maximaler Gegnervorstellung im Kontext der linearen Regression vorgestellt. Es wird davon ausgegangen, dass die Daten aus verrauschten und fehlerhaften Messungen stammen. Die beobachtete Ausgabe ist eine beschädigte Version der Ausgabe der zugrunde liegenden Funktion mit etwas hinzugefügtem Rauschen. Es wird angenommen, dass Gauß das Rauschen bezeichnet. Eine Wahrscheinlichkeitsverteilung wird ausgedrückt, um die Wahrscheinlichkeit der Messung einer bestimmten Ausgabe für jede Eingabe im Datensatz zu bestimmen. Dieses Verständnis hilft dabei, bessere Entscheidungen für die Regularisierung zu treffen.

  • 00:05:00 In diesem Abschnitt der Vorlesung diskutiert der Professor die Gauß-Verteilung im Kontext der linearen Regression. Sie erklären, dass unter der Annahme, dass die zugrunde liegende Funktion linear und deterministisch ist, die resultierende Verteilung eine Gaußsche Verteilung mit einem Mittelwert gleich W transponiert X und einer Varianz äquivalent zum Sigma-Quadrat ist. Anschließend zeichnen sie ein Diagramm der Gaußschen Verteilung, um zu veranschaulichen, dass die Wahrscheinlichkeit, Werte um den Mittelwert herum zu messen, höher ist, wobei die Breite der Kurve durch das Sigma-Quadrat bestimmt wird. Der Professor weist darauf hin, dass dies die Wahrscheinlichkeitsfunktion ist und wir mithilfe von Maximum-Likelihood-Techniken das W finden können, das die maximale Wahrscheinlichkeit für alle Datenpunkte in unserem Datensatz angibt.

  • 00:10:00 In diesem Abschnitt erklärt der Dozent, wie man das beste Modell für die statistische lineare Regression auswählt, beginnend mit der Optimierung der Wahrscheinlichkeit beobachteter Ys bei bestimmten Eingabe-Xs und einem Rauschpegel mit der Varianz Sigma. Der Dozent zeigt dann eine Ableitung, wie dieser Ausdruck vereinfacht und auf ein konvexes Ziel umskaliert werden kann, indem der natürliche Logarithmus genommen und irrelevante Faktoren entfernt werden. Das Ergebnis ist das ursprüngliche Problem der kleinsten Quadrate, das den intuitiven Ansatz zur Minimierung des Abstands zwischen den Punkten und der Linie in der linearen Regression demonstriert.

  • 00:15:00 In diesem Abschnitt diskutiert der Redner die statistische Perspektive und wie man das W findet, das die höchste Wahrscheinlichkeit für die Beobachtung der Messungen bietet, indem man ein Modell mit Gauß'schem Rauschen annimmt. Das Optimierungsproblem ist mathematisch äquivalent, was zu einer höheren Zuverlässigkeit dieses Ansatzes führt. Das Entfernen von Sigma aus jedem Term in der Summierung ist mathematisch gleichbedeutend mit dem Entfernen von Sigma aus der Summierung und lässt die Annahme zu, dass das gleiche Rauschen für jede einzelne Messung vorhanden ist, wenn W ausgewählt wird. Der Redner erwähnt auch, dass es wichtig ist, ein Modell für das Rauschen zu haben, um die beste Lösung zu finden und Sigma auf der Grundlage wiederholter Experimente zu schätzen, um es festzuhalten. Die Posterior-Verteilung wird berechnet, indem das W mit der höchsten Wahrscheinlichkeit in der Posterior-Verteilung ermittelt wird, indem die Posterior-Verteilung als Produkt der Prior-Verteilung durch die Wahrscheinlichkeit und eine Normalisierungskonstante berechnet wird.

  • 00:20:00 In diesem Abschnitt der Vorlesung diskutiert der Dozent das Konzept des Maximum a-posteriori (MAP) und wie es sich vom Maximum Likelihood unterscheidet. Bei MAP wird die vorherige Verteilung in die Berechnung einbezogen, um die Verteilung der Hypothese zu verfeinern, was die Unsicherheit verringert. Der Dozent erklärt, wie man eine Gaußsche Prior-Verteilung für den Gewichtsvektor (W) definiert und wie man die PDF des multivariaten Gaußschen berechnet. Der Kursleiter stellt außerdem ein Beispiel für das Zeichnen von Konturlinien zur Verfügung, um die Form der Gaußschen Verteilung zu veranschaulichen.

  • 00:25:00 In diesem Abschnitt der Vorlesung erklärt der Dozent das Konzept einer sphärischen Gauß-Funktion und wie es mit der Kovarianzmatrix zusammenhängt. Die diagonalen Einträge der Kovarianzmatrix stellen die Varianz jeder Gewichtung dar, während die nicht diagonalen Einträge die Kovarianz zwischen den Gewichten darstellen. Der Dozent zeigt dann, wie man mithilfe einer Ableitung das Maximum des Posterioren ermittelt, wobei davon ausgegangen wird, dass die Umkehrung der Kovarianzmatrix gleich Lambda mal der Identitätsmatrix ist. Auf diese Weise entspricht der Ausdruck dem regulierten Problem der kleinsten Quadrate, wobei der Strafterm das Lambda-fache der quadrierten Norm von W ist. Der Regularisierungsterm kann nun auf neue Weise interpretiert werden, wodurch deutlich wird, dass er aus der vorherigen Verteilung stammt und dass die Minimierung der Norm von W gleichbedeutend damit ist, die Gewichte näher an den Mittelwert der Verteilung heranzuführen.

  • 00:30:00 In diesem Abschnitt diskutiert der Redner die Verwendung von A-priori-Informationen zur Auswahl einer Kovarianzmatrix in der statistischen linearen Regression. Wenn es Informationen gibt, die darauf hindeuten, dass die Lösungen nahe bei Null liegen sollten, wird ein Prior-Wert des Mittelwerts Null mit einer Kovarianzmatrix verwendet, die durch eine glockenförmige Verteilung mit einer bestimmten Streuung definiert ist. Die Maximierung der Wahrscheinlichkeit ist gleichbedeutend mit der Minimierung des regulierten Ziels mit dem Strafterm, wenn dieser Prior verwendet wird. In Situationen, in denen die Gaußsche Kurve keine Kugelform, sondern eine allgemeinere Form hat, ist der Radius für jede Dimension unterschiedlich, was bedeutet, dass es in den Diagonaleinträgen unterschiedliche Werte gibt. Es ist vernünftig anzunehmen, dass eine Kovarianzmatrix eine diagonale Form mit der gleichen Breite in jede Richtung hat, was in der Praxis tendenziell gut funktioniert.

  • 00:35:00 In diesem Abschnitt diskutiert der Redner, wie die Ansätze der Minimierung des quadratischen Verlusts mit einem Organisationsbegriff und der Maximierung der A-posteriori-Hypothese zu potenziell unterschiedlichen Verlustergebnissen führen können. Der Abschnitt analysiert die Verlustfunktion und unterteilt den erwarteten Verlust in zwei verschiedene Terme. Die Wahl von Lambda beeinflusst die Lösung und damit den erwarteten Verlust. Anschließend zeigt der Referent die mathematische Ableitung, wie ein gegebenes W zu einem erwarteten Verlust führen kann und wie dieser Verlust in zwei verschiedene Begriffe zerlegt werden kann. Die Analyse basiert auf einem Beispieldatensatz und der zugrunde liegenden Verteilung. Die Ergebnisse können verwendet werden, um den erwarteten Verlust eines bestimmten W und die Auswirkungen unterschiedlicher Lambda-Werte zu verstehen.

  • 00:40:00 In diesem Abschnitt der Vorlesung erklärt der Referent die Ableitung des erwarteten Fehlers in einem linearen Regressionsmodell. Der erwartete Fehler wird in zwei Terme zerlegt: einen, der das Rauschen berücksichtigt, und einen anderen, der vom Gewichtsvektor W abhängt. Dieser zweite Term kann weiter erweitert werden, um zu zeigen, dass er in das Bias-Quadrat und die Varianz zerlegt werden kann . Der Bias misst die durchschnittliche Differenz zwischen der Ausgabe des Modells und der wahren zugrunde liegenden Funktion, die angenähert wird, während die Varianz die Variabilität der Ausgaben des Modells um ihren Mittelwert misst. Durch das Verständnis der Beiträge von Bias und Varianz zum erwarteten Fehler können Datenwissenschaftler ihre Modelle besser optimieren, um Vorhersagefehler zu reduzieren.

  • 00:45:00 In diesem Abschnitt der Vorlesung erklärt der Professor die Zerlegung des erwarteten Verlusts in drei Begriffe: Rauschen, Varianz und Bias im Quadrat. Dies führt zu einem Diagramm, in dem die x-Achse Lambda ist, das Gewicht des Regularisierungsterms in der Zuweisung. Mit steigendem Lambda nimmt der Fehler zunächst ab und steigt dann wieder an. Der erwartete Verlust setzt sich aus dem Rauschen plus der Varianz plus dem Bias im Quadrat zusammen. Die Grafik zeigt, dass die Kurve für Varianz plus Bias im Quadrat die Summe der einzelnen Kurven für Varianz und Bias im Quadrat ist. Die Kreuzvalidierung wird verwendet, um den besten Lambda-Wert zu finden, der den erreichten Fehler kontrollieren kann, während die Differenz zwischen erwartetem Verlust und tatsächlichem Verlust das Rauschen ist, das in allen Fällen vorhanden ist.

  • 00:50:00 In diesem Abschnitt gibt der Dozent ein Beispiel einer nichtlinearen Regression, um zu veranschaulichen, wie sich unterschiedliche Kurven, die durch die Anwendung des maximalen a-posteriori-Lernens mit unterschiedlichen Datensätzen erhalten werden, auf Bias und Varianz auswirken. Der Dozent erklärt, dass mit abnehmendem Lambda der Bias abnimmt und die Varianz zunimmt. Das Ziel besteht darin, ein Lambda zu finden, das den besten Kompromiss zwischen Bias und Varianz bietet, wie in der Kurve dargestellt. Der Dozent erwähnt auch, dass der Fehler als Quadratabstand gemessen wird und dass Lambda ein Parameter ist, der bei der Regularisierung verwendet wird.

  • 00:55:00 In diesem Abschnitt diskutiert der Dozent die Idee, quadratische Abstände zu minimieren und einen Strafterm hinzuzufügen, wobei Lambda das Gewicht für den Strafterm ist. Variierendes Lambda beeinflusst Bias und Varianz und führt zu unterschiedlichen optimalen W-Werten, und der erwartete Verlust kann als Funktion von Lambda betrachtet werden. Bayesianisches Lernen beinhaltet die Berechnung der Posterior-Verteilung, indem man mit einer Prior-Verteilung beginnt und die Unsicherheit durch maschinelles Lernen reduziert. Die Posterior-Verteilung wird durch Multiplikation eines Gaußschen Priors und einer Gaußschen Wahrscheinlichkeit berechnet, was zu einem Gaußschen Posterioren führt.

  • 01:00:00 In diesem Abschnitt wird das Konzept der Bayes'schen Regression mit Hilfe einer Gaußschen Prior-Verteilung im Raum von w's erklärt, die eine Linie darstellen kann. Es wird gezeigt, dass die vorherige Verteilung eine Verteilung über Paare von w naught und w1 ist und eine Verteilung von Linien ist. Anschließend wird nach Beobachtung eines einzelnen Datenpunkts eine Posterior-Verteilung durch Multiplikation der Prior- und Likelihood-Verteilung berechnet. Die resultierende hintere Verteilung ist entlang des Kamms verlängert und etwas rund und wird so zum aktualisierten Glauben an die Position der Linie.

  • 01:05:00 In diesem Abschnitt erklärt der Dozent, wie Bayesianisches Lernen eine Posterior-Verteilung schätzt, die in Richtung des wahren Satzes von Gewichten konvergiert, je mehr Datenpunkte beobachtet werden. Die roten Linien stellen Stichproben aus der entsprechenden Posterior-Verteilung dar, bei der es sich um eine Verteilung in Bezug auf Gewichte handelt, die eine entsprechende Linie im Datenraum definieren. Es stellt sich jedoch immer noch die Frage, wie man auf der Grundlage der endgültigen Posteriorverteilung Vorhersagen treffen kann.

  • 01:10:00 In diesem Abschnitt erklärt der Referent, wie man mithilfe des Bayesianischen Lernens Vorhersagen trifft, bei denen eine gewichtete Kombination der Vorhersagen jeder Hypothese erstellt wird. Die Vorhersage erfolgt für eine neue Eingabe und die Gewichte werden durch die Posterior-Verteilung bestimmt. Der Sprecher verwendet einen Gaußschen Posteriorwert und eine Wahrscheinlichkeit, um zu einer Gaußschen Vorhersage zu gelangen, wobei ein Mittelwert und eine Varianz durch bestimmte Formeln gegeben sind. Schließlich besteht ein üblicher Trick, um eine tatsächliche Punktvorhersage zu erhalten, darin, den Mittelwert der Gaußschen Vorhersage zu ermitteln.
 

CS480/680 Vorlesung 6: Tools für Umfragen (Paulo Pacheco)



CS480/680 Vorlesung 6: Tools für Umfragen (Paulo Pacheco)

In diesem Video stellt Paulo Pacheco zwei akademische Tools für Umfragen vor: Google Scholar und RefWorks. Er erklärt, wie man mit Google Scholar nach wissenschaftlichen Arbeiten sucht und sie nach Zitaten sortiert, und schlägt vor, ältere Arbeiten durch neuere herauszufiltern. Pacheco betont die Bedeutung des Exports und der Verwaltung von Zitaten und stellt RefWorks als Tool für diese Aufgabe vor. Er gibt auch Tipps für den Zugriff auf wissenschaftliche Publikationen, einschließlich der Verwendung kreativer Stichwortsuchen und möglicherweise der Notwendigkeit eines Universitätsnetzwerkzugriffs oder eines VPN.

  • 00:00:00 In diesem Abschnitt stellt Paulo Pacheco zwei Tools zur Durchführung von Umfragen vor: Google Scholar und RefWorks der Bibliothek. Er erklärt, wie man mit Google Scholar nach wissenschaftlichen Arbeiten suchen und diese grob nach Zitaten ordnen kann. Er schlägt auch vor, ältere Arbeiten herauszufiltern und sich auf neuere zu konzentrieren. Pacheco betont die Bedeutung des Exports und der Verwaltung von Zitaten für wissenschaftliche Arbeiten und erwähnt RefWorks als ein Tool, das diesen Prozess unterstützen kann.

  • 00:05:00 In diesem Abschnitt bespricht der Redner verschiedene Tools und Tipps für den Zugriff auf wissenschaftliche Veröffentlichungen, insbesondere über Google Scholar und die Bibliothek der University of Waterloo. Er erklärt, wie man mit Google Scholar relevante Arbeiten finden und nach Jahr oder Anzahl der Zitate sortieren kann, und weist auch darauf hin, dass für den Zugriff auf Volltexte möglicherweise ein Universitätsnetzwerkzugriff oder die Verwendung eines VPN erforderlich ist. Darüber hinaus schlägt er vor, eine kreative Stichwortsuche wie „tolle Datensätze für NLP“ oder „tolle Links für Computer Vision“ zu verwenden, um Inspiration und hochwertige Ressourcen zu finden.
 

CS480/680 Vorlesung 6: Kaggle-Datensätze und Wettbewerbe



CS480/680 Vorlesung 6: Kaggle-Datensätze und Wettbewerbe

In der Vorlesung geht es um Kaggle, eine Community für Praktiker der Datenwissenschaft, die in gesponserten Wettbewerben mit bereitgestellten Datensätzen gegen einen Geldpreis antritt und Kernel für das Training von Modellen für maschinelles Lernen und die Extraktion von Datenmerkmalen sowie eine große Auswahl von fast 17.000 Datensätzen zur Verwendung beim Entwerfen von Algorithmen anbietet. Der Dozent weist außerdem darauf hin, dass GitHub-Repositories von Unternehmen wertvolle Datensätze, Codes und veröffentlichte Beiträge für Wettbewerbe bereitstellen können.

  • 00:00:00 In diesem Abschnitt spricht der Dozent über Kaggle, eine Data-Science-Community, in der Data-Science-Praktiker an von privaten Unternehmen gesponserten Wettbewerben teilnehmen können, bei denen sie einen Datensatz und einen Geldpreis bereitstellen. Teilnehmer können die Daten herunterladen, Algorithmen für maschinelles Lernen trainieren und Vorhersagen an den Wettbewerb senden, um zu gewinnen, wenn ihre Vorhersagen für den Datensatz am besten sind. Kaggle stellt auch Kernel bereit, also Codeausschnitte, die von verschiedenen Benutzern übermittelt wurden und für die Merkmalsextraktion oder das Training eines bestimmten Modelltyps anhand einiger Daten hilfreich sind. Zusätzlich zu Wettbewerben und Kerneln bietet Kaggle fast 17.000 Datensätze, die alle erdenklichen Disziplinen abdecken. Benutzer können ein wenig herumstöbern, um einen Datensatz zu finden, der möglicherweise die Annahmen erfüllt, die sie zum Entwerfen eines Algorithmus benötigen.

  • 00:05:00 In diesem Abschnitt bespricht der Redner einige Quellen, aus denen man Datensätze für verschiedene Wettbewerbe finden kann. Er erwähnt Kaggle als eine großartige Quelle für Datensätze. Er schlägt außerdem vor, sich die GitHub-Repositories der Unternehmen anzusehen, in denen kostenpflichtige Codes und veröffentlichte Artikel zusammen mit Daten verfügbar sind, die zum Ausführen des Codes verwendet werden können. Dies kann eine wertvolle Ressource für den Erhalt hochwertiger Datensätze sein.
 

CS480/680 Vorlesung 6: Normalisierung von Flüssen (Priyank Jaini)



CS480/680 Vorlesung 6: Normalisierung von Flüssen (Priyank Jaini)

Das Video bietet eine Einführung in die Normalisierung von Flüssen in tiefen generativen Modellen, eine Technik, die eine Funktion lernt, um eine Verteilung in eine andere umzuwandeln, mit dem Ziel, eine bekannte Verteilung in eine unbekannte interessierende Verteilung umzuwandeln. Das Video bespricht auch mögliche Forschungsprojekte im Zusammenhang mit der Normalisierung von Flüssen, einschließlich der Durchführung einer Umfrage zu verschiedenen Veröffentlichungen und Fortschritten im Zusammenhang mit der Normalisierung von Flüssen und der Analyse der Umwandlung einer einzelnen Gaußschen Funktion in eine Mischung von Gaußschen Gleichungen. Der Dozent regt zur Erkundung der vielfältigen Anwendungen der Normalisierung von Strömungen an.

  • 00:00:00 In diesem Abschnitt bietet der Referent eine Einführung in die Normalisierung von Flüssen in tiefen generativen Modellen. Das Erlernen einer Verteilung ist ein Schlüsselaspekt des maschinellen Lernens, und der Sprecher erklärt, dass die Normalisierung von Flüssen eine Technik ist, die eine Funktion lernt, um eine Verteilung in eine andere umzuwandeln. Das Ziel besteht darin, eine bekannte Verteilung, beispielsweise eine Gauß-Verteilung, in eine unbekannte interessierende Verteilung umzuwandeln. In der Praxis wird für diese Transformation ein neuronales Netzwerk verwendet und der Forschungsschwerpunkt lag auf dem Entwurf neuronaler Netzwerke, um die gewünschte Verteilung zu erhalten.

  • 00:05:00 In diesem Abschnitt diskutiert der Dozent mögliche Forschungsprojekte im Zusammenhang mit der Normalisierung von Flüssen, einem heißen Thema im maschinellen Lernen, das in den letzten Jahren viel Aufmerksamkeit erregt hat. Eine Projektidee besteht darin, eine Umfrage zu den verschiedenen Veröffentlichungen und Fortschritten im Zusammenhang mit der Normalisierung von Strömungen durchzuführen, die möglicherweise veröffentlicht werden könnten. Eine weitere Idee besteht darin, die Transformation einer einzelnen Gauß-Verteilung in eine Mischung von Gauß-Verteilungen mithilfe bestimmter Funktionen zu analysieren und zu analysieren, wie dies auf andere Verteilungen wie Exponential- und Student-T-Verteilungen ausgeweitet werden kann. Der Dozent beleuchtet auch theoretisch offene Fragen bei der Erfassung von starkem Verhalten auf Finanzkapitalmärkten. Insgesamt regt der Dozent dazu an, die vielen verschiedenen Anwendungen der Normalisierung von Strömungen zu erkunden, und lädt interessierte Studenten dazu ein, mit ihnen Kontakt aufzunehmen, um weitere Kenntnisse zu diesem Thema zu erhalten
 

CS480/680 Vorlesung 6: Unbeaufsichtigte Wortübersetzung (Kira Selby)



CS480/680 Vorlesung 6: Unbeaufsichtigte Wortübersetzung (Kira Selby)

Das Video befasst sich mit der unbeaufsichtigten Wortübersetzung, bei der ein maschinelles Lernmodell für die Übersetzung in und aus einer Sprache trainiert wird, ohne dass sprachübergreifende Informationen oder Wörterbuchabgleich erforderlich sind. Das Muse-Modell wird als Ansatz eingeführt, der in Hunderten von Sprachen eine hochmoderne Genauigkeit ohne sprachübergreifende Informationen erreichen kann und in der Leistung überwachten Modellen nahe kommt. Der Prozess der unbeaufsichtigten Wortübersetzung verwendet eine Matrix, die die Einbettungsräume verschiedener Sprachwörter mithilfe von GAN oder generativen kontradiktorischen Netzwerken übersetzt. Indem diese beiden Modelle gegeneinander trainiert werden, entsteht eine Möglichkeit, zwei Verteilungen einem Raum zuzuordnen, was zu besseren Übersetzungsergebnissen führt. Die Modelle können eine Genauigkeit von 82,3 % bei Wort-zu-Wort-Übersetzungen erreichen.

  • 00:00:00 In diesem Abschnitt diskutiert der Dozent das Thema der unbeaufsichtigten Wortübersetzung, bei der ein maschinelles Lernmodell trainiert wird, um in und aus einer Sprache zu übersetzen, ohne dass sprachübergreifende Informationen oder Wörterbuchabgleiche erforderlich sind. Der Dozent erklärt das Konzept der Worteinbettung, bei der Wörter in Vektoren umgewandelt werden, die Teil eines Modells werden können. Der Dozent stellt das Muse-Modell vor, das eine einfache Hypothese verwendet, dass eine lineare Transformation Vektorräume verschiedener Sprachen verbinden kann. Muse kann in Hunderten von Sprachen höchste Genauigkeit erreichen, ohne dass sprachübergreifende Informationen erforderlich sind, und kommt in der Leistung überwachten Modellen nahe.

  • 00:05:00 In diesem Abschnitt erklärt Kira Selby den Prozess der unbeaufsichtigten Wortübersetzung mithilfe einer Matrix, die die Einbettungsräume verschiedener Sprachwörter übersetzt. Die Matrix kann eine ganze Reihe von Vektoren aus einem Sprachraum vergleichen, die in einen anderen Sprachraum transformiert wurden. Ziel ist es, koinzidente Sprachräume zu erreichen, um Übersetzungen zu erreichen. Dieser Prozess verwendet GAN oder generative kontradiktorische Netzwerke, bei denen der Generator die Matrix u ist, die einen Quellraumvektor aufnimmt und einen Zielraumvektor bereitstellt. In der Zwischenzeit lernt der Diskriminator zu erkennen, ob ein Satz von Vektoren aus echten französischen Daten oder vom Modell generierten angenäherten französischen Daten stammt. Indem diese beiden Modelle gegeneinander trainiert werden, entsteht eine Möglichkeit, zwei Verteilungen einem Raum zuzuordnen, was zu besseren Übersetzungsergebnissen führt. Die Modelle können eine Genauigkeit von 82,3 % bei Wort-zu-Wort-Übersetzungen erreichen, obwohl die Konvergenz in mehreren Sprachen wie Englisch, Farsi, Hindi, Japanisch und Vietnamesisch noch aussteht.
 

CS480/680 Vorlesung 6: Faktenprüfung und verstärkendes Lernen (Vik Goel)



CS480/680 Vorlesung 6: Faktenprüfung und verstärkendes Lernen (Vik Goel)

Der Informatiker Vik Goel diskutiert die Anwendung von Reinforcement Learning bei der Faktenprüfung von Online-Nachrichten und schlägt den Einsatz eines Empfehlungssystems vor, um unterstützende Beweise in Echtzeit einzufügen. Er schlägt vor, einen großen Korpus wissenschaftlicher Arbeiten als Datenquelle zu verwenden, um einem Klassifikator beizubringen, vorherzusagen, wo eine Zitierung erforderlich ist. Darüber hinaus erklärt Goel, wie Forscher damit begonnen haben, menschliche Priors in Reinforcement-Learning-Modelle zu kodieren, um den Prozess zu beschleunigen und verschiedene Objekte in Videospielen zu erkennen. Dies stellt ein vielversprechendes Forschungsgebiet dar, in dem zusätzliche Priors den Lernprozess verbessern können.

  • 00:00:00 In diesem Abschnitt der Vorlesung diskutiert Vik Goel die Idee, Reinforcement Learning zur Faktenprüfung von Online-Nachrichten zu nutzen. Er erklärt, dass Google einen Datensatz von Websites zur Faktenprüfung zusammengestellt hat, der zum Trainieren von Klassifizierungsmodellen verwendet werden könnte, um den Wahrheitsgehalt von Nachrichtenartikeln zu bestimmen. Da es in den meisten Nachrichtenartikeln jedoch an Zitaten im Text mangelt, schlägt Goel die Entwicklung eines Empfehlungssystems vor, um unterstützende Beweise in Echtzeit einzufügen. Er schlägt vor, einen großen Korpus wissenschaftlicher Arbeiten als Datenquelle zu verwenden und einen Klassifikator zu trainieren, um vorherzusagen, wo in jedem Artikel ein Zitat erforderlich ist. Die Anwendung eines Empfehlungssystems kann dann vorschlagen, welche Quellen zitiert werden sollten, und so dazu beitragen, die Verbreitung von Fehlinformationen im Internet zu verhindern.

  • 00:05:00 In diesem Abschnitt erklärt der Informatiker Vik Goel das Konzept des Reinforcement Learning, bei dem ein Agent versucht, ein Ziel durch Maximierung der Belohnungen in einer Umgebung zu erreichen. Aktuelle Modelle erfordern Millionen von Interaktionen mit der Umgebung, was es schwierig macht, das Spielen von Videospielen zu erlernen. Um den Prozess zu beschleunigen, haben Forscher damit begonnen, die Kodierung menschlicher Priors in Modelle zu untersuchen, die es Agenten ermöglichen, verschiedene Objekte im Spiel zu verstehen und zu erkennen. Dieser Ansatz stellt ein weit offenes Forschungsgebiet dar, in dem Wissenschaftler weitere Prioritäten hinzufügen können, um den Lernprozess erheblich zu verbessern.
 

CS480/680 Vorlesung 6: Summenproduktnetzwerke (Pranav Subramani)



CS480/680 Vorlesung 6: Summenproduktnetzwerke (Pranav Subramani)

In der Vorlesung werden die Konzepte von Summen-Produkt-Netzwerken (SPN) diskutiert, bei denen es sich um Netzwerke handelt, die aus Summen und Produkten bestehen und für nachvollziehbare probabilistische Modellierung verwendet werden, die nicht-exponentielle Laufzeiten liefert und viele Anwendungen wie Interpretierbarkeit und einfache Randdichteberechnung bietet. Das Video erwähnt auch die hervorragende Leistung von SPN mit Faltungs-Neuronalen Netzen, sein Potenzial zum Aufbau besserer generativer Modelle in Kombination mit Modellen wie GANs und Variation Water Encodern sowie die ungenutzten potenziellen Forschungsbereiche für SPNs, einschließlich gegnerischer Robustheit, Verstärkungslernszenarien und Modellierung erwarteter Nutzen bei Spielen. Hervorgehoben wurden auch die theoretische Garantie der Interpretation des Modells und die Möglichkeit für Wissenschaftler, wesentliche Beiträge im Bereich des maschinellen Lernens zu leisten.

  • 00:00:00 In diesem Abschnitt erörtert der Redner die nachvollziehbare probabilistische Modellierung unter Verwendung einiger Produktnetzwerke, bei denen es sich um Netzwerke handelt, die aus Summen und Produkten bestehen – daher „Summenprodukt“ – und eine nachvollziehbare Methode zur Modellierung von Wahrscheinlichkeitsfunktionen auf eine Weise darstellen, die Ergebnisse liefert nichtexponentielle Laufzeiten. Trotz ihrer Größe sind Summenprodukt-Netzwerkmodelle im Hinblick auf Ausdruckskraft, Interpretierbarkeit, einfache Randdichteberechnung, MAP-Abfrageberechnung und Wahrscheinlichkeitsberechnung äußerst nützlich und zeigen auch in Kombination mit Convolutional Neural Networks eine hervorragende Leistung. Es hat sich gezeigt, dass diese Modelle den Stand der Technik um etwa 10 % übertreffen können und mit anderen Modellen wie Gans und Variation Water Encodern kombiniert werden können, um bessere generative Modelle zu erstellen.

  • 00:05:00 In diesem Abschnitt diskutiert der Redner die potenziellen Forschungsbereiche für einige Produktnetzwerke (SPNs). Der Referent stellt zunächst einige ethische Eigenschaften vor, die die Interpretation von Modellen und Datensätzen wie dem „Amnesty-Datensatz“ ermöglichen. Im Gegensatz zu neuronalen Netzen bietet dieses Modell eine theoretische Garantie, die es einem ermöglicht, bis zu einem gewissen Grad zu interpretieren, was das Modell tut. Zu den potenziellen Forschungsbereichen für SPNs gehören die Entwicklung von Funktionen auf Basis der Primärbibliothek für SPNs, die Robustheit von Gegnern, verstärkte Lernszenarien mit einigen Produkt-Max-Netzwerken und die Modellierung erwarteter Dienstprogramme in Spielen. Diese Forschungsbereiche sind größtenteils unerschlossen und bieten Wissenschaftlern die Möglichkeit, bedeutende Beiträge im Bereich des maschinellen Lernens zu leisten.
 

CS480/680 Vorlesung 6: EM- und Mischungsmodelle (Guojun Zhang)



CS480/680 Vorlesung 6: EM- und Mischungsmodelle (Guojun Zhang)

In CS480/680 Vorlesung 6 diskutiert Professor Guojun Zhang die Grundlagen des unbeaufsichtigten Lernens und des Clusterings und konzentriert sich dabei auf Mischungsmodelle und deren Verwendung beim Clustering von Daten. Im Mittelpunkt der Vorlesung stehen der Expectation-Maximization-Algorithmus und seine Estep- und Mstep-Prozesse sowie der Gradientenabstieg als Optimierungsverfahren. Das vorgeschlagene potenzielle Projekt umfasst die Untersuchung des Verhaltens von EM und Gradientenabstieg in Lernmischungsmodellen. Das ultimative Ziel besteht darin, einen besseren Algorithmus vorzuschlagen, um schlechte lokale Minima zu vermeiden. Ein mathematischer Hintergrund wird als für das Projekt erforderlich angegeben.

  • 00:00:00 In diesem Abschnitt stellt Cody die Grundlagen des unbeaufsichtigten Lernens und Clusterings sowie deren Zusammenhang mit Mischungsmodellen vor. Ein Mischungsmodell ist eine Möglichkeit, eine Wahrscheinlichkeitsverteilung als konvexe Kombination bedingter Verteilungen zu beschreiben. Beispielsweise kann die Mischung aus Gaußschen Verteilungen und die Mischung aus Bernoulli-Verteilungen zum Clustern von Daten verwendet werden. Um eine Lösung für Mischungsmodelle zu finden, müssen wir eine zu minimierende Zielfunktion formulieren. Der klassische Algorithmus hierfür ist der Expectation-Maximization-Algorithmus.

  • 00:05:00 In diesem Abschnitt spricht der Dozent über die Estep- und Mstep-Prozesse, die bei der Auswertung der Posteriorverteilung und der Maximierung der q-Funktion bei der Optimierung von Mischungsmodellen verwendet werden. Der Gradientenabstieg ist ein weiterer Optimierungsalgorithmus, der diskutiert wird, und es wird darauf hingewiesen, dass es einige Cluster gibt, die im Optimierungsprozess möglicherweise nicht abgerufen werden. Das vorgeschlagene potenzielle Projekt besteht darin, zu untersuchen, wie sich EM und Gradientenabstieg in Lernmischungsmodellen verhalten und ob es eine Möglichkeit gibt, schlechte lokale Minima zu vermeiden, mit dem ultimativen Ziel, einen besseren Algorithmus vorzuschlagen. Der Dozent weist darauf hin, dass für dieses Projekt ein mathematischer Hintergrund erforderlich ist.
 

CS480/680 Vorlesung 6: Modellkomprimierung für NLP (Ashutosh Adhikari)



CS480/680 Vorlesung 6: Modellkomprimierung für NLP (Ashutosh Adhikari)

In diesem Video diskutiert der Moderator das Konzept der Modellkomprimierung für NLP und die Herausforderungen der Verarbeitungszeit und des Speicherbedarfs bei zunehmender Anzahl und Tiefe tiefer neuronaler Netze. Modellkomprimierungstechniken werden kategorisiert und die älteste Methode, Parameterbereinigung und -freigabe, wird vorgestellt. Der Redner geht weiter auf das Konzept eines Schüler-Lehrer-Systems zur Modellkomprimierung in NLP ein und wie die Zielfunktion verwendet wird, um ein größeres Modell in ein kleineres Schülermodell zu komprimieren und dabei die Genauigkeit beizubehalten. Abschließend wird die potenzielle Bedeutung der Komprimierung von Modellen im Kontext neuerer Arbeiten zur Entwicklung groß angelegter NLP-Modelle hervorgehoben.

  • 00:00:00 In diesem Abschnitt diskutiert der Videomoderator das Problem der Modellkomprimierung, da die Anzahl und Tiefe tiefer neuronaler Netze sowie deren Verarbeitungszeit und Speicherbedarf zunehmen. Ziel ist es, die Anzahl der in neuronalen Netzen erforderlichen Parameter zu reduzieren und gleichzeitig Genauigkeit und Wissen beizubehalten, um eine schnellere und effizientere Bereitstellung in Online-Anwendungen zu ermöglichen. Modellkomprimierungstechniken werden kategorisiert, und der Vortragende befasst sich mit der ältesten Methode: Parameterbereinigung und -freigabe, die 1990 von Yann LeCun entwickelt wurde. Die Präsentation geht auch auf Kanalbereinigungstechniken ein, die bei Faltungs-Neuronalen Netzen in der Bildverarbeitung erfolgreich waren, allerdings weniger mit NLP-Modellen erforscht. Abschließend hebt der Vortragende die potenzielle Bedeutung der Komprimierung von Modellen im Kontext neuerer Arbeiten zur Entwicklung groß angelegter Modelle für NLP-Aufgaben hervor.

  • 00:05:00 In diesem Abschnitt stellt der Referent das Konzept eines Schüler-Lehrer-Systems zur Modellkomprimierung in NLP vor. Das Lehrermodell ist ein größeres Modell, das verwendet wird, um Darstellungen aus einem kleineren Schülermodell zu extrahieren und in dieses zu komprimieren. Die Zielfunktion wird verwendet, um dem Schülernetzwerk dabei zu helfen, alle vom Lehrernetzwerk gelernten Darstellungen zusammen mit dem Klassifizierungsziel zu erfassen. Während Beschneidungs- und Sharing-Methoden noch nicht im Detail untersucht wurden, werden Aufmerksamkeitsmechanismen und Transformatoren in zukünftigen Vorlesungen behandelt. Der Redner stellt fest, dass es sich bei diesen riesigen Modellen im Grunde genommen um Transformatoren handelt, die immer wieder eingesetzt werden.
 

CS480/680 Vorlesung 7: Mischung von Gaußschen Operatoren



CS480/680 Vorlesung 7: Mischung von Gaußschen Operatoren

In diesem Vortrag über die Mischung von Gaußschen Gleichungen erklärt der Redner, wie das Modell zur Klassifizierung verwendet werden kann, indem für jede Klasse eine A-priori-Verteilung erstellt wird, die die Konstruktion eines probabilistischen Modells mithilfe des Bayes-Theorems ermöglicht, um die Wahrscheinlichkeit einer Klasse für eine gegebene Klasse abzuschätzen Datenpunkt. Die Vorlesung behandelt auch den Prozess der Berechnung der Wahrscheinlichkeit, dass ein Datenpunkt zu einer bestimmten Klasse gehört, und wie diese zur Bestimmung der Klassenvorhersage verwendet wird. In den Vorlesungsunterlagen wird die Beziehung zwischen der Softmax-Funktion und der Arc-Max-Verteilung untersucht und wie die Form und Grenzen der Gaußschen Funktion durch die Kovarianzmatrix bestimmt werden. Abschließend wird in der Vorlesung der Prozess des Maximum-Likelihood-Lernens detailliert beschrieben und erläutert, wie er zur Schätzung des Mittelwerts und der Kovarianzmatrix für ein Gaußsches Mischungsmodell verwendet werden kann.

  • 00:00:00 In diesem Abschnitt diskutiert der Dozent die Verwendung von Gaußschen Mischungen zur Klassifizierung, einem statistischen Modell aus der Familie der generativen Modelle. Sie erklären, wie Gaußsche Verteilungen zur Modellierung von Ungenauigkeiten und Rauschen in Daten verwendet werden, die zur Simulation der Erstellung eines Datensatzes für Anwendungen wie die Text- und Bildgenerierung verwendet werden können. Die Vorlesung liefert ein Beispiel für die lineare Regression und wie diese durch den Einsatz von Gauß-Verteilungen auch in ein generatives Modell umgewandelt werden kann.

  • 00:05:00 In diesem Abschnitt diskutiert der Dozent die Möglichkeit, ähnliche Bilder von Menschen durch ein Modell zu erzeugen, das ähnliche Daten wie der Trainingssatz generieren kann. Der Dozent verwendet die lineare Regression als Beispiel und geht dann zur Klassifizierung über, bei der eine A-priori-Verteilung für jede Klasse erstellt wird. Basierend auf dieser Idee kann mithilfe des Bayes-Theorems ein probabilistisches Modell erstellt werden, um die Wahrscheinlichkeit der Klasse für einen bestimmten Datenpunkt abzuschätzen. In der Vorlesung wird betont, dass es sich dabei nicht um bayesianisches Lernen handelt, sondern um bayesianische Folgerung.

  • 00:10:00 In diesem Abschnitt bespricht der Kursleiter die Annahmen, die im Mixture of Gaußians-Modell getroffen werden, und wie man die Bayes'sche Folgerung verwendet, um die A-posteriori-Wahrscheinlichkeit einer Klasse zu berechnen. Das Modell geht davon aus, dass es eine endliche Anzahl kategorialer Klassen gibt, die mithilfe einer Multinomialverteilung dargestellt werden können. Es wird angenommen, dass die klassenbedingte Verteilung eine Gaußsche Verteilung mit derselben Kovarianzmatrix für jede Klasse ist. Die Wahrscheinlichkeit ist ein Produkt der Prior- und Klassen-bedingten Verteilung, die durch Streichen des ersten Termes, der nicht von der Klasse abhängt, vereinfacht werden kann. Diese Vereinfachung ist aufgrund der Annahme derselben Kovarianzmatrix für jede Klasse möglich, obwohl sie möglicherweise nicht immer allgemein gilt.

  • 00:15:00 In diesem Abschnitt erklärt der Referent, wie der Posterior als logistische Sigmoidfunktion ausgedrückt werden kann, die besonders in neuronalen Netzen beliebt ist, da sie jede reelle Zahl annimmt und eine Ausgabe zwischen 0 und 1 erzeugt. Sie leiten den Ausdruck ab für den Posteriorbereich und zeigen Sie, dass er als W(transponiert)X + W_0 ausgedrückt werden kann, wobei W der Koeffizient von x und W_0 der konstante Teil ist, der nicht von X abhängt. Die logistische Funktion hat eine bestimmte Definition und wird zum Produzieren verwendet eine Ausgabe, die als Wahrscheinlichkeit interpretiert werden kann.

  • 00:20:00 In diesem Abschnitt diskutiert der Dozent die Verwendung der logistischen Funktion im Kontext von Mischungen von Gaußschen Gleichungen. Die logistische Funktion wird verwendet, um die Ausgabe zwischen 0 und 1 zu quetschen, und ihre spezielle Definition kann erhalten werden, indem die Koeffizienten von X als Parameter und der konstante Teil als W Null behandelt werden. Die Mittelwert- und Kovarianzmatrix sowie die Klassenwahrscheinlichkeiten können kombiniert werden, um die gewünschten Parameter zu erhalten. Dies hilft bei der Berechnung der A-posteriori-Wahrscheinlichkeit, dass ein Datenpunkt zu einer bestimmten Klasse gehört. Der Dozent erklärt auch die Verwendung von Klassenbedingungen, dargestellt durch Gaußsche Verteilungen, bei der Ermittlung der Klassenwahrscheinlichkeiten der Datenpunkte. Diese Klassenbedingungen können unterschiedliche Glockenformen haben, und das Posterior hätte eine höhere Wahrscheinlichkeit für die Klasse, die mit dem Datenpunkt übereinstimmt.

  • 00:25:00 In diesem Abschnitt des Videos erklärt der Dozent, wie die Wahrscheinlichkeit, dass ein Datenpunkt zu einer bestimmten Klasse gehört, für ein Mischungs-Gauß-Modell berechnet wird. Wenn die Mittelwerte der beiden Gaußschen Werte unterschiedlich sind und wir davon ausgehen, dass sie die gleiche Kovarianzmatrix haben, ist die Wahrscheinlichkeit, abhängig von der Position des Punktes, natürlich höher, dass er zu der Klasse gehört, deren Gaußscher Wert näher am Punkt liegt. Für die klassenbedingten Verteilungen wird eine Formel angegeben, und sobald der Posteriorwert berechnet ist, kann eine Klassenvorhersage basierend auf der Wahrscheinlichkeit, dass diese Klasse größer als 0,5 ist, getroffen werden. Der Dozent zeigt auch die Grenzen zwischen den beiden Klassen auf, was für Vorhersagen von Interesse ist.

  • 00:30:00 In diesem Abschnitt untersucht die Vorlesung die Klassengrenze der Verwendung von Mischungen von Gaußschen Gleichungen und wie die Grenze aussieht, unter der Annahme, dass es zwei Gaußsche Gleichungen gibt und diese dieselbe Kovarianzmatrix haben. Die Grenze tritt bei der Wahrscheinlichkeit auf, bei der jede Klasse gleich ist (0,5). Dies vereinfacht sich zu W transpose X bar = 0, was bedeutet, dass das Trennzeichen linear ist. Dies ist ein einfaches Modell und ein lineares Trennzeichen, das verwendet wird, wenn zwei Klassen vorhanden sind. Wenn es mehr als zwei Klassen gibt, wird die gleiche Berechnung durchgeführt und das Ergebnis ist die Softmax-Funktion, die auch häufig in neuronalen Netzen verwendet wird und ihre Wurzeln in einer Mischung aus Gaußschen Berechnungen hat.

  • 00:35:00 In diesem Abschnitt erklärt der Dozent den Zusammenhang zwischen der Softmax-Funktion und der Arc-Max-Verteilung und warum sie Softmax genannt wird. Die Arc-Max-Verteilung weist dem Klassifikator mit dem höchsten Wert eine Wahrscheinlichkeit von eins und allen anderen Klassen eine Null zu, während die Softmax-Funktion eine weichere Version davon liefert, indem sie allen Klassen Wahrscheinlichkeiten ungleich Null zuweist. Die Exponentialfunktion entsteht, wenn man Mischungen von Gaußschen Gleichungen betrachtet und die Posterior-Verteilung für mehrere Klassen berechnet. Auch die Grenzen der verschiedenen Klassen können in der Posteriorverteilung dargestellt werden. In den Vorlesungsunterlagen wird erläutert, dass die Softmax-Funktion in neuronalen Netzen häufig zur Bestimmung der Ausgabeklasse verwendet wird.

  • 00:40:00 In diesem Abschnitt erklärt der Dozent, wie die Form und Grenzen der Gaußschen Funktion durch die Kovarianzmatrix bestimmt werden und wie sich dies auf die Klassentrennung auswirkt. Durch die Verwendung verschiedener Kovarianzmatrizen können nichtlineare Grenzen erstellt werden, wohingegen die Verwendung derselben Kovarianzmatrizen zu linearen Grenzen führt. Der Dozent erläutert auch, wie die Potenzen der Mischung des Gaußschen Modells geschätzt werden können, nämlich pi, mu 1, mu 2 und Sigma, die die Wahrscheinlichkeit jeder Klasse, den Mittelwert der Gaußschen Gleichungen bzw. die Rauschkovarianzmatrix darstellen. Hierzu wird die Maximum-Likelihood-Methode verwendet.

  • 00:45:00 In diesem Abschnitt erklärt der Dozent den Prozess des Maximum-Likelihood-Lernens, bei dem das Hauptproblem darin besteht, die Potenzen des Modells zu finden, die die Wahrscheinlichkeit der Daten maximieren. Um dieses Optimierungsproblem zu lösen, vereinfacht der Dozent das Protokoll des Ausdrucks. Der resultierende Ausdruck sieht kompliziert aus, ist aber eigentlich schön und hat eine konkave Form, die ein einziges globales Optimum hat. Diese Methode ermöglicht die Kombination von Klassenbedingungen für die beiden Klassen in einem Ausdruck unter Verwendung praktischer Bezeichnungen für die Klassen 0 und 1.

  • 00:50:00 In diesem Abschnitt der Vorlesung diskutiert der Redner, wie die Maximierung der Log-Likelihood-Funktion einer konkaven Funktion entspricht, die optimiert werden kann, um den Stichprobenmittelwert und den empirischen Mittelwert der Daten für jede Klasse in a zu erhalten Mischung aus Gaußschen Modellen. Die Wahrscheinlichkeit jeder Klasse kann geschätzt werden, indem der Bruchteil der zu dieser Klasse gehörenden Daten genommen wird. Dies ist ein intuitiver Ansatz, der durch das Prinzip der maximalen Wahrscheinlichkeit bestätigt wird. Ebenso kann der Mittelwert der Eingaben für jede Klasse geschätzt werden, indem die Summe aller Datenpunkte durch die Anzahl der Punkte in dieser Klasse dividiert wird. Diese Schätzungen liefern eine formale Begründung für den intuitiven Ansatz zur Schätzung dieser Parameter.

  • 00:55:00 In diesem Abschnitt diskutiert der Redner den Prozess der Schätzung des Mittelwerts und der Kovarianzmatrix für ein gemischtes Gaußsches Modell unter Verwendung des Maximum-Likelihood-Lernens. Die Zielausgabedaten werden angegeben und die Wahrscheinlichkeitsfunktion wird maximiert, um die korrekten Werte für den Mittelwert und die Kovarianzmatrix zu bestimmen. Bei der Schätzung der Kovarianzmatrix wird eine lineare Kombination der empirischen Kovarianzmatrizen für jede Klasse verwendet, die mit der Anzahl der zu jeder Klasse gehörenden Datenpunkte gewichtet wird. Der Redner stellt klar, dass in diesem Prozess zwar sowohl Bayes'sche Inferenz als auch Maximum-Likelihood-Lernen verwendet werden, es im ersten Teil der Diskussion jedoch nicht um Lernen, sondern um Inferenz unter Verwendung des Bayes-Theorems ging.

  • 01:00:00 In diesem Abschnitt erklärt der Sprecher, dass der maschinelle Lernteil der Gaußschen Mischung die Bestimmung der für jedes Merkmal im Gaußschen Modell erforderlichen Leistungen umfasst. Dazu nutzen sie Maximum-Likelihood-Lernen, aber auch Bayesianisches Lernen ist möglich. In der Vorlesung wird jedoch nur das Maximum-Likelihood-Lernen behandelt. Anschließend schließt der Redner den Abschnitt ab und erklärt, dass in der nächsten Unterrichtseinheit eine Erweiterung dieses Themas zur Klassifizierung behandelt wird.