Sie verpassen Handelsmöglichkeiten:
- Freie Handelsapplikationen
- Über 8.000 Signale zum Kopieren
- Wirtschaftsnachrichten für die Lage an den Finanzmärkte
Registrierung
Einloggen
Sie stimmen der Website-Richtlinie und den Nutzungsbedingungen zu.
Wenn Sie kein Benutzerkonto haben, registrieren Sie sich
Vrije Universiteit Amsterdam Machine Learning 2019 - 1 Einführung in das maschinelle Lernen (MLVU2019)
Vrije Universiteit Amsterdam Machine Learning 2019 - 1 Einführung in das maschinelle Lernen (MLVU2019)
Dieses Video bietet eine Einführung in maschinelles Lernen und behandelt verschiedene damit verbundene Themen. Der Kursleiter erklärt, wie man sich auf den Kurs vorbereitet und geht auf allgemeine Bedenken ein, dass maschinelles Lernen einschüchternd ist. Er stellt die verschiedenen Arten des maschinellen Lernens vor und unterscheidet es von der traditionellen regelbasierten Programmierung. Das Video behandelt auch die Grundlagen des überwachten Lernens und zeigt Beispiele, wie maschinelles Lernen für Klassifizierungs- und Regressionsprobleme verwendet werden kann. Die Konzepte des Merkmalsraums, der Verlustfunktion und der Residuen werden ebenfalls erklärt.
Der zweite Teil des Videos bietet eine Einführung in maschinelles Lernen und erklärt sein Hauptziel, Muster zu finden und genaue Modelle zu erstellen, um Ergebnisse aus einem Datensatz vorherzusagen. Der Referent erörtert die Bedeutung der Verwendung spezifischer Algorithmen und der Datenaufteilung, um eine Überanpassung zu vermeiden und eine Verallgemeinerung zu erreichen. Er stellt auch das Konzept der Dichteschätzung und seine Schwierigkeiten mit komplexen Daten vor. Der Referent verdeutlicht den Unterschied zwischen maschinellem Lernen und anderen Feldern und spielt auf eine Strategie an, große Datenmengen aufzuschlüsseln, um genaue Vorhersagen treffen zu können. Das Video erwähnt auch die Zunahme von Menschen, die im maschinellen Lernen mit der Entwicklung von Deep Learning arbeiten, und gibt Anfängern Tipps für den Einstieg in das Feld.
2 Lineare Modelle 1: Hyperebenen, Zufallssuche, Gradientenabstieg (MLVU2019)
2 Lineare Modelle 1: Hyperebenen, Zufallssuche, Gradientenabstieg (MLVU2019)
Dieses Video behandelt die Grundlagen von linearen Modellen, Suchmethoden und Optimierungsalgorithmen. Lineare Modelle werden sowohl in 2 Dimensionen als auch in mehreren Dimensionen erklärt, und der Prozess der Suche nach einem guten Modell durch Methoden wie Zufallssuche und Gradientenabstieg wird diskutiert. Die Bedeutung der Konvexität beim maschinellen Lernen wird erklärt und die Nachteile der zufälligen Suche in nicht-konvexen Landschaften werden angesprochen. Das Video stellt auch evolutionäre Methoden und die Verzweigungssuche als Suchmethoden vor. Schließlich wird die Verwendung von Kalkül und Gradientenabstieg zur Optimierung der Verlustfunktion erläutert, einschließlich des Prozesses zum Finden der Richtung des steilsten Abstiegs für eine Hyperebene.
Der zweite Teil diskutiert den Gradientenabstieg und seine Anwendung auf lineare Modelle, bei denen der Algorithmus die Parameter aktualisiert, indem er Schritte in Richtung des negativen Gradienten der Verlustfunktion unternimmt. Die Lernrate ist entscheidend dafür, wie schnell der Algorithmus zum Minimum konvergiert, und lineare Funktionen ermöglichen es, das optimale Modell zu erarbeiten, ohne suchen zu müssen. Komplexere Modelle erfordern jedoch die Verwendung eines Gradientenabstiegs. Das Video führt auch Klassifizierungs- und Entscheidungsgrenzen ein, bei denen das Ziel darin besteht, blaue Punkte von roten Punkten zu trennen, indem eine Linie gefunden wird, die dies optimal tut. Zu den Einschränkungen linearer Modelle gehört ihre Unfähigkeit, nichtlinear trennbare Datensätze zu klassifizieren, aber sie sind rechnerisch billig und funktionieren gut in hochdimensionalen Merkmalsräumen. Der Kursleiter gibt auch eine Vorschau auf zukünftige Themen, die besprochen werden, wie z. B. die Methodik des maschinellen Lernens.
3 Methodik 1: Area-under-the-curve, Bias und Varianz, kein kostenloses Mittagessen (MLVU2019)
3 Methodik 1: Area-under-the-curve, Bias und Varianz, kein kostenloses Mittagessen (MLVU2019)
Das Video behandelt die Verwendung der Area-under-the-Curve (AUC)-Metrik bei der Bewertung von Modellen für maschinelles Lernen sowie die Einführung der Konzepte von Bias und Varianz und des Theorems „No Free Lunch“. Die AUC-Metrik misst die Leistung des Klassifizierungsmodells durch Berechnung der Fläche unter der ROC-Kurve. Darüber hinaus werden Bias und Varianz diskutiert, da sie eine entscheidende Rolle dabei spielen, wie gut das Modell zu den Trainingsdaten passt und auf neue Daten verallgemeinert werden kann. Auch das Theorem „kein kostenloses Mittagessen“ unterstreicht die Notwendigkeit, den geeigneten Algorithmus für jedes spezifische Problem auszuwählen, da es keinen universell anwendbaren Algorithmus für alle Probleme des maschinellen Lernens gibt.
Dieses Video behandelt drei wichtige Konzepte des maschinellen Lernens: AUC (Area-under-the-Curve), Bias und Varianz sowie das Theorem „No Free Lunch“. AUC ist eine Metrik, die zur Bewertung binärer Klassifizierungsmodelle verwendet wird, während Bias und Varianz sich auf Unterschiede zwischen den vorhergesagten Werten eines Modells und den wahren Werten in einem Datensatz beziehen. Das „no free lunch“-Theorem unterstreicht die Bedeutung der Auswahl des geeigneten Algorithmus für ein gegebenes Problem, da es keinen einzelnen Algorithmus gibt, der bei allen möglichen Problemen und Datensätzen optimal funktionieren kann.
4 Methodik 2: Datenbereinigung, Hauptkomponentenanalyse, Eigenfaces (MLVU2019)
4 Methodik 2: Datenbereinigung, Hauptkomponentenanalyse, Eigenfaces (MLVU2019)
Dieser erste Teil des Videos behandelt verschiedene wichtige Aspekte der Datenvorverarbeitung und -bereinigung vor der Anwendung von maschinellen Lernalgorithmen, beginnend mit der entscheidenden Bedeutung des Verständnisses von Datenverzerrungen und -verzerrungen. Der Referent erörtert dann Methoden zum Umgang mit fehlenden Daten, Ausreißern, Klassenungleichgewicht, Merkmalsauswahl und Normalisierung. Das Video geht weiter auf das Konzept der Basis und der MVN-Verteilung ein und erklärt, wie man Daten mithilfe von Whitening in eine Normalverteilung für die Normalisierung umwandelt, und schließt mit der Verwendung der Hauptkomponentenanalyse (PCA) zur Dimensionsreduktion. Von der Manipulation des Trainingssets bis hin zur Verwendung von Imputationsmethoden projiziert PCA Daten in einen niedrigerdimensionalen Raum, während Informationen aus den ursprünglichen Daten erhalten bleiben.
In diesem zweiten Teil des Videos wird die Verwendung der Hauptkomponentenanalyse (PCA) bei der Datenbereinigung und Dimensionsreduktion für maschinelles Lernen erörtert. Das Verfahren beinhaltet Mittelwertzentrierung der Daten, Berechnung der Stichprobenkovarianz und Zerlegung unter Verwendung der Eigenzerlegung, um die Eigenvektoren zu erhalten, die an der Achse ausgerichtet sind, die die größte Varianz erfasst. Die Verwendung der ersten K-Hauptkomponenten bietet eine gute Datenrekonstruktion und ermöglicht eine bessere maschinelle Lernleistung. Das Konzept der Eigenfaces wird ebenfalls eingeführt, und PCA erweist sich als effektiv bei der Komprimierung der Daten auf 30 Dimensionen, während die meisten der erforderlichen Informationen für maschinelles Lernen erhalten bleiben. Verschiedene Anwendungen von PCA werden diskutiert, einschließlich ihrer Verwendung in der Anthropologie und bei der Untersuchung komplexer Datensätze wie DNA und Gesichter.
Vorlesung 5 Wahrscheinlichkeit 1: Entropie, (Naive) Bayes, Kreuzentropieverlust (MLVU2019)
5 Wahrscheinlichkeit 1: Entropie, (Naive) Bayes, Kreuzentropieverlust (MLVU2019)
Das Video behandelt verschiedene Aspekte der Wahrscheinlichkeitstheorie und ihre Anwendung beim maschinellen Lernen. Der Referent führt in die Entropie ein, die das Ausmaß der Unsicherheit in einem System misst, und erklärt, wie sie mit naivem Bayes und Cross-Entropie-Verlust zusammenhängt. Die Konzepte des Stichprobenraums, des Ereignisraums, der Zufallsvariablen und der bedingten Wahrscheinlichkeit werden ebenfalls diskutiert. Der Satz von Bayes wird erklärt und als grundlegendes Konzept des maschinellen Lernens betrachtet. Das Video behandelt auch das Maximum-Likelihood-Schätzprinzip und die Bayes'sche Wahrscheinlichkeit sowie die Verwendung von Präfix-freiem Code zur Simulation von Wahrscheinlichkeitsverteilungen. Abschließend erörtert der Referent diskriminative versus generative Klassifikatoren für die binäre Klassifikation, einschließlich des Naive-Bayes-Klassifikators.
Der zweite Teil erläutert das Konzept der Berechnung von Wahrscheinlichkeiten für einen neuen Punkt, der zu einer bestimmten Klasse gehört, unter Verwendung eines multivariaten Normalverteilungsmodells. Es erörtert die bedingte Unabhängigkeit von Merkmalen, um Wahrscheinlichkeitsverteilungen für einen Klassifikator effizient anzupassen, und die Notwendigkeit, Pseudobeobachtungen zu glätten oder abzustimmen, um Null-Instanzen zu handhaben. Der Referent führt auch den Entropieverlust als effektivere Verlustfunktion für lineare Klassifikatoren als die Genauigkeit ein und erörtert die Fähigkeit der Cross-Entropie-Verlustfunktion, den Unterschied zwischen vorhergesagten und tatsächlichen Daten zu messen, wobei die Sigmoidfunktion die Symmetrien der Funktion kollabiert, um sie zu vereinfachen. Schließlich weist das Video darauf hin, dass der nächste Vortrag den SVM-Verlust als endgültige Verlustfunktion behandeln wird.
Vorlesung 6 Lineare Modelle 2: Neuronale Netze, Backpropagation, SVMs und Kernelmethoden (MLVU2019)
6 Lineare Modelle 2: Neuronale Netze, Backpropagation, SVMs und Kernel-Methoden (MLVU2019)
Dieser erste Teil des Videos zu linearen Modellen konzentriert sich auf die Einführung von Nichtlinearität in lineare Modelle und untersucht zwei Modelle, die auf der Erweiterung des Funktionsraums beruhen: neuronale Netze und Support-Vektor-Maschinen (SVMs). Für neuronale Netze erklärt der Referent, wie man mit Aktivierungsfunktionen wie Sigmoid oder Softmax ein Netz für Regressions- und Klassifikationsprobleme aufbaut. Die Vorlesung befasst sich dann mit Backpropagation, einer Methode zur Berechnung von Gradienten, die in neuronalen Netzwerken verwendet werden. Für SVMs führt der Referent das Konzept der Maximierung des Spielraums zu den nächstgelegenen Punkten jeder Klasse ein und demonstriert, wie es als eingeschränktes Optimierungsproblem ausgedrückt werden kann. Das Video bietet eine klare Einführung in die Prinzipien neuronaler Netze und SVMs und empfiehlt den Studenten, sich auf die erste Hälfte der Vorlesung als Ausgangspunkt für den Rest des Kurses zu konzentrieren.
Der zweite Teil des Videos behandelt die Themen Support Vector Machines (SVMs), Soft-Margin-SVMs, Kernel-Tricks und Unterschiede zwischen SVMs und neuronalen Netzen. Die Soft-Margin-SVMs werden eingeführt, um nichtlinear trennbare Daten zu handhaben, wodurch ein Strafwert zu Punkten hinzugefügt werden kann, die die Klassifizierungsbeschränkungen nicht erfüllen. Der Kernel-Trick ermöglicht die Berechnung des Punktprodukts in einem höherdimensionalen Raum, wodurch der Merkmalsraum erweitert wird, um die Leistung des Modells erheblich zu steigern. Die Unterschiede zwischen SVMs und neuronalen Netzen werden erläutert, und die Verlagerung hin zu neuronalen Netzen aufgrund ihrer Fähigkeit, fortgeschrittenere Arten der Klassifizierung durchzuführen, wird diskutiert, auch wenn sie nicht vollständig verstanden werden.
Deep Learning 1: Backpropagation für Tensoren, Convolutional Neural Networks (MLVU2019)
7 Deep Learning 1: Backpropagation für Tensoren, Convolutional Neural Networks (MLVU2019)
Dieser erste Teil des Videos zu Deep Learning und Backpropagation behandelt mehrere Themen, darunter die Grundlagen eines Deep-Learning-Frameworks, Tensoren, den Backpropagation-Algorithmus und das Problem des verschwindenden Gradienten. Der Referent erklärt, wie neuronale Netze unter Verwendung einer Folge linearer Algebra-Operationen implementiert werden können und wie der Backpropagation-Algorithmus verwendet werden kann, um ein Modell als eine Zusammensetzung von Funktionen zu definieren. Das Video behandelt auch die Berechnung von Ableitungen mithilfe von Matrixoperationen und untersucht Lösungen für das Problem des verschwindenden Gradienten, wie z. B. die Gewichtsinitialisierung und die Verwendung von ReLU als Aktivierungsfunktion. Schließlich berührt das Video den Mini-Batch-Gradientenabstieg und verschiedene Optimierer, die in einem komplexen neuronalen Netzwerk verwendet werden können.
Dieser zweite Teil behandelt eine Reihe von Themen im Zusammenhang mit Deep Learning, einschließlich Optimierungsalgorithmen und Regularisierungstechniken. Die Adam-Optimierung wird als beliebter Algorithmus für Deep Learning erklärt, während die L1- und L2-Regularisierung als Methoden zur Vermeidung von Overfitting untersucht werden. Das Potenzial neuronaler Netze in der Bildverarbeitung wird ebenfalls diskutiert, wobei Convolutional Neural Networks als leistungsstarkes Werkzeug für Bilderkennungsaufgaben hervorgehoben werden. Das Video befasst sich auch mit der Funktionsweise dieser Netzwerke und wie sie Funktionen zur Erkennung komplexer Bilder aufbauen, sowie mit dem Konzept des End-to-End-Lernens als Möglichkeit, die Einschränkungen der Verkettung mehrerer Module zu überwinden.
8 Wahrscheinlichkeit 2: Maximum Likelihood, Gaußsche Mischungsmodelle und Erwartungsmaximierung (MLVU2019)
8 Wahrscheinlichkeit 2: Maximum Likelihood, Gaußsche Mischungsmodelle und Erwartungsmaximierung (MLVU2019)
Dieser Abschnitt des Videos konzentrierte sich auf Wahrscheinlichkeitsmodelle für die Dichteschätzung unter Verwendung von Maximum-Likelihood-Schätzung, Normalverteilungen, Gaußschen Mischungsmodellen und Erwartungsmaximierungsalgorithmus. Der Referent erläuterte das Maximum-Likelihood-Prinzip und zeigte seine Anwendung bei der Auswahl des besten Wahrscheinlichkeitsmodells. Sie untersuchten Normalverteilungen, erklärten den Unterschied zwischen Wahrscheinlichkeits- und Wahrscheinlichkeitsdichtefunktionen und führten Gaußsche Mischungsmodelle ein. Der Referent erörterte auch die Methode der Stichprobenziehung aus einer univariaten und multivariaten Normalverteilung und wie das Gaußsche Mischungsmodell dabei hilft, verschiedene Cluster innerhalb einer Population zu identifizieren. Zusätzlich wurde der Erwartungsmaximierungsalgorithmus eingeführt, um Gaußsche Mischungsmodelle an Datensätze anzupassen. Der Referent erläuterte auch, wie man den Erwartungsmaximierungs-Ansatz mithilfe der Q-Funktions-Approximation formalisiert und bewies, dass er gegen ein lokales Optimum konvergiert.
Dieses Video behandelt die Themen Maximum Likelihood, Gaussian Mixture Models und Expectation Maximization (EM). Der Referent erklärt den EM-Algorithmus, seinen Beweis und warum er konvergiert. Sie diskutieren auch den M-Schritt, bei dem sie L maximieren, indem sie Theta wählen, während Q fest bleibt. Das Anpassen eines Gaußschen Mischungsmodells an Daten erfordert die Verwendung des EM-Algorithmus, und der Referent erklärt seine Anwendungen wie Clustering und explorative Analyse und wie es für die Klassifizierung verwendet werden kann, indem ein Gaußsches Mischungsmodell an jede Klasse angepasst wird. Das Video erwähnt auch die bevorstehende Vorlesung über das Anpassen von Wahrscheinlichkeitsmodellen an komplizierte neuronale Netze.
Vorlesung 9 Deep Learning 2: Generative Modelle, GANs, Variational Autoencoders (VAEs) (MLVU2019)
9 Deep Learning 2: Generative Modelle, GANs, Variational Autoencoders (VAEs) (MLVU2019)
Das Video behandelt verschiedene Themen im Zusammenhang mit Deep Learning, darunter aufgeteilte Daten für Deep-Learning-Projekte, Transfer Learning und einen Schwerpunkt auf generative Modelle. Der Referent untersucht das Konzept der Verwendung neuronaler Netze zur Generierung zufälliger Ergebnisse und Wahrscheinlichkeitsverteilungen und erläutert verschiedene Methoden zum Training von Generatoren wie Generative Adversarial Networks und Autoencoder. Sie befassen sich auch mit der Bedeutung von GANs, bedingten GANs, Steganographie und Auto-Encodern in verschiedenen Anwendungen des maschinellen Lernens wie Datenmanipulation und Dimensionsreduktion. Der Redner diskutiert die Manipulation von Daten im latenten Raum für High-Level-Manipulationen von Daten ohne stark gekennzeichnete Daten und die Notwendigkeit eines alternativen Ansatzes wie Variations-Autoencoder.
Dieser zweite Teil des Videos untersucht Variational Autoencoder (VAEs), eine Art generatives Modell, das darauf abzielt, das Problem des Mode Collapse zu lösen, das häufig bei anderen Modellen auftritt. Zwei neuronale Netze werden verwendet, um Eingaben in den latenten Raum zu codieren und sie zurück in den Eingaberaum zu decodieren, was eine Optimierung sowohl der Codierung als auch der Decodierung ermöglicht. Der Sprecher zerlegt die Verlustfunktion in einen KL-Divergenzterm und einen erwarteten Log-Likelihood-Term, der zum Optimieren des Netzwerks verwendet werden kann. Die Herausforderungen bei der Maximierung einer Erwartung in VAEs werden erläutert, und der Reparametrierungstrick wird als Möglichkeit zur Überwindung dieses Problems diskutiert. Der Referent vergleicht VAEs mit anderen Techniken wie GANs und PCA und kommt zu dem Schluss, dass VAEs zwar leistungsfähiger, aber auch schwieriger zu trainieren sind.
Vorlesung 10 Baummodelle und Ensembles: Entscheidungsbäume, AdaBoost, Gradient Boosting (MLVU2019)
10 Baummodelle und Ensembles: Entscheidungsbäume, AdaBoost, Gradient Boosting (MLVU2019)
Dieser erste Teil des Videos stellt Entscheidungsbäume vor, ein beliebtes Modell für maschinelles Lernen, das für Klassifizierung und Regression verwendet wird und das funktioniert, indem es den Instanzraum segmentiert und eine Klasse für jedes Segment auswählt. Das Video erörtert auch, wie Entscheidungsbäume mithilfe von Informationsgewinnen trainiert werden können und wie Beschneidung dabei helfen kann, Overfitting zu mindern. Der Referent betont, wie wichtig es ist, Daten in Trainings-, Validierungs- und Testsätze aufzuteilen, um Fairness zwischen den Modellen zu gewährleisten. Darüber hinaus diskutiert das Video Ensemble-Lernen, bei dem mehrere Entscheidungsbäume oder andere Modelle trainiert und kombiniert werden, um Probleme wie hohe Varianz und Instabilität anzugehen. Boosting wird auch als Modell-Ensemble-Technik eingeführt, bei der Klassifizierer sequentiell trainiert und die Daten neu gewichtet werden, um das Ensemble zu verbessern. Abschließend wird der Adaboost-Algorithmus erläutert, der Klassifikatoren auswählt, die eine Verlustfunktion minimieren, um das Ensemble zu verbessern.
Dieser zweite Teil des Videos behandelt verschiedene Baummodelle und -ensembles, einschließlich AdaBoost und Gradient Boosting. AdaBoost ist eine beliebte Boosting-Methode für Klassifizierungsmodelle, die Dateninstanzen basierend auf der Leistung des Klassifikators gewichtet. Gradient Boosting umfasst das Initialisieren eines Modells mit einer konstanten Funktion, das Berechnen von Residuen, das Anpassen eines neuen Modells an die gekennzeichneten Residuen und das Hinzufügen zu dem Ensemble. Der Referent erklärt die Unterschiede zwischen Gradient Boosting und AdaBoost und stellt fest, dass Ensembles in der Forschung nicht oft verwendet werden, da sie die Ergebnisse verfälschen können. Darüber hinaus reduziert Bagging die Varianz und Boosting reduziert Bias.