Sie verpassen Handelsmöglichkeiten:
- Freie Handelsapplikationen
- Über 8.000 Signale zum Kopieren
- Wirtschaftsnachrichten für die Lage an den Finanzmärkte
Registrierung
Einloggen
Sie stimmen der Website-Richtlinie und den Nutzungsbedingungen zu.
Wenn Sie kein Benutzerkonto haben, registrieren Sie sich
CS480/680 Vorlesung 8: Logistische Regression und verallgemeinerte lineare Modelle
CS480/680 Vorlesung 8: Logistische Regression und verallgemeinerte lineare Modelle
Dieser erste Teil der Vorlesung zum Thema „CS480/680: Logistische Regression und verallgemeinerte lineare Modelle“ stellt die Idee der exponentiellen Verteilungsfamilie und ihre Beziehung zur logistischen Regression vor, einer leistungsstarken Technik, die für Klassifizierungsprobleme verwendet wird. In der Vorlesung wird erklärt, dass die logistische Regression darauf abzielt, die beste logistische Funktion anzupassen, die den Posterior für einen bestimmten Datensatz modelliert, und dass bei Problemen mit wenigen Dimensionen und Gewichten die Newton-Methode verwendet werden kann, um das Minimum der Zielfunktion zu finden, die konvex ist Funktion. Der Dozent betont auch die Bedeutung der logistischen Regression in Empfehlungssystemen und bei der Anzeigenplatzierung, wobei die Einfachheit und Effizienz der Technik sie ideal für die Abgabe personalisierter Empfehlungen auf der Grundlage von Benutzereigenschaften und -verhalten macht.
Die Vorlesung behandelt auch das Thema der logistischen Regression und verallgemeinerter linearer Modelle. Der Dozent erörtert die Einschränkungen von Newtons Methode zur logistischen Regression, beispielsweise das Problem der Überanpassung durch beliebig große Gewichte und Singularitätsprobleme in der Hesse-Matrix. Um eine Überanpassung zu verhindern, wird eine Regularisierung empfohlen. Der Dozent stellt verallgemeinerte lineare Modelle (GLMs) vor, mit denen effizient mit nichtlinearen Separatoren gearbeitet werden kann. Bei GLMs werden die Eingaben einem neuen Raum zugeordnet, in dem lineare Regression und Klassifizierung auf nichtlineare Weise durchgeführt werden können, solange die Zuordnung nichtlinear ist. Die Vorlesung behandelt auch Basisfunktionen und deren Typen, die zur Durchführung nichtlinearer Regression und Klassifizierung verwendet werden können.
CS480/680 Vorlesung 9: Perzeptrone und einschichtige neuronale Netze
CS480/680 Vorlesung 9: Perzeptrone und einschichtige neuronale Netze
In dieser Vorlesung werden neuronale Netze vorgestellt, wobei der Schwerpunkt auf dem Elementartyp, dem Perzeptron, liegt, der ein lineares Trennzeichen für die Klassifizierung erzeugt. In der Vorlesung wird untersucht, wie Gewichte verwendet werden, um eine lineare Kombination von Eingaben zu berechnen, die eine Aktivierungsfunktion durchlaufen, um Ausgaben zu erzeugen, und wie unterschiedliche Gewichte verwendet werden können, um Logikgatter wie UND-, ODER- und NICHT-Gatter anzunähern. Der Dozent diskutiert das Feedforward-Neuronale Netzwerk und wie der Perzeptron-Lernalgorithmus für die binäre Klassifizierung verwendet wird und wie der Gradientenabstieg Gewichte optimieren kann. Die Einschränkungen bei der Verwendung einer Linie zum Trennen von Daten werden diskutiert und die logistische Sigmoid-Aktivierungsfunktion wird als mögliche Lösung vorgestellt, wobei der Schwerpunkt darauf liegt, wie die Gewichte mithilfe der logistischen Sigmoid-Aktivierungsfunktion trainiert werden können.
In dieser Vorlesung über Perzeptrone und einschichtige neuronale Netze geht es um die Verwendung logistischer Sigmoid-Aktivierungsfunktionen zur Minimierung quadratischer Fehler und die Einführung der Lernrate als entscheidenden Parameter beim sequentiellen Gradientenabstieg. Der Dozent zeigt auch, wie neuronale Netze mit mehreren Schichten zusammengesetzt werden können, um jede Funktion mithilfe von Trash-Holding-Funktionen beliebig genau anzunähern, und wie Backpropagation verwendet werden kann, um ein Netzwerk darauf zu trainieren, beliebige Funktionen zu lernen. Der Dozent betont die Vielseitigkeit und Effizienz neuronaler Netze und verweist auf deren weit verbreiteten Einsatz bei der Lösung verschiedener Probleme wie Spracherkennung, Computer Vision, maschinelle Übersetzung und Worteinbettungen.
CS480/680 Vorlesung 10: Mehrschichtige neuronale Netze und Backpropagation
CS480/680 Vorlesung 10: Mehrschichtige neuronale Netze und Backpropagation
In dieser Vorlesung über mehrschichtige neuronale Netze und Backpropagation werden die Einschränkungen linearer Modelle und die Notwendigkeit nichtlinearer Modelle wie mehrschichtiger neuronaler Netze erläutert. Der Dozent diskutiert die verschiedenen Aktivierungsfunktionen, die in neuronalen Netzen verwendet werden können und wie sie nichtlineare Basisfunktionen ermöglichen. In der Vorlesung wird weiter erklärt, wie der Backpropagation-Algorithmus verwendet wird, um den Gradienten des Fehlers in Bezug auf jedes Gewicht in einem neuronalen Netzwerk zu berechnen. Automatische Differenzierungswerkzeuge werden auch als Möglichkeit zur effizienten Berechnung der Deltas und Gradienten in einem neuronalen Netzwerk diskutiert. Insgesamt betont die Vorlesung die Flexibilität und Leistungsfähigkeit neuronaler Netze bei der Annäherung an ein breites Spektrum an Funktionen.
Der Dozent in diesem Video diskutiert Probleme bei der Optimierung neuronaler Netze, wie z. B. langsame Konvergenz, lokale Optimierung, nicht-konvexe Optimierung und Überanpassung. Um die langsame Konvergenz zu überwinden, können Techniken wie Regularisierung und Dropout verwendet werden. Darüber hinaus erläutert der Redner das Verhalten des Gradientenabstiegs zur Optimierung und betont die Notwendigkeit, die Schrittgröße zu optimieren, um die Effizienz zu verbessern. Als Lösung wird der DES-Grant-Algorithmus vorgeschlagen, der die Lernrate jeder Dimension separat anpasst. Der Redner stellt außerdem RMSProp vor, einen gewichteten gleitenden Durchschnitt früherer Verläufe. Abschließend diskutiert der Redner Adam, bei dem ein gewichteter gleitender Durchschnitt des Gradienten selbst ermittelt wird, und zeigt, dass es andere Techniken wie SGD Nesterov übertrifft.
CS480/680 Vorlesung 11: Kernel-Methoden
CS480/680 Vorlesung 11: Kernel-Methoden
In dieser Vorlesung wird das Konzept der Kernelmethoden als eine Möglichkeit eingeführt, verallgemeinerte lineare Modelle zu skalieren, indem Daten von einem Raum in einen neuen Raum mithilfe einer nichtlinearen Funktion abgebildet werden. Der Dual-Trick oder Kernel-Trick wird als eine Technik erklärt, die das Arbeiten in hochdimensionalen Räumen ohne zusätzliche Kosten ermöglicht und zur Verwendung einer Kernel-Funktion führt, die das Skalarprodukt von Punktpaaren im neuen Raum berechnet. Es werden verschiedene Methoden zur Konstruktion von Kerneln besprochen, darunter die Polynom- und Gaußschen Kernel, die zur Messung der Ähnlichkeit zwischen Datenpunkten verwendet werden können und bei Klassifizierungsaufgaben nützlich sind. Es werden auch Regeln zum Erstellen von Kerneln eingeführt, um neue Kernel zu konstruieren, die ihre Komplexität steuern können. In der Vorlesung wird betont, wie wichtig es ist, Funktionen auszuwählen, die mit Phi transponieren Phi korrespondieren, da die Grammmatrix positiv semidefinit sein muss und Eigenwerte größer oder gleich Null haben muss.
In dieser Vorlesung über Kernelmethoden definiert der Referent Kernel als positive semidefinite Funktionen, die multipliziert mit ihrer Transponierung in eine Matrix zerlegt werden können. Es werden verschiedene Arten von Kerneln wie Polynom- und Gauß-Kernel und ihre Anwendungen zum Vergleich verschiedener Datentypen wie Zeichenfolgen, Mengen und Diagramme erläutert. Der Referent erklärt auch, wie Teilstring-Kernel schnell Ähnlichkeiten zwischen Wörtern berechnen können, indem sie die Länge von Teilstrings erhöhen und dynamische Programmierung verwenden. Darüber hinaus haben sich Support-Vektor-Maschinen bei der Dokumentenklassifizierung anhand von Nachrichtenartikeln von Reuters als effektiv erwiesen.
CS480/680 Vorlesung 13: Support-Vektor-Maschinen
CS480/680 Vorlesung 13: Support-Vektor-Maschinen
Diese Vorlesung ist eine Einführung in Support Vector Machines (SVMs) als eine Art Kernel-Methode zur Klassifizierung. SVMs sind bei Problemen mit geringen Datenmengen nach wie vor beliebt und gelten als spärlich, da sie mit einer Teilmenge der Daten arbeiten und den Rest ignorieren können. Der Redner erklärt das Konzept der Unterstützungsvektoren, bei denen es sich um die der Entscheidungsgrenze am nächsten liegenden Datenpunkte handelt, und das visuelle Beispiel von SVMs, die ein lineares Trennzeichen finden, um Klassen zu trennen und gleichzeitig den Spielraum zu maximieren. Die Unterschiede zwischen SVMs und Perzeptronen werden diskutiert, wobei SVMs ein einzigartiges lineares Trennzeichen mit maximalem Rand verwenden und weniger anfällig für Überanpassung sind. Das Optimierungsproblem für SVMs kann mithilfe des Lagrange-Operators umgeschrieben werden, was zu einem äquivalenten Problem ohne Einschränkungen führt. Die aus dem Lagrange-Operator erhaltene Lösung kann zurückgesetzt werden, um einen Ausdruck zu erhalten, der die Kernelfunktion einbezieht, was zu einer dualen Problemoptimierung führt. Die Vorteile der Arbeit im Dualraum mit einer Kernelfunktion, die die Ähnlichkeit zwischen Datenpunktpaaren berechnet, werden ebenfalls erläutert. SVMs berechnen den Grad der Ähnlichkeit zwischen einem Abfragepunkt und allen Unterstützungsvektoren, um die ähnlichsten zu ermitteln. Die Diskussion dreht sich auch um die Anzahl der Unterstützungsvektoren und wie sie sich auf die Klassifizierung von Punkten auswirkt.
In diesem Video wird das Konzept von Support Vector Machines (SVMs) bei der Textkategorisierung erläutert, bei der Dokumente als Vektoren der Wortanzahl dargestellt werden. SVMs minimieren wirksam den Worst-Case-Verlust, sodass der Klassifikator für jede mögliche Stichprobe geeignet ist, sogar für unterschiedliche Datensätze. Forscher nutzten SVMs mit Dual-Darstellung und Kernel-Mapping, um Daten in einen noch höherdimensionalen Raum abzubilden, ohne dabei an Genauigkeit oder Skalierbarkeit einzubüßen. Die Vorlesung befasst sich auch mit der Verwendung von SVMs beim Abrufen relevanter Dokumente aus einem Datensatz und dem Abwägen von Präzision und Rückruf. Das Video endet mit einer Diskussion über die Fähigkeit von SVMs, lineare oder nichtlineare Trennzeichen für Daten bereitzustellen, und über die Herausforderungen, die mit der Klassifizierung mehrerer Klassen und nichtlinear trennbaren Daten verbunden sind.
CS480/680 Vorlesung 14: Support-Vektor-Maschinen (Fortsetzung)
CS480/680 Vorlesung 14: Support-Vektor-Maschinen (Fortsetzung)
Dieser Abschnitt der Vorlesung konzentriert sich auf den Umgang mit nichtlinear trennbaren Daten und überlappenden Klassen bei der Verwendung von Support-Vektor-Maschinen (SVMs), indem Slack-Variablen eingeführt und ein weicher Spielraum berücksichtigt werden. Der Referent erklärt, wie Slack-Variablen die Klassifizierung von Punkten innerhalb der Marge ermöglichen, ohne dass ein Klassifizierungsfehler entsteht. Dem Optimierungsproblem wird ein Strafterm hinzugefügt, um die Verwendung von Slack-Variablen zu regulieren, gesteuert durch das Gewicht C, das den Kompromiss zwischen Fehlerminimierung und Modellkomplexität anpasst. Der Redner diskutiert auch verschiedene Ansätze zur Verwendung von SVMs für Klassifizierungsprobleme mit mehreren Klassen, einschließlich Eins-gegen-Alle, paarweisem Vergleich und kontinuierlichem Ranking, wobei letzteres der De-facto-Ansatz für SVMs mit mehreren Klassen ist. Darüber hinaus wird das Konzept der Mehrklassenmarge eingeführt, bei dem es um einen Puffer um den linearen Trenner geht, der durch die Differenz der Gewichtsvektoren für jedes Klassenpaar definiert wird.
CS480/680 Vorlesung 15: Tiefe neuronale Netze
CS480/680 Vorlesung 15: Tiefe neuronale Netze
Dieses Video behandelt die Grundlagen des Deep Learning, einschließlich der Konzepte tiefer neuronaler Netze, des Problems des verschwindenden Gradienten und der Entwicklung tiefer neuronaler Netze bei Bilderkennungsaufgaben. Der Dozent erklärt, wie tiefe neuronale Netze genutzt werden können, um Funktionen prägnanter darzustellen und wie sie Merkmale berechnen, die mit zunehmender Tiefe des Netzes immer höherstufiger werden. Es werden Lösungen für das Problem des verschwindenden Gradienten angesprochen, einschließlich der Verwendung gleichgerichteter linearer Einheiten (ReLU) und Batch-Normalisierung. Die Vorlesung behandelt auch Max-Out-Einheiten und ihre Vorteile als Verallgemeinerung von ReLUs, die mehrere lineare Teile ermöglicht.
In der Vorlesung über tiefe neuronale Netze werden zwei Probleme erörtert, die für ein effektives tiefes Lernen gelöst werden müssen: das Problem der Überanpassung aufgrund der Expressivität mehrschichtiger Netzwerke und die Notwendigkeit einer hohen Rechenleistung zum Trainieren komplexer Netzwerke. Der Dozent schlägt Lösungen wie Regularisierung und Dropout während des Trainings sowie paralleles Rechnen während der Berechnung vor. In der Vorlesung wird auch detailliert beschrieben, wie Dropout beim Testen genutzt werden kann, indem die Größen der Eingabe- und verborgenen Einheiten skaliert werden. Abschließend schließt die Vorlesung mit der Vorstellung einiger bahnbrechender Anwendungen tiefer neuronaler Netze in der Spracherkennung, Bilderkennung und maschinellen Übersetzung ab.
CS480/680 Vorlesung 16: Faltungs-Neuronale Netze
CS480/680 Vorlesung 16: Faltungs-Neuronale Netze
Dieses Video stellt Convolutional Neural Networks (CNNs) vor und erklärt ihre Bedeutung für die Bildverarbeitung als spezifische Art neuronaler Netzwerke mit Schlüsseleigenschaften. Der Dozent diskutiert, wie Faltung für die Bildverarbeitung genutzt werden kann, beispielsweise bei der Kantenerkennung, und wie CNNs auf ähnliche Weise Merkmale erkennen können. Das Konzept der Faltungsschichten und ihrer Parameter wird erläutert, zusammen mit dem Prozess des Trainings von CNNs mithilfe von Backpropagation und Gradientenabstieg mit gemeinsamen Gewichten. Der Dozent stellt außerdem Entwurfsprinzipien für die Erstellung effektiver CNN-Architekturen bereit, beispielsweise die Verwendung kleinerer Filter und die nichtlineare Aktivierung nach jeder Faltung.
In diesem Vortrag über Convolutional Neural Networks (CNNs) diskutiert der Redner das Konzept der Restverbindungen als Lösung für das Problem des verschwindenden Gradienten, mit dem tiefe neuronale Netze konfrontiert sind. Diese Skip-Verbindungen ermöglichen die Verkürzung von Netzwerkpfaden und das Ignorieren nutzloser Schichten, während sie bei Bedarf dennoch verwendet werden können, um zu vermeiden, dass Ausgaben nahe Null entstehen. Der Einsatz von Batch-Normalisierungstechniken wird ebenfalls eingeführt, um das Problem verschwindender Gradienten zu mildern. Darüber hinaus weist der Referent darauf hin, dass CNNs auf sequentielle Daten und Tensoren mit mehr als zwei Dimensionen angewendet werden können, beispielsweise in Videosequenzen, und dass für bestimmte Anwendungen auch 3D-CNNs eine Möglichkeit seien. Es wird hervorgehoben, dass das TensorFlow-Framework für die Berechnung mit mehrdimensionalen Arrays konzipiert ist.
CS480/680 Vorlesung 17: Hidden-Markov-Modelle
CS480/680 Vorlesung 17: Hidden-Markov-Modelle
Die Vorlesung stellt Hidden-Markov-Modelle (HMM) vor, eine Art probabilistisches grafisches Modell, das zur Ausnutzung von Korrelationen in Sequenzdaten verwendet wird, um die Genauigkeit zu verbessern. Die Modellannahmen umfassen einen stationären Prozess und einen Markovian-Prozess, wobei ein verborgener Zustand nur vom vorherigen Zustand abhängt. Die drei Verteilungen in HMM sind die Anfangszustandsverteilung, die Übergangsverteilung und die Emissionsverteilung, wobei letzterer Typ je nach Datentyp verwendet wird. Der Algorithmus kann für Überwachungs-, Vorhersage-, Filter-, Glättungs- und höchstwahrscheinlich Erklärungsaufgaben verwendet werden. HMM wurde für Spracherkennung und maschinelles Lernen verwendet, beispielsweise zur Vorhersage der wahrscheinlichsten Folge von Ausgaben basierend auf einer Folge von Eingaben und verborgenen Zuständen für ältere Menschen, die Gehhilfen zur Stabilitätskorrelation verwenden. Ein Experiment mit modifizierten Sensoren und Kameras an einem Gehwagen wurde durchgeführt, um die Aktivitäten älterer Erwachsener automatisch zu erkennen, basierend auf der Sammlung von Daten über die Aktivitäten älterer Erwachsener in einer Senioreneinrichtung. Auch die Demonstration im überwachten und unüberwachten Lernen im Kontext der Aktivitätserkennung wurde diskutiert.
Die Vorlesung konzentriert sich auf die Verwendung von Gaußschen Emissionsverteilungen in Hidden-Markov-Modellen (HMMs), die häufig in praktischen Anwendungen verwendet werden, bei denen die gesammelten Daten kontinuierlich sind. Der Dozent erklärt, dass es bei dieser Methode darum geht, Mittelwert- und Varianzparameter zu berechnen, die dem empirischen Mittelwert und der Varianz der Daten entsprechen, und daraus die Lösung für die Anfangs- und Übergangsverteilungen zu berechnen. Die Übergangsverteilung entspricht relativen Häufigkeitszählungen, und die maximale Wahrscheinlichkeit wird verwendet, um die Lösungen zu erhalten. Dieser Ansatz ähnelt der Lösung für Gauß-Mischungen, bei denen ebenfalls eine Anfangs- und Emissionsverteilung verwendet wird.
CS480/680 Vorlesung 18: Rekurrente und rekursive neuronale Netze
CS480/680 Vorlesung 18: Rekurrente und rekursive neuronale Netze
In diesem Vortrag stellt der Referent rekurrente und rekursive neuronale Netze als Modelle vor, die für sequentielle Daten ohne feste Länge geeignet sind. Rekurrente neuronale Netze können Sequenzen beliebiger Länge verarbeiten, da bestimmte Knoten Ausgänge als Eingänge zurückführen, und die Art und Weise, wie H bei jedem Zeitschritt berechnet wird, erfolgt durch die Verwendung derselben Funktion f, was eine Gewichtsteilung beinhaltet. Sie können jedoch unter Einschränkungen leiden, z. B. weil sie sich Informationen aus frühen Eingaben nicht merken und es zu Vorhersageabweichungen kommt. Der Dozent erläutert außerdem die Architektur des bidirektionalen rekurrenten neuronalen Netzwerks (BRNN) und das Encoder-Decoder-Modell, das zwei RNNs – einen Encoder und einen Decoder – für Anwendungen verwendet, bei denen die Eingabe- und Ausgabesequenzen nicht auf natürliche Weise übereinstimmen. Darüber hinaus beschreibt der Dozent die Vorteile von Long Short-Term Memory (LSTM)-Einheiten, die das Problem des verschwindenden Gradienten abmildern, Abhängigkeiten über große Entfernungen erleichtern und den Informationsfluss selektiv zulassen oder blockieren können.
Diese Vorlesung über rekurrente und rekursive neuronale Netze behandelt eine Reihe von Themen, darunter die Verwendung von Long Short-Term Memory (LSTM) und Gated Recurrent Unit (GRU)-Einheiten zur Vermeidung von Gradientenproblemen sowie die Bedeutung von Aufmerksamkeitsmechanismen bei der maschinellen Übersetzung zur Erhaltung der Satzbedeutung und Wortausrichtung. Der Dozent diskutiert auch, wie rekurrente neuronale Netze auf rekursive neuronale Netze für Sequenzen, Graphen und Bäume verallgemeinert werden können und wie man Sätze analysiert und Satzeinbettungen mithilfe von Analysebäumen erzeugt.
Fertig sein. Der verborgene Zustand wird mithilfe einer Funktion berechnet, die den vorherigen verborgenen Zustand und die Eingabe verwendet, und die Ausgabe wird mithilfe einer anderen Funktion erhalten, die den verborgenen Zustand als Eingabe verwendet. Letztendlich besteht das Ziel darin, diese Berechnung zur Berechnung von Wahrscheinlichkeiten oder zur Erkennung von Aktivitäten zu nutzen.