Sie verpassen Handelsmöglichkeiten:
- Freie Handelsapplikationen
- Über 8.000 Signale zum Kopieren
- Wirtschaftsnachrichten für die Lage an den Finanzmärkte
Registrierung
Einloggen
Sie stimmen der Website-Richtlinie und den Nutzungsbedingungen zu.
Wenn Sie kein Benutzerkonto haben, registrieren Sie sich
Vorlesung 16. Ableitungen von Invers- und Singulärwerten
16. Ableitungen von inversen und singulären Werten
Dieses Video behandelt eine Vielzahl von Themen, darunter die Ableitung der inversen und singulären Werte einer Matrix, Interlacing und die Nuklearnorm einer Matrix. Der Referent stellt eine Formel für die Ableitung von Singulärwerten unter Verwendung der SVD vor, um zu verstehen, wie sich eine Matrix im Laufe der Zeit ändert, und legt gleichzeitig Grenzen für Änderungen der Eigenwerte in symmetrischen Matrizen fest. Die Ungleichung von Vial wird eingeführt, um die Lambda-Werte einer Matrix zu schätzen, und die Basisverfolgung wird bei Matrixvervollständigungsproblemen verwendet. Der Referent diskutiert auch die Idee, dass die nukleare Norm einer Matrix aus einer Norm stammt, die nicht ganz eine Norm ist, und führt das Konzept von Lasso und komprimierter Wahrnehmung ein, das in der nächsten Vorlesung diskutiert wird.
Vorlesung 17: Schnell abnehmende Singulärwerte
Vorlesung 17: Schnell abnehmende Singulärwerte
Die Vorlesung konzentriert sich auf Matrizen und ihre Ränge und wie schnell abnehmende Singularwerte in der Computermathematik vorherrschen. Der Dozent untersucht Matrizen mit niedrigem Rang und demonstriert, dass sie viele Nullen in ihrer Folge von Einzelwerten haben, wodurch es effizienter ist, die Matrix in Form mit niedrigem Rang an einen Freund zu senden als in Form mit vollem Rang. Sie führen auch den numerischen Rang einer Matrix ein, der definiert wird, indem ein gewisser Spielraum gelassen wird, um die Toleranz einzelner Werte einer Matrix zu definieren. Durch das Abtasten glatter Funktionen, die durch Polynome gut approximiert werden können, kann der numerische Rang niedrig sein, was zu einer niedrigrangigen Approximation der Matrix X führt. Die Vorlesung enthält auch Beispiele für Gaußsche und Vandermonde-Matrizen, um zu erklären, wie sie führen können Matrizen von niedrigem Rang und diskutiert die Nützlichkeit von Zolotarev-Zahlen beim Begrenzen von singulären Werten.
Vorlesung 18: Zählparameter in SVD, LU, QR, Sattelpunkte
Vorlesung 18: Zählparameter in SVD, LU, QR, Sattelpunkte
In diesem Vortrag geht der Referent auf verschiedene Matrixfaktorisierungen wie L&U-, Q&R- und Eigenvektormatrizen ein und zählt die Anzahl der freien Parameter in jeder dieser Matrizen. Sie diskutieren auch die Berechnung von Qs versus SVD und zählen die Anzahl der Parameter in der SVD für eine Rang-R-Matrix. Der Dozent erklärt auch das Konzept von Sattelpunkten in Matrizen und wie man sie mit Hilfe von Optimierungstechniken und Lagrange-Multiplikatoren findet. Schließlich diskutiert der Dozent das Vorzeichen der Eigenwerte einer symmetrischen Matrix und wie der Rayleigh-Quotient helfen kann, den Maximalwert und den entsprechenden Eigenvektor der Matrix zu bestimmen.
Vorlesung 19. Fortsetzung Sattelpunkte, Maximin-Prinzip
19. Sattelpunkte Fortsetzung, Maximin-Prinzip
In diesem Video diskutiert der Sprecher weiterhin Sattelpunkte und wie man mithilfe des Rayleigh-Quotienten im zweidimensionalen Raum Minimal- und Maximalwerte findet. Das Interlacing-Theorem wird erklärt, bei dem Sattelpunkte als Maximum eines Minimums geschrieben werden, um Maxima und Minima schnell zu finden. Der Referent warnt auch vor Überanpassung beim Anpassen von Daten mit einem hochgradigen Polynom und diskutiert zwei Open-End-Labs für die Klasse, die Sattelpunkte und ein einfaches neuronales Netzwerk beinhalten. Die Konzepte von Mittelwert und Varianz in Statistiken und Stichprobenvarianz und -kovarianz werden erläutert, wobei der Sprecher anmerkt, dass die Kovarianzmatrix für vollständig abhängige Ergebnisse nicht umkehrbar wäre und für Umfrageszenarien mit mehreren Personen, die in einem Haus leben, eine gewisse Kovarianz erwartet wird nicht ganz unabhängig.
Vorlesung 20. Definitionen und Ungleichungen
20. Definitionen und Ungleichungen
In diesem Abschnitt des Videos erörtert der Referent verschiedene Konzepte der Wahrscheinlichkeitstheorie, darunter Erwartungswert-, Varianz- und Kovarianzmatrizen. Die Markowsche Ungleichung und die Tschebyscheffsche Ungleichung wurden ebenfalls als grundlegende Werkzeuge zum Schätzen von Wahrscheinlichkeiten eingeführt. Der Sprecher erklärt dann die Beziehung zwischen der Ungleichung von Markov und Chebychev und veranschaulicht, wie sie zu demselben Ergebnis führen. Das Konzept der Kovarianz und der Kovarianzmatrix, ein grundlegendes Werkzeug in der Wahrscheinlichkeitstheorie, wurde ebenfalls eingeführt. Das Video untersucht auch die Idee gemeinsamer Wahrscheinlichkeiten und Tensoren und erklärt, wie das Zusammenkleben von Münzen Abhängigkeiten hinzufügt und die Wahrscheinlichkeiten verändert. Abschließend erörtert der Redner die Eigenschaften der Kovarianzmatrix und betont, dass sie immer positiv semidefinit ist und eine Kombination aus positiven semidefiniten Matrizen vom Rang 1 ist.
Vorlesung 21: Eine Funktion Schritt für Schritt minimieren
Vorlesung 21: Eine Funktion Schritt für Schritt minimieren
Dieser Videovortrag behandelt die grundlegenden Algorithmen zur Minimierung einer Funktion und ihre Konvergenzraten, insbesondere das Newton-Verfahren und den steilsten Abstieg. Es hebt auch die Bedeutung der Konvexität hervor, die sicherstellt, dass die Funktion ein Minimum hat, und führt das Konzept der konvexen Mengen und konvexen Funktionen ein. Der Dozent erklärt, wie man eine Funktion auf Konvexität testet, die bestimmt, ob sie Sattelpunkte oder lokale Minima hat, im Gegensatz zu einem globalen Minimum. Das Video endet mit einer Diskussion von Levenberg Marquardt, einer billigeren Version von Newtons Methode, die nicht vollständig zweiter Ordnung ist.
Vorlesung 22. Gradient Descent: Downhill to a Minimum
22. Steigungsabfahrt: Bergab auf ein Minimum
Im Video „Gradient Descent: Downhill to a Minimum“ erörtert der Referent die Bedeutung des Gradientenabstiegs bei der Optimierung und beim Deep Learning, bei denen das Ziel darin besteht, eine Funktion zu minimieren. Der Referent stellt die Steigung und das Hessische vor und illustriert die Stufen des steilsten Gefälles anhand einer quadratischen Funktion. Der Referent erörtert auch die Interpretation des Gradienten und des Hessischen sowie deren Rolle bei der Messung der Konvexität. Der Sprecher vertieft sich in die Auswahl der geeigneten Lernrate und betont die Bedeutung der Bedingungszahl bei der Steuerung der Konvergenzgeschwindigkeit. Das Video bietet auch praktische Beispiele und Formeln, um das Konzept des Gradientenabstiegs, einschließlich der Heavy-Ball-Methode, zu verstehen.
Vorlesung 23. Gradientenabstieg beschleunigen (Momentum verwenden)
23. Beschleunigung des Gradientenabstiegs (Momentum verwenden)
In diesem Video wird das Konzept des Impulses beim Beschleunigen des Gradientenabstiegs erläutert. Der Moderator erklärt die grundlegende Formel für den Gradientenabstieg und zeigt, wie das Hinzufügen von Schwung zu einem schnelleren Abstieg als bei der herkömmlichen Methode führen kann, was letztendlich zu erheblichen Verbesserungen führt. Sie diskutieren auch ein kontinuierliches Modell des steilsten Abfalls und erklären, wie es als Differentialgleichung zweiter Ordnung mit einem Impulsterm analysiert werden kann. Der Moderator betont, wie wichtig es ist, beide Eigenwerte zu minimieren, wenn Impuls verwendet wird, um den größten Eigenwert zu minimieren, indem Werte für s und Beta gewählt werden, um die Eigenwerte der Matrix so klein wie möglich zu machen. Sie diskutieren auch Nesterovs Methode und schlagen vor, dass es möglich sein könnte, weitere Verbesserungen zu erzielen, indem man zwei oder drei Schritte oder mehr zurückgeht.
Vorlesung 24. Lineare Programmierung und Zwei-Personen-Spiele
24. Lineare Programmierung und Zwei-Personen-Spiele
Dieses YouTube-Video behandelt das Thema lineare Programmierung und Zwei-Personen-Spiele. Die lineare Programmierung ist der Prozess der Optimierung einer linearen Kostenfunktion, die einer Reihe linearer Einschränkungen unterliegt, und wird in Bereichen wie Wirtschaft und Technik verwendet. Das Video erklärt die in der linearen Programmierung verwendeten Algorithmen, einschließlich der Simplex-Methode und der Inneren-Punkt-Methode, sowie das Konzept der Dualität, bei dem das Primalproblem und sein duales Problem eng miteinander verbunden sind und mit der Simplex-Methode gelöst werden können. Das Video behandelt auch, wie lineare Programmierung auf Zwei-Personen-Spiele angewendet werden kann, einschließlich des Prozesses, eine Obergrenze für den maximalen Fluss in einem Netzwerk zu finden und ein Spiel mit einer Matrix zu lösen. Abschließend erörtert das Video kurz die Grenzen der Anwendung dieser Techniken auf Spiele mit drei oder mehr Personen und erwähnt, dass die nächste Vorlesung den stochastischen Gradientenabstieg behandeln wird.
Vorlesung 25. Stochastischer Gradientenabstieg
25. Stochastischer Gradientenabstieg
In diesem Video wird das Konzept des stochastischen Gradientenabstiegs (SGD) als Optimierungsmethode zur Lösung umfangreicher maschineller Lernprobleme vorgestellt, die häufig in Form eines Finite-Summen-Problems auftreten. Der Referent erklärt, wie SGD zufällige Datenpunkte auswählt, um den Gradienten zu berechnen, um die Berechnung zu beschleunigen, und wie es sich aufgrund der schwankenden Natur der Methode anders verhält als der Batch-Gradientenabstieg, wenn es sich dem Optimum nähert. Die Schlüsseleigenschaft von SGD ist, dass die Schätzung des stochastischen Gradienten eine unvoreingenommene Version des wahren erwarteten Gradienten ist und die Varianz des stochastischen Gradienten kontrolliert werden muss, um das Rauschen zu reduzieren. Die Verwendung von Mini-Batches wird als Mittel für kostengünstige Parallelität beim Deep-Learning-GPU-Training diskutiert, aber die Auswahl der richtigen Mini-Batch-Größe ist immer noch eine offene Frage, die sich auf die Robustheit der Lösung bei Vorhandensein von unsichtbaren Daten auswirken kann. Zu den Herausforderungen bei der Optimierung von SGD gehören die Bestimmung der Mini-Batch-Größe und die Berechnung stochastischer Gradienten, aber Forscher versuchen, die Wirksamkeit von SGD in neuronalen Netzwerken durch die Entwicklung einer Generalisierungstheorie zu verstehen.