Sie verpassen Handelsmöglichkeiten:
- Freie Handelsapplikationen
- Über 8.000 Signale zum Kopieren
- Wirtschaftsnachrichten für die Lage an den Finanzmärkte
Registrierung
Einloggen
Sie stimmen der Website-Richtlinie und den Nutzungsbedingungen zu.
Wenn Sie kein Benutzerkonto haben, registrieren Sie sich
Vorlesung 3 – Skalierung Gaußscher Prozesse – Jonathan Wenger
Numerik von ML 3 – Skalierung Gaußscher Prozesse – Jonathan Wenger
Jonathan Wenger erläutert im Video „Numerics of ML 3“ Techniken zum Skalieren von Gaußschen Prozessen für große Datensätze. Er untersucht iterative Methoden zur Lösung linearer Systeme und zum Erlernen der Matrixinversen, mit dem primären Ziel, Verallgemeinerung, Einfachheit/Interpretierbarkeit, Unsicherheitsschätzungen und Geschwindigkeit zu erreichen. Wenger führt Annäherungen mit niedrigem Rang an die Kernmatrix ein, wie z. B. die iterative Cholesky-Zerlegung, partielle Cholesky- und konjugierte Gradientenmethoden. Er erörtert auch die Vorkonditionierung zur Beschleunigung der Konvergenz und Verbesserung der Stabilität beim Umgang mit großen Datensätzen. Schließlich schlägt er vor, eine orthogonale Matrix Z zu verwenden, um die Spur einer Matrix neu zu schreiben, was möglicherweise zu einer quadratischen Zeit zum Skalieren von Gaußschen Prozessen führen könnte.
Im zweiten Teil der Vorlesung diskutiert Jonathan Wenger in diesem Video die Skalierung von Gaußschen Prozessen (GP) für große Datensätze. Er stellt verschiedene Strategien zur Verbesserung der Konvergenzrate von Monte-Carlo-Schätzungen für die GP-Regression vor, einschließlich der Verwendung vorhandener Vorkonditionierer für die Lösung des linearen Systems, um die Kernel-Matrix und ihre Inverse zu schätzen. Er führt auch die Idee der linearen Zeit-GP durch Variationsnäherung ein und befasst sich mit der Unsicherheitsquantifizierung unter Verwendung der Induktionspunktmethode. Durch die Verwendung dieser Strategien ist mit der GPU ein Scale-up auf Datensätze mit bis zu einer Million Datenpunkten möglich, was die schnelle Optimierung von Hyperparametern erleichtert.
Vorlesung 4 -- Berechnungsbewusste Gaußsche Prozesse -- Jonathan Wenger
Numerik von ML 4 - Berechnungsbewusste Gaußsche Prozesse - Jonathan Wenger
In diesem Video über die Numerik von ML diskutiert Jonathan Wenger rechenbewusste Gaußsche Prozesse und ihre Fähigkeit, den Approximationsfehler und die Unsicherheit in Vorhersagen zu quantifizieren. Er untersucht, wie wichtig es ist, die richtigen Aktionen auszuwählen, und wie konjugierte Gradienten die Unsicherheit erheblich reduzieren und das Lernen beschleunigen können. Wenger spricht auch über die Verwendung von GP-Approximationen in linearer Zeit auf der Grundlage von Induktionspunkten, hebt jedoch die Probleme hervor, die sich aus solchen Approximationen ergeben. Abschließend erörtert er die Aktualisierung von Annahmen über repräsentative Gewichte und die Verwendung von probabilistischen Lernalgorithmen zur Lösung des Fehlers in den repräsentativen Gewichten. Insgesamt demonstriert das Video die Effektivität rechenbewusster Gaußscher Prozesse bei der Verbesserung der Genauigkeit von Vorhersagen durch Berücksichtigung von Rechenunsicherheiten.
Jonathan Wenger diskutiert in diesem Video auch den rechenbewussten Gaußschen Prozess und seine Komplexität. Er erklärt, dass es nur notwendig ist, den oberen Quadranten der Kernel-Matrix zu berechnen und zu speichern, und der Rechenaufwand des Algorithmus proportional zur Größe dieses Quadranten ist. Der Gaußsche Prozess kann auf Datensätze beliebiger Größe angewendet werden, solange Berechnungen nur auf bestimmte Datenpunkte abzielen, wodurch die Grenze zwischen Daten und Berechnung verwischt wird. Wenger argumentiert, dass der GP modelliert werden kann, um diese Situation zu berücksichtigen, indem er auf projizierte Daten konditioniert wird. Er führt ein neues Theorem ein, das eine exakte Unsicherheitsquantifizierung mit einem Näherungsmodell ermöglicht. Abschließend gibt er einen Ausblick auf den Vortrag nächste Woche über die Erweiterung des GP-Modells auf Fälle, in denen ein physikalisches Gesetz teilweise die erlernte Funktion bestimmt.
Vorlesung 5 -- Zustandsraummodelle -- Jonathan Schmidt
Numerik von ML 5 -- Zustandsraummodelle -- Jonathan Schmidt
In diesem Abschnitt stellt Jonathan Schmidt Zustandsraummodelle und ihre Anwendung auf maschinelles Lernen vor. Er erklärt, dass Zustandsraummodelle verwendet werden, um komplexe dynamische Systeme zu modellieren, die nur teilweise beobachtbar sind und stark nichtlineare Wechselwirkungen beinhalten. Die Vorlesung behandelt die grafische Darstellung von Zustandsraummodellen und die wichtigen Eigenschaften der Markov-Eigenschaft und bedingt unabhängige Messungen. Schmidt stellt verschiedene Algorithmen zur Berechnung verschiedener Verteilungen wie Vorhersage-, Filter- und Glättungsverteilungen vor, die verwendet werden, um den Zustand eines Systems anhand von Messungen zu verschiedenen Zeitpunkten abzuschätzen. Die Vorlesung behandelt auch die Implementierung von Kalman-Filteralgorithmen in Julia und die Berechnung von Glättungsschätzungen in linearen Gaußschen Zustandsraummodellen. Abschließend diskutiert Schmidt den erweiterten Kalman-Filter, der die Schätzung nichtlinearer Dynamik und Messungen in Zustandsraummodellen ermöglicht.
Jonathan Schmidt diskutiert auch Zustandsraummodelle und ihre Implementierung mit Code, wobei er sich speziell auf nichtlineare Dynamik und den erweiterten Kalman-Filter konzentriert. Er demonstriert auch Glättungsalgorithmen und alternative bayessche Filtermethoden und hebt ihre Vor- und Nachteile hervor. Die Vorlesung schließt mit einer Empfehlung zum Weiterlernen und einer Vorfreude auf die nächste Vorlesung, in der Nathaniel probabilistische Numerik zur Simulation dynamischer Systeme einführen wird.
Vorlesung 6 -- Gewöhnliche Differentialgleichungen lösen -- Nathanael Bosch
Numerik von ML 6 -- Lösen gewöhnlicher Differentialgleichungen -- Nathanael Bosch
Nathanael Bosch behandelt das Konzept der ODEs im maschinellen Lernen, die die Ableitung einer Funktion anhand ihrer Eingabe beschreiben und Systeme modellieren, die sich im Laufe der Zeit entwickeln. Er diskutiert die Herausforderungen beim Lösen von ODEs und stellt numerische Methoden wie Vorwärts-Euler und Rückwärts-Euler und ihre Stabilitätseigenschaften vor. Bosch untersucht verschiedene numerische Methoden und ihre Kompromisse in Genauigkeit und Komplexität, wie z. B. explizite Mittelpunkt- und klassische Methoden vierter Ordnung. Er betont die Bedeutung lokaler Fehler, Ordnung und Verständnisstabilität, um Probleme bei der Verwendung von Bibliotheken zur Lösung von ODEs zu vermeiden.
In diesem zweiten Teil des Videos wird das Problem der Schätzung des Vektorfelds und des Anfangswerts einer gewöhnlichen Differentialgleichung (ODE) mithilfe von Techniken des maschinellen Lernens erörtert. Der Referent erklärt, wie wichtig es ist, das generative Modell und das Beobachtungsmodell für die Zustände der ODE aufzuschreiben, um das Inferenzproblem zu lösen. Die Likelihood-Funktion wird maximiert, indem die negative Log-Likelihood minimiert wird, was eine Parameterschätzung ergibt. Der Referent demonstriert diesen Ansatz anhand eines SIR-D-Modells und diskutiert die Verwendung neuronaler Netze zur Verbesserung der Schätzung der Kontaktrate. Die Bedeutung von ODEs in der maschinellen Lernforschung und ihre Rolle bei der Lösung realer Probleme wird ebenfalls hervorgehoben.
Vorlesung 7 -- Probabilistische numerische ODE-Löser -- Nathanael Bosch
Numerik von ML 7 -- Probabilistische numerische ODE-Löser -- Nathanael Bosch
In diesem Video stellt Nathanael Bosch das Konzept probabilistischer numerischer ODE-Löser vor, die Zustandsschätzung und numerische ODE-Löser kombinieren, um Verteilungen über die Zustände oder ODE-Lösungen bereitzustellen. Bosch erklärt, wie ein Q-mal integrierter Wiener-Prozess verwendet werden kann, um die wahre Lösung zu modellieren, und wie dieser Prozess die Quantifizierung und Weitergabe von Unsicherheiten im System ermöglicht. Anschließend demonstriert er, wie erweiterte Kalman-Filter zum Lösen von ODEs verwendet werden und wie sich Schrittgrößen auf die Fehlerschätzungen auswirken. Das Video endet mit einer Diskussion über die Unsicherheitskalibrierung und die Verwendung des erweiterten Kalman-Filters zur Schätzung von Parametern in nichtlinearen Zustandsraummodellen.
Im zweiten Teil der Vorlesung spricht Nathanael Bosch über die Vorteile der Verwendung probabilistischer Methoden zur Lösung von ODEs, einschließlich der Gewinnung aussagekräftiger Unsicherheitsschätzungen und der Flexibilität, zusätzliche Modellmerkmale wie Anfangswerte einzubeziehen. Er demonstriert diesen Ansatz an Beispielen wie dem harmonischen Oszillator und algebraischen Differentialgleichungen. Bosch zeigt auch, wie das Einbeziehen zusätzlicher Informationen und die Verwendung probabilistischer Techniken zu aussagekräftigeren Ergebnissen führen können, indem ein Beispiel eines Epidemiemodells verwendet wird, das die Daten mit herkömmlichen skalaren Methoden nicht genau darstellen konnte. Er verwendet erweiterte Kalman-Filter und -Glättungsmittel, um ODEs durch Zustandsschätzung zu lösen, wobei er die Schätzung als probabilistisches Problem behandelt, und betont, wie wichtig es ist, bei der Entscheidungsfindung Bayesianisch zu sein.
Vorlesung 8 -- Partielle Differentialgleichungen -- Marvin Pförtner
Numerik von ML 8 -- Partielle Differentialgleichungen -- Marvin Pförtner
Marvin Pförtner diskutiert partielle Differentialgleichungen (PDEs) und ihre Bedeutung bei der Modellierung verschiedener realer Systeme. Er erklärt, wie PDEs den Mechanismus eines Systems mit einer unbekannten Funktion und einem linearen Differentialoperator darstellen, aber eine Lösung für Parameter erfordern, die oft unbekannt sind. Gaußsche Prozessinferenz kann verwendet werden, um PDE-Modelle zu analysieren und mechanistisches Wissen in statistische Modelle einzubringen. Pförtner untersucht die Wärmeverteilung in einer Zentraleinheit in einem Computer, indem er das Modell auf eine 2-dimensionale Wärmeverteilung beschränkt und Annahmen für das Modell darstellt. Die Vorlesung behandelt auch die Verwendung von Gaußschen Prozessen zur Lösung von PDEs und das Hinzufügen realistischer Randbedingungen zur Modellierung von Unsicherheit. Insgesamt ermöglicht uns der GP-Ansatz in Kombination mit dem Begriff eines Informationsoperators, Vorwissen über das Verhalten des Systems einzubeziehen, mechanistisches Wissen in Form einer linearen PDE einzufügen und Randbedingungen und rechte Seiten zu handhaben.
Im zweiten Teil dieses Videos erläutert Marvin Pförtner die Verwendung von Gaußschen Prozessen zur Lösung partieller Differentialgleichungen (PDEs) durch Schätzung eines Wahrscheinlichkeitsmaßes über Funktionen anstelle einer Punktschätzung. Er erklärt die Vorteile der Unsicherheitsquantifizierung und stellt fest, dass dieser Ansatz ehrlicher ist, weil er die Unsicherheit bei der Schätzung der Funktion auf der rechten Seite der PDE anerkennt. Pförtner erklärt auch den in der Praxis nützlichen Matern-Kern, der die Differenzierbarkeit des GP steuern kann, und liefert eine Formel zur Berechnung des Parameters P für den Matern-Kern. Er erklärt ferner, wie man einen d-dimensionalen Kernel für PDEs konstruiert, indem man Produkte von eindimensionalen Matern-Kerneln über die Dimensionen nimmt, und wie wichtig es ist, bei der Modellkonstruktion mathematisch vorsichtig zu sein.
Vortrag 9 -- Monte Carlo -- Philipp Hennig
Numerik von ML 9 -- Monte Carlo -- Philipp Hennig
In diesem Video zum Thema Monte Carlo erklärt Philipp Hennig, dass die Integration ein grundlegendes Problem des maschinellen Lernens ist, wenn es um Bayes'sche Inferenz mit dem Satz von Bayes geht. Er stellt den Monte-Carlo-Algorithmus als eine spezifische Art der Integration vor und gibt einen kurzen Überblick über die Geschichte der Methode. Er diskutiert auch die Eigenschaften von Monte-Carlo-Algorithmen, wie z. B. unverzerrte Schätzung und Varianzreduktion bei einer Erhöhung der Anzahl von Stichproben. Darüber hinaus geht Hennig auf den Metropolis-Hastings-Algorithmus, Markov Chain Monte Carlo und Hamiltonian Monte Carlo ein und gibt einen Überblick über die Eigenschaften der einzelnen Algorithmen und wie sie bei der Stichprobenziehung aus einer Wahrscheinlichkeitsverteilung funktionieren. Letztendlich weist Hennig darauf hin, wie wichtig es ist, zu verstehen, warum Algorithmen verwendet werden, anstatt sie blind anzuwenden, um optimale und effiziente Ergebnisse zu erzielen.
Im zweiten Teil des Videos diskutiert Philipp Hennig Monte-Carlo-Methoden für hochdimensionale Verteilungen, insbesondere den No-U-Turn-Sampler (NUTS)-Algorithmus, der das Problem mit der U-Turn-Idee überwindet, das detaillierte Gleichgewicht zu brechen. Hennig betont, dass diese Algorithmen zwar komplex und schwierig zu implementieren sind, sie aber zu verstehen, um sie effektiv einzusetzen, entscheidend ist. Er stellt auch den reflexartigen Ansatz zur Berechnung erwarteter Werte mit Monte-Carlo-Methoden in Frage und schlägt vor, dass es andere Möglichkeiten geben könnte, ohne Zufälligkeit zu approximieren. Hennig diskutiert das Konzept und die Grenzen der Zufälligkeit, das Fehlen von Konvergenzraten für Monte-Carlo-Methoden und schlägt die Notwendigkeit vor, andere Methoden für maschinelles Lernen in Betracht zu ziehen, anstatt sich auf deterministische Zufälligkeit zu verlassen.
Vorlesung 10 -- Bayes'sche Quadratur -- Philipp Hennig
Numerik von ML 10 -- Bayes'sche Quadratur -- Philipp Hennig
In diesem Video diskutiert Philipp Hennig die Bayessche Quadratur als effiziente Methode für das Berechnungsproblem der Integration beim maschinellen Lernen. Er erklärt, wie eine reellwertige Funktion eindeutig identifiziert werden kann, aber es schwierig ist, Fragen direkt zu beantworten. Die Bayessche Quadratur ist eine Inferenzmethode, die das Problem des Auffindens eines Integrals als Inferenzproblem behandelt, indem sie ein Prior über das unbekannte Objekt und die berechenbaren Größen setzt und dann die Bayessche Inferenz durchführt. Hennig vergleicht diesen Ansatz auch mit der Monte-Carlo-Ablehnung und dem Wichtigkeits-Sampling und zeigt, wie die Bayes'sche Quadratur die klassischen Quadraturregeln übertreffen kann. Die Vorlesung behandelt den Kalman-Filteralgorithmus für die Bayes'sche Quadratur und seine Verbindung zu klassischen Integrationsalgorithmen, mit einer Diskussion über die Verwendung von Unsicherheitsschätzungen in numerischen Verfahren. Schließlich untersucht Hennig, wie sich die soziale Struktur der numerischen Berechnung auf das Algorithmendesign auswirkt, diskutiert eine Methode zum Entwerfen von Berechnungsmethoden für bestimmte Probleme und wie probabilistisches maschinelles Lernen den Fehler in Echtzeit abschätzen kann.
Im zweiten Teil des Videos diskutiert Philipp Hennig die Bayessche Quadratur, bei der es darum geht, Größen, die uns wichtig sind, wie Integrale und Algorithmuswerte, vorher zu verteilen, um etwas auf Bayessche Weise zu berechnen. Das Verfahren ordnet den Schätzungen sowohl eine spätere Schätzung als auch eine Unsicherheitsschätzung zu, die mit klassischen Methoden identifiziert werden können. Hennig erklärt, wie sich der Algorithmus an die beobachtete Funktion anpasst und anhand eines aktiven Lernverfahrens bestimmt, wo als nächstes ausgewertet werden soll. Dieser Algorithmus kann in höheren Dimensionen arbeiten und hat einige nicht trivial intelligente Konvergenzraten. Er diskutiert auch Einschränkungen klassischer Algorithmen und Quadraturregeln und schlägt eine Problemumgehung durch adaptive Argumentation vor.
Vorlesung 11 – Optimierung für Deep Learning – Frank Schneider
Numerik von ML 11 – Optimierung für Deep Learning – Frank Schneider
Frank Schneider diskutiert die Herausforderungen der Optimierung für Deep Learning und betont die Komplexität des Trainings neuronaler Netze und die Bedeutung der Auswahl der richtigen Optimierungsmethoden und Algorithmen. Er weist auf die überwältigende Anzahl verfügbarer Methoden und die Schwierigkeit hin, verschiedene Algorithmen zu vergleichen und zu bewerten. Schneider bietet Beispiele aus der Praxis für das erfolgreiche Training großer Sprachmodelle und die Notwendigkeit von nicht standardmäßigen Lernratenplänen und Änderungen während des Flugs, damit das Modell erfolgreich trainiert werden kann. Schneider betont, wie wichtig es ist, den Benutzern mehr Einblick in die Verwendung dieser Methoden und die Auswirkungen von Hyperparametern auf den Trainingsprozess sowie die Erstellung von Benchmarking-Übungen zu geben, um Praktikern bei der Auswahl der besten Methode für ihren spezifischen Anwendungsfall zu helfen. Er diskutiert auch neuere Methoden wie Alpha und wie sie genutzt werden können, um den Trainingsprozess für ein neuronales Netzwerk zu steuern.
Im zweiten Teil des Videos zur Numerik der Optimierung für Deep Learning stellt Frank Schneider das „Deep Debugger“-Tool Cockpit vor, das zusätzliche Instrumente bereitstellt, um Probleme im Trainingsprozess zu erkennen und zu beheben, wie z. B. Datenfehler und Modellblöcke. Er erklärt die Bedeutung der Normalisierung von Daten für optimale Hyperparameter, die Beziehung zwischen Lernraten und Testgenauigkeit und die Herausforderungen beim Training neuronaler Netze mit Stochastik. Schneider ermutigt die Studierenden, daran zu arbeiten, das Training neuronaler Netze zu verbessern, indem sie den Gradienten als Verteilung betrachten und langfristig bessere autonome Methoden entwickeln.
Vorlesung 12 -- Optimierung zweiter Ordnung für Deep Learning -- Lukas Tatzel
Numerik von ML 12 – Optimierung zweiter Ordnung für Deep Learning – Lukas Tatzel
In diesem Video erklärt Lukas Tatzel Optimierungsmethoden zweiter Ordnung für Deep Learning und deren potenziellen Nutzen. Er vergleicht die Trajektorien und Konvergenzraten von drei Optimierungsverfahren – SGD, Adam und LBFGS – am Beispiel der Rosenberg-Funktion in 2D. Tatzel merkt an, dass das sprunghafte Verhalten von SGD im Vergleich zu den gut informierten Schritten von LBFGS eine langsamere Konvergenz bewirkt. Er stellt den Newton-Schritt als schnelleres Verfahren zur Optimierung vor und diskutiert dessen Grenzen, wie etwa die Abhängigkeit von der Konditionszahl. Tatzel erklärt auch das Konzept der verallgemeinerten Gauß-Newton-Matrix (GGN) als Annäherung an die Hesse für den Umgang mit schlecht konditionierten Problemen. Darüber hinaus erörtert er das Problem der Vertrauensregion, den Umgang mit nicht-konvexen Zielfunktionen und den Hessian-freien Ansatz, der CG zur Minimierung quadratischer Funktionen verwendet.
In diesem zweiten Teil des Videos werden Optimierungstechniken zweiter Ordnung für Deep Learning untersucht, darunter BFGS und LBFGS, hessische Optimierung und KFC. Der Referent erklärt, dass der Hesse-freie Ansatz das Modell unter Verwendung des Jacobi-Vektorprodukts linearisiert, während KFC eine ungefähre Krümmung basierend auf offiziellen Informationsmetriken ist. Bei diesen Methoden können jedoch Stochastik und Verzerrungen auftreten, und es wird empfohlen, diese Probleme zu dämpfen. Der Referent schlägt die Verwendung spezialisierter Algorithmen vor, die umfangreichere Mengen wie Verteilungen verwenden können, um Aktualisierungen vorzunehmen, und stellt fest, dass das grundlegende Problem der Stochastik ungelöst bleibt. Insgesamt bieten Optimierungsmethoden zweiter Ordnung eine Teillösung für die Herausforderungen des Deep Learning.