Está perdiendo oportunidades comerciales:
- Aplicaciones de trading gratuitas
- 8 000+ señales para copiar
- Noticias económicas para analizar los mercados financieros
Registro
Entrada
Usted acepta la política del sitio web y las condiciones de uso
Si no tiene cuenta de usuario, regístrese
Numerics of Machine Learning en la Universidad de Tübingen en el trimestre de invierno de 2022/23. Clase 1 - Introducción -- Philipp Hennig
Numéricos de ML 1 -- Introducción -- Philipp Hennig
En este video, Philipp Hennig analiza la importancia de comprender los algoritmos numéricos en el aprendizaje automático y presenta el contenido del curso para el término. El primer algoritmo numérico cubierto es el álgebra lineal, con una aplicación en la regresión de procesos gaussiana. Hennig también analiza el papel de la simulación, las ecuaciones diferenciales, la integración y la optimización en el aprendizaje automático. Introduce nuevos desarrollos en algoritmos numéricos, como espinas algorítmicas, observables y algoritmos numéricos probabilísticos. A lo largo del video, Hennig enfatiza la importancia de actualizar los algoritmos clásicos utilizados en el aprendizaje automático para resolver problemas complejos y destaca el papel de escribir código en esta clase de informática.
Philipp Hennig presenta su curso sobre Numerics of Machine Learning, cuyo objetivo es explorar cómo funcionan los algoritmos de aprendizaje automático dentro de la caja y cómo se pueden adaptar o cambiar para mejorar las máquinas de aprendizaje. El conocimiento altamente técnico en algoritmos numéricos y algoritmos de aprendizaje automático es muy buscado por investigadores y profesionales de la industria. El curso consistirá en teoría y trabajo de codificación, con tareas calificadas en un sistema binario. Hennig enfatiza la importancia de los algoritmos numéricos en el aprendizaje automático e invita a los estudiantes a unirse a este experimento de enseñanza único con nueve instructores diferentes.
Clase 2 -- Álgebra Lineal Numérica -- Marvin Pförtner
Numéricos de ML 2 -- Álgebra Lineal Numérica -- Marvin Pförtner
El álgebra lineal numérica es fundamental para el aprendizaje automático, los procesos gaussianos y otros métodos de regresión no paramétricos. La conferencia cubre varios aspectos del álgebra lineal numérica, incluida la importancia de comprender la estructura de una matriz para una multiplicación más eficiente, la optimización de algoritmos de aprendizaje automático mediante la resolución de problemas de selección de hiperparámetros y el cálculo de matrices kernel, y la solución de un sistema lineal utilizando el descomposición LU, entre otros. La conferencia también enfatiza la importancia de implementar algoritmos correctamente, ya que el algoritmo utilizado para las operaciones matemáticas tiene un impacto significativo en el rendimiento, la estabilidad y el consumo de memoria.
En la segunda parte del video, Marvin Pförtner analiza la importancia del álgebra lineal numérica en los algoritmos de aprendizaje automático. Cubre varios temas, incluida la descomposición LU, la descomposición de Cholesky, el lema de inversión de matriz y el proceso de regresión gaussiana. Pförtner enfatiza la importancia de utilizar la estructura para hacer que los algoritmos sean más eficientes y destaca la importancia de la estabilidad numérica para resolver grandes sistemas de ecuaciones en el proceso de regresión gaussiana. También analiza técnicas como el aprendizaje activo y las aproximaciones de bajo rango para manejar grandes conjuntos de datos y las posibles limitaciones de memoria de las matrices del kernel. En general, el video muestra el papel crucial que juega el álgebra lineal numérica en muchos aspectos del aprendizaje automático.
Clase 3 -- Escalamiento de procesos gaussianos -- Jonathan Wenger
Numéricos de ML 3 -- Escalamiento de procesos gaussianos -- Jonathan Wenger
Jonathan Wenger analiza técnicas para escalar procesos gaussianos para grandes conjuntos de datos en el video "Numerics of ML 3". Explora métodos iterativos para resolver sistemas lineales y aprender la matriz inversa, con el objetivo principal de lograr generalización, simplicidad/interpretabilidad, estimaciones de incertidumbre y velocidad. Wenger introduce aproximaciones de bajo rango a la matriz kernel, como la descomposición iterativa de Cholesky, Cholesky parcial y métodos de gradiente conjugado. También analiza el preacondicionamiento para acelerar la convergencia y mejorar la estabilidad cuando se trata de grandes conjuntos de datos. Finalmente, propone usar una matriz ortogonal Z para reescribir la traza de una matriz, lo que potencialmente podría conducir a un tiempo cuadrático para escalar procesos gaussianos.
En la segunda parte de la conferencia, Jonathan Wenger analiza el escalado de procesos gaussianos (GP) para grandes conjuntos de datos en este video. Presenta varias estrategias para mejorar la tasa de convergencia de las estimaciones de Monte Carlo para la regresión GP, incluido el uso de precondicionadores existentes para la solución del sistema lineal para estimar la matriz kernel y su inversa. También introduce la idea de GP de tiempo lineal a través de la aproximación variacional y aborda la cuantificación de la incertidumbre utilizando el método de punto de inducción. Mediante el uso de estas estrategias, es posible escalar a conjuntos de datos con hasta un millón de puntos de datos con la GPU, lo que facilita la optimización rápida de los hiperparámetros.
Clase 4 -- Procesos gaussianos conscientes de la computación -- Jonathan Wenger
Numéricos de ML 4 -- Procesos gaussianos conscientes de la computación -- Jonathan Wenger
En este video sobre Numerics of ML, Jonathan Wenger analiza los procesos gaussianos conscientes de la computación y su capacidad para cuantificar el error de aproximación y la incertidumbre en las predicciones. Explora la importancia de elegir las acciones correctas y cómo los gradientes conjugados pueden reducir significativamente la incertidumbre y acelerar el aprendizaje. Wenger también habla sobre el uso de aproximaciones GP de tiempo lineal basadas en puntos de inducción, pero destaca los problemas que surgen de tales aproximaciones. Finalmente, analiza la actualización de las creencias sobre los pesos representativos y el uso de algoritmos de aprendizaje probabilístico para resolver el error en los pesos representativos. En general, el video demuestra la efectividad de los procesos gaussianos conscientes de la computación para mejorar la precisión de las predicciones al tener en cuenta las incertidumbres computacionales.
Jonathan Wenger también analiza el proceso gaussiano consciente de la computación y su complejidad en este video. Explica que solo es necesario calcular y almacenar el cuadrante superior de la matriz kernel, y el costo computacional del algoritmo es proporcional al tamaño de este cuadrante. El proceso gaussiano se puede usar en conjuntos de datos de tamaño arbitrario, siempre que los cálculos apunten solo a ciertos puntos de datos, borrando la línea entre los datos y el cálculo. Wenger argumenta que el GP se puede modelar para dar cuenta de esta situación condicionando los datos proyectados. Introduce un nuevo teorema que permite la cuantificación exacta de la incertidumbre con un modelo aproximado. Finalmente, anticipa la conferencia de la próxima semana sobre la extensión del modelo GP a los casos en los que una ley física gobierna parcialmente la función que se está aprendiendo.
Clase 5 -- Modelos de espacio de estado -- Jonathan Schmidt
Numéricos de ML 5 -- Modelos de espacio de estado -- Jonathan Schmidt
En esta sección, Jonathan Schmidt presenta los modelos de espacio de estado y su aplicación al aprendizaje automático. Explica que los modelos de espacio de estado se utilizan para modelar sistemas dinámicos complejos, que solo son parcialmente observables e involucran interacciones altamente no lineales. La conferencia cubre la representación gráfica de los modelos de espacio de estado y las propiedades importantes de la propiedad de Markov y las medidas condicionalmente independientes. Schmidt presenta diferentes algoritmos para calcular varias distribuciones, como distribuciones de predicción, filtrado y suavizado, que se utilizan para estimar el estado de un sistema, utilizando mediciones obtenidas en diferentes puntos en el tiempo. La conferencia también cubre la implementación de algoritmos de filtro de Kalman en Julia y el cálculo de estimaciones de suavizado en modelos lineales de espacio de estado gaussiano. Finalmente, Schmidt analiza el filtro de Kalman extendido, que permite la estimación de dinámicas no lineales y mediciones en modelos de espacio de estado.
Jonathan Schmidt también analiza los modelos de espacio de estado y su implementación mediante código, centrándose específicamente en la dinámica no lineal y el filtro de Kalman extendido. También demuestra algoritmos de suavizado y métodos alternativos de filtrado bayesiano, destacando sus ventajas y desventajas. La lección concluye con una recomendación para seguir aprendiendo y anticipando la próxima lección, donde Nathaniel presentará los números probabilísticos para simular sistemas dinámicos.
Clase 6 -- Resolviendo Ecuaciones Diferenciales Ordinarias -- Nathanael Bosch
Numéricos de ML 6 -- Resolución de ecuaciones diferenciales ordinarias -- Nathanael Bosch
Nathanael Bosch cubre el concepto de ODE en el aprendizaje automático, que describe la derivada de una función dada su entrada y modela sistemas que evolucionan con el tiempo. Discute los desafíos de resolver ODE e introduce métodos numéricos, como Euler directo y Euler inverso, y sus propiedades de estabilidad. Bosch explora diferentes métodos numéricos y sus compensaciones en precisión y complejidad, como el punto medio explícito y los métodos clásicos de cuarto orden. Enfatiza la importancia del error local, el orden y la comprensión de la estabilidad para evitar problemas al usar bibliotecas para resolver ODE.
Esta segunda parte del video trata el problema de estimar el campo vectorial y el valor inicial de una ecuación diferencial ordinaria (EDO) utilizando técnicas de aprendizaje automático. El ponente explica la importancia de escribir el modelo generativo y el modelo de observación de los estados de la EDO para resolver el problema de inferencia. La función de verosimilitud se maximiza minimizando el logaritmo de verosimilitud negativo, lo que produce una estimación del parámetro. El orador demuestra este enfoque utilizando un modelo SIR-D y analiza el uso de redes neuronales para mejorar la estimación de la tasa de contacto. También se destaca la importancia de las ODE en la investigación del aprendizaje automático y su papel en la resolución de problemas del mundo real.
Clase 7 -- Solucionadores numéricos probabilísticos de ODE -- Nathanael Bosch
Numéricos de ML 7 -- Solucionadores de EDO numéricos probabilísticos -- Nathanael Bosch
En este video, Nathanael Bosch presenta el concepto de solucionadores de ODE numéricos probabilísticos, que combinan la estimación de estado y los solucionadores de ODE numéricos para proporcionar distribuciones sobre los estados o soluciones de ODE. Bosch explica cómo se puede utilizar un proceso de Wiener integrado Q veces para modelar la solución real y cómo este proceso permite cuantificar y propagar incertidumbres en el sistema. Luego demuestra cómo usar filtros de Kalman extendidos para resolver ODE y cómo los tamaños de paso afectan las estimaciones de error. El video termina con una discusión sobre la calibración de la incertidumbre y el uso del filtro de Kalman extendido para estimar parámetros en modelos de espacio de estado no lineales.
En la segunda parte de la conferencia, Nathanael Bosch habla sobre los beneficios de usar métodos probabilísticos para resolver ODE, incluida la obtención de estimaciones de incertidumbre significativas y la flexibilidad de incluir características adicionales del modelo, como valores iniciales. Demuestra este enfoque con ejemplos como el oscilador armónico y las ecuaciones algebraicas diferenciales. Bosch también muestra cómo la inclusión de información adicional y el uso de técnicas probabilísticas pueden conducir a resultados más significativos, usando un ejemplo de un modelo epidémico que no pudo representar con precisión los datos usando métodos escalares tradicionales. Utiliza filtros y suavizadores de Kalman extendidos para resolver ODE a través de la estimación de estado, tratando la estimación como un problema probabilístico y destaca la importancia de ser bayesiano en la toma de decisiones.
Clase 8 -- Ecuaciones en derivadas parciales -- Marvin Pförtner
Numéricos de ML 8 -- Ecuaciones en derivadas parciales -- Marvin Pförtner
Marvin Pförtner analiza las ecuaciones diferenciales parciales (PDE) y su importancia en el modelado de varios sistemas del mundo real. Explica cómo las PDE representan el mecanismo de un sistema con una función desconocida y un operador diferencial lineal, pero requieren resolver parámetros que a menudo se desconocen. La inferencia de procesos gaussianos se puede utilizar para analizar modelos PDE e inyectar conocimiento mecanicista en modelos estadísticos. Pförtner examina la distribución de calor en una unidad central de procesamiento en una computadora restringiendo el modelo a una distribución de calor bidimensional y presentando suposiciones hechas para el modelo. La conferencia también cubre el uso de procesos gaussianos para resolver PDE y agregar condiciones de contorno realistas para modelar la incertidumbre. En general, el enfoque GP combinado con la noción de un operador de información nos permite incorporar conocimiento previo sobre el comportamiento del sistema, inyectar conocimiento mecanicista en forma de PDE lineal y manejar condiciones de contorno y lados derechos.
En la segunda parte de este video, Marvin Pförtner analiza el uso de procesos gaussianos para resolver ecuaciones diferenciales parciales (PDE) mediante la estimación de una medida de probabilidad sobre funciones en lugar de una estimación puntual. Explica los beneficios de la cuantificación de la incertidumbre y señala que este enfoque es más honesto porque reconoce la incertidumbre en la estimación de la función del lado derecho de la PDE. Pförtner también explica el kernel de Matern, que es útil en la práctica y puede controlar la diferenciabilidad del GP, y proporciona una fórmula para calcular el parámetro P para el kernel de Matern. Explica además cómo construir un kernel d-dimensional para PDE tomando productos de kernels Matern unidimensionales sobre las dimensiones y la importancia de ser matemáticamente cuidadoso en la construcción del modelo.
Clase 9 -- Monte Carlo -- Philipp Hennig
Números de ML 9 -- Monte Carlo -- Philipp Hennig
En este video sobre el tema de Monte Carlo, Philipp Hennig explica cómo la integración es un problema fundamental en el aprendizaje automático cuando se trata de la inferencia bayesiana utilizando el teorema de Bayes. Presenta el algoritmo de Monte Carlo como una forma específica de realizar la integración y proporciona una breve historia del método. También analiza las propiedades de los algoritmos de Monte Carlo, como la estimación imparcial y la reducción de la varianza con un aumento en el número de muestras. Además, Hennig profundiza en el algoritmo Metropolis-Hastings, Markov Chain Monte Carlo y Hamiltonian Monte Carlo, brindando una descripción general de las propiedades de cada algoritmo y cómo funcionan al tomar muestras de una distribución de probabilidad. En última instancia, Hennig destaca la importancia de comprender por qué se utilizan los algoritmos, en lugar de aplicarlos a ciegas, para lograr resultados óptimos y eficientes.
En la segunda parte del video, Philipp Hennig analiza los métodos de Monte Carlo para distribuciones de alta dimensión, específicamente el algoritmo No U-turn Sampler (NUTS) que resuelve el problema con la idea de U-turn de romper el equilibrio detallado. Hennig enfatiza que, si bien estos algoritmos son complejos y difíciles de implementar, comprenderlos es crucial para usarlos de manera efectiva. También cuestiona el enfoque instintivo para calcular los valores esperados utilizando los métodos de Monte Carlo y sugiere que puede haber otras formas de aproximarse sin aleatoriedad. Hennig analiza el concepto y las limitaciones de la aleatoriedad, la falta de tasas de convergencia para los métodos de Monte Carlo y propone la necesidad de considerar otros métodos para el aprendizaje automático en lugar de confiar en la aleatoriedad determinista.
Clase 10 -- Cuadratura bayesiana -- Philipp Hennig
Numéricos de ML 10 -- Cuadratura bayesiana -- Philipp Hennig
En este video, Philipp Hennig analiza la cuadratura bayesiana como un método eficiente para el problema computacional de la integración en el aprendizaje automático. Explica cómo una función de valor real puede identificarse de manera única pero es difícil responder preguntas directamente. La cuadratura bayesiana es un método de inferencia que trata el problema de encontrar una integral como un problema de inferencia colocando una prioridad sobre el objeto desconocido y las cantidades que se pueden calcular, luego realiza una inferencia bayesiana. Hennig también compara este enfoque con el rechazo de Monte Carlo y el muestreo de importancia, mostrando cómo la cuadratura bayesiana puede superar las reglas de cuadratura clásica. La conferencia cubre el algoritmo de filtro de Kalman para la cuadratura bayesiana y su conexión con los algoritmos de integración clásicos, con una discusión sobre el uso de estimaciones de incertidumbre en métodos numéricos. Finalmente, Hennig explora cómo la estructura social de la computación numérica afecta el diseño de algoritmos, analiza un método para diseñar métodos computacionales para problemas específicos y cómo el aprendizaje automático probabilístico puede estimar el error en tiempo real.
En la segunda parte del video, Philipp Hennig analiza la cuadratura bayesiana, que implica poner distribuciones previas sobre las cantidades que nos interesan, como integrales y valores de algoritmos, para calcular algo de forma bayesiana. El método asigna tanto una estimación posterior como una estimación de la incertidumbre en torno a las estimaciones, que pueden identificarse con los métodos clásicos. Hennig explica cómo el algoritmo se adapta a la función observada y utiliza un procedimiento de aprendizaje activo para determinar dónde evaluar a continuación. Este algoritmo puede funcionar en dimensiones más altas y tiene algunas tasas de convergencia inteligentes no triviales. También analiza las limitaciones de los algoritmos clásicos y las reglas de cuadratura y propone una solución mediante el razonamiento adaptativo.