Redes Neurais em IA e Deep Learning - página 41

 

Numerics of Machine Learning en la Universidad de Tübingen en el trimestre de invierno de 2022/23. Clase 1 - Introducción -- Philipp Hennig



Numéricos de ML 1 -- Introducción -- Philipp Hennig

En este video, Philipp Hennig analiza la importancia de comprender los algoritmos numéricos en el aprendizaje automático y presenta el contenido del curso para el término. El primer algoritmo numérico cubierto es el álgebra lineal, con una aplicación en la regresión de procesos gaussiana. Hennig también analiza el papel de la simulación, las ecuaciones diferenciales, la integración y la optimización en el aprendizaje automático. Introduce nuevos desarrollos en algoritmos numéricos, como espinas algorítmicas, observables y algoritmos numéricos probabilísticos. A lo largo del video, Hennig enfatiza la importancia de actualizar los algoritmos clásicos utilizados en el aprendizaje automático para resolver problemas complejos y destaca el papel de escribir código en esta clase de informática.

Philipp Hennig presenta su curso sobre Numerics of Machine Learning, cuyo objetivo es explorar cómo funcionan los algoritmos de aprendizaje automático dentro de la caja y cómo se pueden adaptar o cambiar para mejorar las máquinas de aprendizaje. El conocimiento altamente técnico en algoritmos numéricos y algoritmos de aprendizaje automático es muy buscado por investigadores y profesionales de la industria. El curso consistirá en teoría y trabajo de codificación, con tareas calificadas en un sistema binario. Hennig enfatiza la importancia de los algoritmos numéricos en el aprendizaje automático e invita a los estudiantes a unirse a este experimento de enseñanza único con nueve instructores diferentes.

  • 00:00:00 En esta sección, Philipp Hennig presenta la importancia de comprender los algoritmos numéricos en el aprendizaje automático. Mientras que los algoritmos de aprendizaje automático toman datos como entrada y producen modelos que predicen o actúan en el mundo, el proceso de aprendizaje real implica cálculos numéricos. A diferencia de los algoritmos de IA clásicos, los algoritmos de aprendizaje automático contemporáneos utilizan algoritmos numéricos como el álgebra lineal, la simulación, la integración y los métodos de optimización como elementos básicos para estos cálculos. Philipp define los algoritmos numéricos como métodos que estiman una cantidad matemática que no tiene una solución de forma cerrada y puede salir mal a diferencia de las operaciones atómicas que siempre funcionan. Dado que los algoritmos numéricos son fundamentales para el aprendizaje automático, es importante comprenderlos para garantizar que funcionen correctamente.

  • 00:05:00 En esta sección, el disertante analiza la diferencia entre las funciones regulares y los algoritmos numéricos, señalando que estos últimos tienden a tener sus propias bibliotecas y varias subrutinas para elegir. Luego proporciona un ejemplo de un algoritmo numérico prototípico escrito en 1993 en el lenguaje Forth, que implementa un algoritmo inventado por dos matemáticos en 1975. Esto destaca el hecho de que los algoritmos numéricos son antiguos y tienen interfaces precisas, lo que los hace difíciles de modificar. Los ingenieros de aprendizaje automático se encuentran con frecuencia con tareas numéricas y han podido utilizar estos algoritmos antiguos desarrollados por otros campos, pero esto puede ser problemático si la tarea en cuestión no coincide con las capacidades del método. El orador sugiere que esto puede convertirse en un problema en el aprendizaje automático cuando se trata de resolver problemas para los que los métodos numéricos existentes no son suficientes.

  • 00:10:00 En esta sección, Philipp Hennig presenta el tema de los algoritmos numéricos y el contenido del curso para el trimestre. El álgebra lineal, la capa base del aprendizaje automático, es el primer algoritmo numérico que cubren. Un ejemplo de su aplicación es en la regresión de procesos gaussianos, donde se utilizan dos funciones para la inferencia: media posterior y función de covarianza posterior. Estas funciones se definen mediante métodos kernel y su implementación implica el método de descomposición de Cholesky en lugar de calcular la inversa de una matriz. Hennig también presenta un fragmento de código de Python y explica por qué se debe usar la descomposición de Cholesky en lugar de calcular la inversa de una matriz.

  • 00:15:00 En esta sección del video, el orador Philipp Hennig analiza el problema con las máquinas kernel, en particular con respecto a su incapacidad para escalar bien a grandes cantidades de datos. Él explica que los costosos cálculos requeridos para las máquinas kernel las hacen difíciles de usar en el aprendizaje automático contemporáneo. Sin embargo, Hennig también sugiere que existen otros algoritmos de álgebra lineal que se pueden usar para acelerar los cálculos aprovechando la estructura y las aproximaciones de los conjuntos de datos, lo que en última instancia conduce a soluciones con regresión de procesos gaussianos que escalan a grandes conjuntos de datos.

  • 00:20:00 En esta sección, Philipp Hennig presenta los algoritmos de simulación y su función en el aprendizaje automático. Los métodos de simulación simulan la trayectoria de un sistema dinámico a lo largo del tiempo y pueden estimar X. Aparecen en el aprendizaje automático cuando se crean agentes, como un automóvil autónomo, o cuando se crea un algoritmo de aprendizaje automático que utiliza información física, como la científica. aprendizaje automático. Las ecuaciones diferenciales, como la ecuación de Schrödinger, suelen utilizarse para codificar el conocimiento de la naturaleza. Además, Hennig proporciona un ejemplo de un problema de predicción simple de los casos de COVID-19 en Alemania durante un año y medio para explicar por qué las redes neuronales profundas y los procesos gaussianos no funcionan para resolver este problema.

  • 00:25:00 En esta sección, Philipp Hennig analiza el uso de ecuaciones diferenciales en sistemas de modelado, específicamente los modelos SIR que se usan comúnmente en simulaciones, y el desafío de incorporar dinámicas del mundo real, como bloqueos, en estos modelos. Sugiere usar una red neuronal para hacer que el coeficiente beta dependa del tiempo, pero señala la dificultad de hacerlo debido a la falta de derivados en el código. Sin embargo, destaca el reciente desarrollo de un algoritmo en Jax que soluciona este problema.

  • 00:30:00 En esta sección, Philipp Hennig analiza un algoritmo llamado inferencia basada en simulación, que es una forma actual de resolver problemas complejos. Este algoritmo implica un bucle for anidado que evalúa la función f varias veces y devuelve el gradiente y realiza un paso de descenso del gradiente. Hennig explica que para crear un algoritmo más flexible y rápido que este código primitivo, podemos construir nuestro propio método que construya una lista de números dentro del código de fotones de forma procedimental y los adapte. Este método implica una columna vertebral de una cadena de Markov que puede colgar operadores, como la distribución de probabilidad y los operadores de información, para informar al algoritmo sobre factores desconocidos. Al hacer esto, podemos resolver estos problemas sin llamar a un bucle for una y otra vez en un bucle externo, lo que llevaría mucho tiempo.

  • 00:35:00 En esta sección, Philipp Hennig analiza la importancia de actualizar los algoritmos clásicos utilizados en el aprendizaje automático, que tienen más de 100 años. Introduce la idea de espinas algorítmicas que pueden operar en diferentes operadores de información y pueden crear nuevas funcionalidades. Hennig luego pasa a discutir el papel de la integración en el aprendizaje automático, que es una operación elemental de la inferencia del paciente. La operación elemental para el aprendizaje automático probabilístico es calcular una distribución posterior tomando una distribución conjunta y dividiéndola por una marginal, lo que implica integración. Finalmente, Hennig analiza la importancia de la optimización, que es la operación fundamental en el aprendizaje automático, que implica calcular valores que minimizan las funciones de pérdida. Estos algoritmos forman la base de programas diferenciables, para los cuales el gradiente de la función se puede calcular automáticamente.

  • 00:40:00 En esta sección, Philipp Hennig analiza los algoritmos de optimización y su importancia en el aprendizaje automático. Si bien los métodos clásicos como BFGS y minimizar se almacenan en scipy.optimize, los nuevos métodos como SGD y Adam ahora son la norma en el aprendizaje automático. Sin embargo, estos métodos a menudo requieren una tasa de aprendizaje y mucha supervisión, a diferencia de los métodos más antiguos, que pueden converger al mínimo y trabajar en cualquier problema diferenciable. Para lidiar con las limitaciones de estos nuevos métodos en grandes conjuntos de datos con millones de puntos de datos, se usa un descenso de gradiente por lotes para calcular una suma mucho más pequeña, que es un estimador imparcial de lo que nos interesa. Aunque estos nuevos métodos son más eficientes y efectivos, todavía se basan en los mismos principios que los algoritmos antiguos, lo que puede causar problemas para ciertas aplicaciones.

  • 00:45:00 En esta sección del video, el orador analiza la posibilidad de calcular la varianza además del gradiente en los algoritmos de aprendizaje profundo. Argumenta que la omisión del cálculo de la varianza del proceso de optimización se debe a que la optimización todavía se ve como un problema de cálculo de gradiente en lugar de un problema de usar variables aleatorias para encontrar puntos que se generalicen bien. Sin embargo, destaca la importancia de incluir la incertidumbre que surge de la aleatoriedad en los cálculos, y señala que es esencial para construir mejores configuraciones de entrenamiento para redes neuronales profundas. Concluye mencionando próximas conferencias que profundizarán en este tema.

  • 00:50:00 En esta sección, Philipp Hennig analiza el uso de observables para agregar nuevas funcionalidades a las redes neuronales profundas, como la incertidumbre o convertirlas en una red neuronal profunda bayesiana sin usar los costosos algoritmos Monte Carlo de la cadena de Markov. También explica cómo los algoritmos numéricos utilizados para entrenar algoritmos de aprendizaje automático son en realidad algoritmos de aprendizaje automático, ya que estiman una cantidad desconocida o una variable latente mientras observan datos observables y tratables. Esto es similar al proceso de inferencia, donde se estima una cantidad latente basada en los resultados observados de un cálculo.

  • 00:55:00 En esta sección, Philipp Hennig presenta el concepto de algoritmos numéricos como máquinas de aprendizaje y analiza la idea detrás de la construcción de algoritmos numéricos desde cero como algoritmos numéricos probabilísticos. Estos son algoritmos que toman una distribución de probabilidad que describe su tarea y usan la CPU o la GPU como fuente de datos para refinar su estimación de cuál es la solución a la tarea numérica. Hennig enfatiza que la clase no es una clase típica de análisis numérico, ya que la atención se centra en comprender las máquinas internas como máquinas de aprendizaje y construir nuevos algoritmos en el lenguaje del aprendizaje automático. Los estudiantes pueden esperar escribir mucho código en esta clase de informática.

  • 01:00:00 En esta sección, Philipp Hennig presenta su curso sobre Numerics of Machine Learning, que afirma es el primer curso dedicado de este tipo en el mundo. El curso tiene como objetivo profundizar en el funcionamiento de los algoritmos de aprendizaje automático, específicamente cómo funcionan dentro de la caja y cómo se pueden cambiar o adaptar para mejorar las máquinas de aprendizaje. La naturaleza altamente técnica de los algoritmos numéricos y los algoritmos de aprendizaje automático significa que el conocimiento en esta área es muy buscado tanto por investigadores como por profesionales de la industria. Las conferencias serán impartidas por su equipo de estudiantes de doctorado altamente experimentados, que han pasado años investigando y pensando en el funcionamiento interno de estos algoritmos y, por lo tanto, están más equipados para discutir los detalles técnicos más finos que un profesor.

  • 01:05:00 En esta sección, Philipp Hennig analiza la estructura del curso y los requisitos del mismo. El curso incluirá trabajo tanto teórico como de codificación, ya que se espera que los estudiantes resuelvan problemas numéricos usando código Python o Julia. Los ejercicios se enviarán en formato PDF, con soluciones calificadas en forma binaria: se otorgará una marca de verificación para una buena solución y una cruz para una insatisfactoria. Los estudiantes obtendrán un punto de bonificación por cada marca de verificación, que contará para el resultado final del examen. El examen tendrá lugar el 13 de febrero o el 31 de marzo del próximo año, y se recomienda aprobar el primer examen, ya que es posible que no haya un reinicio disponible. Finalmente, se alienta a los estudiantes interesados en lograr un título superior en algoritmos numéricos en aprendizaje automático o computación centrada en datos a tomar este curso, ya que ofrece amplias oportunidades para la investigación aplicada en varios campos.

  • 01:10:00 En esta sección, Philipp Hennig enfatiza la importancia de los algoritmos numéricos en el aprendizaje automático, afirmando que son los motores que impulsan la máquina de aprendizaje. Describe cómo la comprensión de estos algoritmos y su lenguaje de inferencia bayesiano puede conducir a soluciones de aprendizaje automático más rápidas, más confiables y más fáciles de usar. Hennig enfatiza que si bien los algoritmos numéricos clásicos son importantes, deben verse a través de la lente del aprendizaje automático, adoptando la perspectiva de las máquinas de aprendizaje como un medio para integrar la simulación y el aprendizaje profundo de una manera más holística. Invita a los estudiantes a unirse a este emocionante experimento de enseñanza del aprendizaje automático con una configuración única de nueve instructores diferentes.
 

Clase 2 -- Álgebra Lineal Numérica -- Marvin Pförtner



Numéricos de ML 2 -- Álgebra Lineal Numérica -- Marvin Pförtner

El álgebra lineal numérica es fundamental para el aprendizaje automático, los procesos gaussianos y otros métodos de regresión no paramétricos. La conferencia cubre varios aspectos del álgebra lineal numérica, incluida la importancia de comprender la estructura de una matriz para una multiplicación más eficiente, la optimización de algoritmos de aprendizaje automático mediante la resolución de problemas de selección de hiperparámetros y el cálculo de matrices kernel, y la solución de un sistema lineal utilizando el descomposición LU, entre otros. La conferencia también enfatiza la importancia de implementar algoritmos correctamente, ya que el algoritmo utilizado para las operaciones matemáticas tiene un impacto significativo en el rendimiento, la estabilidad y el consumo de memoria.

En la segunda parte del video, Marvin Pförtner analiza la importancia del álgebra lineal numérica en los algoritmos de aprendizaje automático. Cubre varios temas, incluida la descomposición LU, la descomposición de Cholesky, el lema de inversión de matriz y el proceso de regresión gaussiana. Pförtner enfatiza la importancia de utilizar la estructura para hacer que los algoritmos sean más eficientes y destaca la importancia de la estabilidad numérica para resolver grandes sistemas de ecuaciones en el proceso de regresión gaussiana. También analiza técnicas como el aprendizaje activo y las aproximaciones de bajo rango para manejar grandes conjuntos de datos y las posibles limitaciones de memoria de las matrices del kernel. En general, el video muestra el papel crucial que juega el álgebra lineal numérica en muchos aspectos del aprendizaje automático.

  • 00:00:00 En esta sección, un estudiante de doctorado analiza la importancia del álgebra lineal numérica en el aprendizaje automático y los procesos gaussianos. El álgebra lineal numérica es fundamental para el aprendizaje automático y es un conjunto de herramientas necesarias para implementar algoritmos. La conferencia cubre tareas fundamentales en álgebra lineal numérica importantes para el aprendizaje automático, la exploración de la estructura para hacer que los algoritmos de álgebra lineal numérica sean rápidos y confiables, y la implementación adecuada de la regresión del proceso gaussiano. La conferencia también cita ejemplos de aplicaciones del álgebra lineal numérica como la teoría básica de la probabilidad, modelos lineales generales, análisis de componentes principales y productos de matriz-vector que reducen la dimensionalidad.

  • 00:05:00 En esta sección, el orador analiza el álgebra lineal numérica en el contexto del aprendizaje automático. Explica cómo los procesos gaussianos, un método de regresión no paramétrico en el aprendizaje automático, se basan en una medida de probabilidad previa, que es un proceso gaussiano que genera una matriz de Gram de kernel definida positiva y simétrica. La información generativa en esta matriz permite algoritmos eficientes y confiables. El orador también menciona cómo se aplican ecuaciones similares a una clase más grande de modelos, incluidos los métodos kernel y la regresión de Ridge. También analiza brevemente cómo se usa el álgebra lineal numérica para resolver ecuaciones diferenciales parciales lineales y en métodos de optimización para la optimización local de funciones de pérdida.

  • 00:10:00 En esta sección, el orador analiza la importancia del álgebra lineal en el aprendizaje automático y proporciona ejemplos para ilustrar esta importancia. Las operaciones de álgebra lineal como la multiplicación de matrices vectoriales, las soluciones de sistemas lineales y las descomposiciones de matrices son fundamentales para muchos modelos de aprendizaje automático. Además, señala que muchos modelos de aprendizaje automático son en realidad ruidosos, ya que utilizan una estimación ruidosa de la matriz con la que pretenden resolver sistemas lineales. Finalmente, enfatiza que los determinantes logarítmicos son esenciales en el caso de densidad gaussiana y la regresión GP para obtener estimaciones posteriores máximas.

  • 00:15:00 En esta sección, el orador enfatiza la importancia de la multiplicación eficiente de Matrix Vector en álgebra lineal numérica y aprendizaje automático. Dan un ejemplo de cómo incluso las tareas simples pueden volverse computacionalmente inviables si la expresión matemática no se transforma en un algoritmo correctamente. El ponente también destaca la importancia de identificar la estructura en Matrix para una multiplicación más eficiente. Concluyen afirmando que el algoritmo que implementa una operación matemática tiene un impacto significativo en el rendimiento, la estabilidad y el consumo de memoria.

  • 00:20:00 En esta sección, el ponente enfatiza la importancia de comprender la estructura de una matriz para optimizar los algoritmos de aprendizaje automático. Él explica que si sabe que hay una estructura de rango inferior dentro de una matriz, entonces debe usar métodos especializados en matrices inferiores para factorizarla, en lugar de multiplicar la matriz completa. Él explica que la reducción es solo un tipo de estructura, y hay varias estructuras matriciales, como matrices dispersas y matrices kernel, que también dependen de entradas distintas de cero y dimensiones de entrada del regresor. El orador también habla sobre cómo almacenar matrices de kernel para ahorrar memoria.

  • 00:25:00 En esta sección, el orador analiza cómo almacenar y evaluar matrices kernel para procesos gaussianos de manera eficiente. Si los puntos de datos exceden un cierto límite, el enfoque ingenuo de almacenarlos ya no es factible debido a problemas de memoria. Hay bibliotecas disponibles que escriben núcleos CUDA muy eficientes y usan GPU para calcular procesos gaussianos en una computadora portátil usando cientos de miles de puntos de datos. El ponente también habla de matrices con una forma funcional general, como los gráficos de diferencias automáticas, que requieren los mismos requisitos de tiempo y espacio. Por último, el ponente profundiza en un algoritmo concreto de aplicación de regresión bayesiana a procesos gaussianos, donde el núcleo de la medida gaussiana es la covarianza de la función desconocida. El orador presenta un gráfico de la medida posterior sobre la función junto con los datos observados y cómo funciona bien la cuantificación de la incertidumbre. Sin embargo, el problema surge cuando se calcula la inversa, que escala de manera bastante prohibitiva, lo que hace que el enfoque ingenuo de calcular una matriz de gramo de kernel a partir de n puntos de datos no sea factible para n grande.

  • 00:30:00 En esta sección, el orador analiza la complejidad numérica de calcular matrices kernel en procesos gaussianos, que pueden volverse prohibitivamente costosos. Además, hay hiperparámetros que deben ajustarse para el kernel, como la escala de salida y la escala de longitud, a fin de optimizar el anterior para explicar el conjunto de datos observado. El orador describe un enfoque bayesiano para resolver este problema de selección de modelos calculando la probabilidad logarítmica marginal y minimizando una función de pérdida que consiste en un equilibrio entre el ajuste del modelo y la complejidad representada por el factor de normalización de la distribución gaussiana. El orador muestra ejemplos de subajuste y sobreajuste graves y explica cómo se puede encontrar el equilibrio entre estos dos términos para lograr el mejor rendimiento del modelo.

  • 00:35:00 En esta sección, Marvin Pförtner analiza la solución de un sistema lineal. La solución requiere M más uno resuelve donde M es el número de puntos de datos en los que queremos evaluar nuestro regresor. El sistema es simétrico y definido positivo en el caso más general, pero puede haber estructuras adicionales para aprovechar, ya que el sistema suele ser enorme y, por lo general, no podemos resolver esto para conjuntos de datos muy grandes. Una descomposición matricial muy importante es la descomposición Lu. El algoritmo utilizado para resolver un sistema triangular inferior es la sustitución directa, que descompone la matriz en cuatro partes: escalar en la esquina inferior derecha, la columna de arriba es cero, un vector de fila a la izquierda y otra parte triangular llamada L menos li menos uno encima de él, que también es triangular inferior.

  • 00:40:00 En esta sección, Marvin Pförtner analiza cómo resolver sistemas donde la matriz del sistema es triangular inferior, con dimensión n menos uno. Al dividir la última fila, el sistema se puede resolver usando un algoritmo simple. Luego se utilizan métodos recursivos para resolver un sistema para cualquier dimensión dada. Pförtner también explica cómo dividir la matriz en partes triangulares inferior y superior utilizando lo que él llama la descomposición de Lu, que es una definición recursiva que utiliza técnicas de divide y vencerás. Esta técnica es útil para invertir matrices y abaratar la resolución de sistemas lineales, siendo el proceso O(N^2) en lugar de O(N^3).

  • 00:45:00 En esta sección, se explica el método de descomposición de Lu para resolver sistemas de ecuaciones lineales. Este método descompone una matriz en una matriz triangular inferior y una matriz triangular superior, lo que permite un cálculo más rápido de soluciones para sistemas lineales. El proceso implica establecer las entradas diagonales de la parte izquierda de la matriz triangular inferior en uno y usar un pivote parcial para garantizar la estabilidad y la robustez. A pesar de la eficiencia del método, se debe considerar el costo del cálculo, que es O(n^3).

  • 00:50:00 En esta sección, Marvin Pförtner analiza el tiempo computacional de la descomposición UD y demuestra cómo implementarlo en su lugar. Explica que la mayor parte de cada paso de recurrencia es el cálculo del producto exterior y la resta, lo que da como resultado una suma de dos veces (n-1) al cuadrado. Usando una estrategia conocida como eliminación gaussiana, el algoritmo calcula eficientemente la matriz triangular superior. Pförtner muestra cómo realizar un cálculo de ejemplo con una matriz pequeña, demostrando que la parte no trivial de L está contenida en las tres entradas debajo de la diagonal, y la parte triangular superior contendrá las partes distintas de cero de U. Manteniendo todo en la memoria, Pförtner presenta una implementación que almacena inteligentemente L y U en la misma matriz.

  • 00:55:00 En esta sección, el orador explica el proceso de descomposición LU en álgebra lineal numérica. Muestra cómo calcular el algoritmo paso a paso y cómo usarlo para resolver sistemas lineales. Una vez que tenemos la descomposición LU de una matriz, podemos aplicarla para resolver de manera eficiente múltiples sistemas lineales con múltiples lados derechos, con un costo de solo 2N al cuadrado para una sustitución hacia adelante y hacia atrás. La inversa de una matriz de permutación es solo su transpuesta, que es económica de calcular, lo que hace posible realizar soluciones K con la misma matriz del sistema en la regresión del proceso gaussiano.

  • 01:00:00 En esta sección, el orador analiza cómo resolver de manera eficiente múltiples sistemas lineales con la misma matriz usando una descomposición LU, que es computacionalmente eficiente. Además, se presenta un método para calcular el determinante logarítmico con una descomposición LU, que permite una representación eficiente de un sistema lineal y realizar varias tareas de álgebra lineal con él. El orador enfatiza la importancia de utilizar la estructura para hacer que los algoritmos sean más eficientes y señala que la descomposición de Cholesky es una versión especializada de la descomposición LU que aprovecha la naturaleza simétrica y definida positiva de la matriz de gramo del núcleo.

  • 01:05:00 En esta sección, el orador analiza el cálculo de la media posterior y la covarianza en procesos gaussianos. Para obtener la media posterior, se necesita resolver un sistema por sustitución hacia adelante y otro por sustitución hacia atrás. El orador señala que con la estructura de los factores de Cholesky de la matriz de covarianza, se puede obtener una buena aproximación descendente a la matriz. Además, habla sobre el problema de la posibilidad de no poder encajar la gran matriz del núcleo en la memoria y presenta dos enfoques para resolver este problema; usando estructura en los núcleos empleados o usando aproximaciones dispersas.

  • 01:10:00 En esta sección, el orador analiza cómo invertir matrices de manera eficiente en algoritmos de aprendizaje automático. Utiliza un conjunto de datos generado a partir de una función sinusoidal como ejemplo y muestra que al conocer la estructura generativa del conjunto de datos, uno puede elegir núcleos que reflejen ese conocimiento y sean computacionalmente eficientes. El lema de inversión de matrices es una herramienta que se puede usar para invertir matrices de manera eficiente al perturbarlas con una pequeña cantidad de subespacios. Al usar este lema, uno puede calcular expresiones de manera muy eficiente y ni siquiera necesita formar la matriz completa en la memoria. El orador enfatiza que existen muchos enfoques diferentes para usar la estructura en los algoritmos de aprendizaje automático.

  • 01:15:00 En esta sección, el disertante analiza los métodos numéricos de álgebra lineal utilizados en las inferencias gaussianas y la optimización de hiperparámetros en el aprendizaje automático. Un método para escalar la regresión GP (proceso gaussiano) a grandes conjuntos de datos es la inversión aproximada, que implica la construcción iterativa de aproximaciones de bajo rango a la matriz del sistema representada en la matriz kernel. El disertante demuestra este método utilizando el algoritmo de Cholesky como ejemplo y muestra cómo el aproximador de bajo rango de la matriz se puede obtener sobre la marcha sin calcular toda la factorización de Cholesky. La calidad de la aproximación depende de la matriz del kernel y del orden en que se procesan los puntos de datos. En general, esta sección destaca la importancia del álgebra lineal numérica en varios aspectos del aprendizaje automático.

  • 01:20:00 En esta sección, Marvin Pförtner analiza cómo elegir el orden de los puntos de datos en los que Cholesky los trata para aproximarse a la matriz del núcleo. Explica que premultiplicar la Matriz de gramo con la Matriz de permutación, también conocida como pivotización completa o descomposición de Cholesky pivotada, puede conducir a una aproximación más baja con menos iteraciones. La idea es observar el predictor de los puntos de datos después de una iteración de Todeschini y luego usar la información recopilada para seleccionar el punto de datos para observar en la siguiente iteración. Esta técnica se considera un problema de aprendizaje activo y puede generar una forma inteligente de procesar filas y columnas simultáneamente y, por lo tanto, explorar la estructura generativa de Matrix en línea.

  • 01:25:00 En esta sección, el disertante analiza la descomposición en valores singulares (SVD) y cómo resuelve un problema de optimización para obtener los mejores factores para una aproximación matricial. Sin embargo, truncar un SVD podría ser arbitrariamente malo, por lo que se utiliza un enfoque heurístico para aproximar el SVD y calcular una descomposición propia. También existe la necesidad de una raíz cuadrada de matriz, que se puede lograr a través de la descomposición de Cholesky. Es importante tener en cuenta la estructura al implementar algoritmos de álgebra lineal numérica en la práctica, ya que esto puede acelerar significativamente el proceso.

  • 01:30:00 En esta sección, Marvin Pförtner analiza cómo la estructura del álgebra lineal numérica afecta la regresión del proceso gaussiano. La regresión del proceso gaussiano es computacionalmente intensiva y requiere resolver grandes sistemas de ecuaciones, lo que se puede hacer usando técnicas de álgebra lineal numérica. El ponente destaca la importancia de la estabilidad numérica en la resolución de estos sistemas de ecuaciones para no perder precisión en los resultados finales.
 

Clase 3 -- Escalamiento de procesos gaussianos -- Jonathan Wenger



Numéricos de ML 3 -- Escalamiento de procesos gaussianos -- Jonathan Wenger

Jonathan Wenger analiza técnicas para escalar procesos gaussianos para grandes conjuntos de datos en el video "Numerics of ML 3". Explora métodos iterativos para resolver sistemas lineales y aprender la matriz inversa, con el objetivo principal de lograr generalización, simplicidad/interpretabilidad, estimaciones de incertidumbre y velocidad. Wenger introduce aproximaciones de bajo rango a la matriz kernel, como la descomposición iterativa de Cholesky, Cholesky parcial y métodos de gradiente conjugado. También analiza el preacondicionamiento para acelerar la convergencia y mejorar la estabilidad cuando se trata de grandes conjuntos de datos. Finalmente, propone usar una matriz ortogonal Z para reescribir la traza de una matriz, lo que potencialmente podría conducir a un tiempo cuadrático para escalar procesos gaussianos.

En la segunda parte de la conferencia, Jonathan Wenger analiza el escalado de procesos gaussianos (GP) para grandes conjuntos de datos en este video. Presenta varias estrategias para mejorar la tasa de convergencia de las estimaciones de Monte Carlo para la regresión GP, incluido el uso de precondicionadores existentes para la solución del sistema lineal para estimar la matriz kernel y su inversa. También introduce la idea de GP de tiempo lineal a través de la aproximación variacional y aborda la cuantificación de la incertidumbre utilizando el método de punto de inducción. Mediante el uso de estas estrategias, es posible escalar a conjuntos de datos con hasta un millón de puntos de datos con la GPU, lo que facilita la optimización rápida de los hiperparámetros.

  • 00:00:00 En esta sección del video, Jonathan Wenger explica cómo escalar procesos gaussianos para grandes conjuntos de datos utilizando métodos iterativos para resolver sistemas lineales. Explica que estos métodos pueden verse como algoritmos de aprendizaje para la matriz inversa, que es el objeto principal necesario para calcular el GP posterior. Wenger también describe los principales objetivos de la regresión, incluida la generalización, la simplicidad/interpretabilidad, las estimaciones de incertidumbre y la velocidad. Señala que los médicos de cabecera son excelentes ejemplos de modelos que pueden lograr todos estos objetivos, pero son costosos de entrenar y hacer inferencias. Sin embargo, al desarrollar métodos modernos para resolver sistemas lineales con matrices kernel, la inferencia de tiempo cuadrático para GPS se puede hacer más rápido que el tiempo cúbico. Wenger también insinúa que hay una manera de hacer esto aún más rápido en tiempo lineal, pero reconoce que puede haber algunos inconvenientes que discutirá más adelante en la próxima lección.

  • 00:05:00 En esta sección, el ponente analiza las limitaciones de la descomposición de Scholesky para procesos gaussianos cuando se trata de grandes conjuntos de datos, ya que se vuelve prohibitiva en términos de complejidad de tiempo y espacio. Propone métodos iterativos para reducir la complejidad al cuadrado en el número de puntos de datos, mostrando cómo se utiliza Cholesky iterativo para la aproximación de bajo rango de la matriz del kernel. Sin embargo, el problema no es aproximar la matriz kernel en sí misma, ya que la regresión GP requiere una aproximación de la inversa de la matriz kernel o la matriz de precisión, por lo que la pregunta es si la formulación iterativa de Cholesky puede interpretarse como una aproximación a la precisión. Matriz para soluciones lineales.

  • 00:10:00 En esta sección, el orador explora una forma iterativa de la descomposición de Cholesky, que puede usarse para aproximaciones de rango bajo a matrices kernel. Mediante el seguimiento de cantidades adicionales, es posible obtener una aproximación inversa a la matriz, que también es de rango bajo, similar a la de Cholesky. El orador demuestra cómo calcular recursivamente esta aproximación inversa, en términos de los factores de Cholesky y el residual. Este método iterativo se puede utilizar como un algoritmo de inversión de matriz aproximado para matrices definidas positivas, como las matrices kernel, y es una herramienta útil para escalar procesos gaussianos.

  • 00:15:00 En esta sección, el disertante analiza el uso del método Cholesky parcial para escalar procesos gaussianos. El método consiste en modificar la descomposición de Cholesky con un factor y multiplicarla por un vector. Esto da como resultado un proceso iterativo que produce una aproximación inversa al agregar productos externos de vectores. El análisis de complejidad muestra que es igualmente costoso que aproximar la propia matriz. El ponente también compara el método parcial de Cholesky con la regresión GP y destaca la importancia de seleccionar los puntos de datos o vectores unitarios correctos para mejorar el proceso de aprendizaje.

  • 00:20:00 En esta sección, Jonathan Wenger analiza la importancia de seleccionar los puntos de datos correctos al aproximar la matriz del kernel para procesos gaussianos (GP). Ilustra cómo una selección aleatoria de puntos de datos para condicionar puede resultar en un proceso de aprendizaje más lento. Introduce el "método de gradientes conjugados", originalmente diseñado para resolver sistemas lineales en regresión GP. Este método reformula el problema de ax=B, donde a es una matriz kernel y B es un vector de tamaño n, como un problema de optimización cuadrática, que es equivalente a resolver el sistema lineal ax=B. Al tomar el gradiente de la función cuadrática y establecerlo en cero, la columna a ax es igual a B, y un residual se puede definir como B menos ax, que se puede usar para encontrar una forma mejor y más eficiente de seleccionar puntos de datos para acelerar arriba el proceso de aprendizaje.

  • 00:25:00 En esta sección, Jonathan Wenger analiza el uso de direcciones conjugadas para la optimización en procesos gaussianos. Explica que al modificar la dirección en la que caminamos, podemos converger como máximo en n pasos cuando usamos direcciones conjugadas. Para empezar, utiliza el gradiente negativo como primer paso en la dirección del descenso más pronunciado y modifica los pasos para satisfacer la condición de conjugación. Presenta el algoritmo y explica sus partes de alto nivel, incluido el criterio de parada basado en la norma de gradiente.

  • 00:30:00 En esta sección, Jonathan Wenger analiza el método de gradientes conjugados, que es un método para aproximar el inverso cuando se resuelven sistemas lineales múltiples para la covarianza posterior. El método de gradientes conjugados construye una aproximación para el inverso, que es de rango bajo de la misma manera que el Swarovski parcial. La actualización de la estimación de la solución implica una dirección conjugada di, y la matriz CI se aproxima a la inversa con la forma de todas las direcciones de búsqueda anteriores apiladas en columnas. Este método permite resolver rápidamente el sistema de escenarios y su estructura de bajo rango lo convierte en un método eficiente para escalar procesos gaussianos.

  • 00:35:00 En esta sección, el orador compara el método escolástico parcial con el método del gradiente conjugado para la inferencia del proceso gaussiano. El método del gradiente conjugado converge mucho más rápido, y el orador explica que las "acciones" utilizadas en el método del gradiente conjugado prueban la matriz de una manera diferente, lo que permite una mejor convergencia. Sin embargo, el orador señala que es importante analizar qué tan rápido converge el método, lo que requiere una comprensión de los números, específicamente la precisión de la máquina y el número de condición. El número de condición es el valor propio máximo dividido por el valor propio mínimo en términos absolutos y mide la inevitable amplificación del error cuando se implementan algoritmos de inversión.

  • 00:40:00 En esta sección, Jonathan Wenger analiza el comportamiento de estabilidad y convergencia de los métodos para resolver sistemas lineales con matrices kernel, como el método del gradiente conjugado o la descomposición de Cholesky. La estabilidad está determinada por el número de condición de la matriz, que depende de sus valores propios, y cuanto mayor sea el número de condición, más inestable es el método. El comportamiento de convergencia está determinado por el número de condición de la matriz y el mayor dividido por el valor propio más pequeño. Cuanto más cerca esté el número de condición a uno, más lenta será la convergencia. A pesar del número de condición moderadamente grande de la matriz kernel con mil puntos de datos, Wenger muestra que el método del gradiente conjugado todavía converge rápidamente en unos pocos cientos de iteraciones en relación con el tamaño del problema.

  • 00:45:00 En esta sección, Jonathan Wenger analiza el escalado de procesos gaussianos y el impacto del ruido de observación en la convergencia. A medida que disminuye el ruido de observación, la convergencia de CG se ralentiza debido a la explosión del número de condición de la matriz kernel. El número de condición es el valor propio más grande dividido por el valor propio más pequeño y, a medida que los puntos de datos se acercan entre sí, el número de condición explota. Para resolver este problema, se puede utilizar el preacondicionamiento para aproximar la matriz kernel, suponiendo que el almacenamiento de la matriz es bastante económico en comparación con el almacenamiento de la matriz real. Al evaluar eficientemente el inverso de la aproximación, el preacondicionador puede reemplazar el problema original por uno más fácil de resolver, lo que resulta en una convergencia más rápida de CG.

  • 00:50:00 En esta sección, Jonathan Wenger analiza el concepto de preacondicionamiento en el escalado de procesos gaussianos para una resolución de sistemas lineales más eficiente. Utiliza el ejemplo de los métodos de aprendizaje probabilístico para explicar cómo el conocimiento previo de un problema puede facilitar su resolución y, de manera similar, el precondicionamiento transforma un problema para que esté más cerca de la matriz de identidad y, por lo tanto, sea más fácil de resolver. Al usar un preacondicionador, el número de condición del sistema se reduce, lo que acelera el CG y lo hace más estable. Wenger demuestra la eficiencia del preacondicionamiento mediante el uso de un preacondicionador de rango bajo más diagonal y SVD parcial para resolver un sistema lineal a gran escala con 100 000 puntos de datos en siete minutos.

  • 00:55:00 En esta sección, el orador analiza el uso del gradiente conjugado (CG) preacondicionado para resolver sistemas lineales durante la optimización de hiperparámetros para Cholesky. Para evaluar la pérdida y calcular su gradiente, necesitamos resolver sistemas lineales y calcular trazas. Sin embargo, calcular la traza implica n multiplicaciones de vectores de matriz, lo que es demasiado costoso para grandes conjuntos de datos. Para resolver esto, el ponente propone utilizar una matriz ortogonal Z tal que cx Z(transponer) = matriz identidad, permitiéndonos reescribir la traza de a como la traza de Z(transponer) xax Z. Este método de aproximación podría conducir potencialmente a cuadráticos tiempo para escalar procesos gaussianos.

  • 01:00:00 En esta sección, el presentador analiza el desafío de ampliar el cálculo de la traza de la matriz kernel, lo que implica realizar varias multiplicaciones matriz-vector. Una posible solución es aleatorizar el cálculo dibujando vectores aleatorios, escalados con la raíz cuadrada de la dimensión, y luego calculando la covarianza de identidad. Con la covarianza del vector aleatorio aproximada, se puede calcular la traza, que es lo mismo que resolver el problema original sin vectores aleatorios. Sin embargo, el uso de estimadores de Monte Carlo en este método es insuficiente para grandes conjuntos de datos, ya que requiere decenas de miles de vectores aleatorios, lo que hace que la optimización de hiperparámetros sea lenta.

  • 01:05:00 En esta sección, Jonathan Wenger analiza el escalado de procesos gaussianos (GP) para grandes conjuntos de datos. Él explica que los precondicionadores existentes para la solución del sistema lineal se pueden usar para estimar la matriz del núcleo y su inversa para tratar el problema de escalado de datos. El uso del preacondicionador con Cholesky parcial o la estimación de traza estocástica ayuda a estimar la traza hacia atrás. Con la misma información, también se puede estimar el gradiente del determinante logarítmico. Mediante el uso de estas estrategias, es posible escalar a conjuntos de datos con hasta un millón de puntos de datos con la GPU. Wenger señala que el entrenamiento previo implica el uso de un pequeño conjunto de datos como trampolín para optimizar los parámetros híbridos.

  • 01:10:00 En esta sección, el disertante analiza diferentes estrategias para mejorar la tasa de convergencia de las estimaciones de Monte Carlo para la regresión del proceso gaussiano. Al heredar la tasa de convergencias de precondicionamiento, es posible converger más rápido al valor verdadero de manera exponencial o polinomial. La elección de acciones para observar la matriz kernel a través de la multiplicación de vectores de matriz también puede afectar la rapidez con la que se puede lograr la convergencia. Por lo tanto, para desarrollar algoritmos numéricos rápidos para el proceso gaussiano, se necesita experiencia en el dominio, que puede proporcionarse a través de condiciones previas o la elección de acciones para converger rápidamente. Además, se introduce la idea de GP de tiempo lineal a través de la aproximación variacional, que implica comprimir datos de alta dimensión en un conjunto de datos de entrenamiento más pequeño para resumirlo de una manera más efectiva.

  • 01:15:00 En esta sección, Wenger analiza el uso de procesos gaussianos y cómo se pueden escalar de manera efectiva. La idea es resumir los datos de entrenamiento para proporcionar una aproximación directa a la posterior, que solo toma I al cuadrado de n, donde I es el número de entradas inductoras y n es el tamaño de los datos de entrenamiento. Sin embargo, los métodos iterativos requieren una optimización de hiperparámetros, que también debe tenerse en cuenta. En este caso, se pueden usar métodos estocásticos como la optimización por lotes o sdd, que se pueden optimizar rápidamente usando un optimizador preferido. Todas las operaciones esenciales son I al cubo o I al cuadrado por n, excepto evaluar la matriz kernel, que es la operación más costosa.

  • 01:20:00 En esta sección, el disertante analiza el tema de la cuantificación de la incertidumbre con el escalado de procesos gaussianos utilizando el método de punto de inducción, que requiere establecer el número de puntos de inducción a priori para el conjunto de datos. A medida que el optimizador busca mejores puntos de resumen de datos, la cuantificación de la incertidumbre resultante se vuelve significativamente diferente del verdadero proceso gaussiano. Mientras que los métodos iterativos pueden controlar la precisión de la aproximación hasta que se agote el tiempo, el método del punto de inducción requiere controlar la fidelidad de la aproximación antes de la optimización. El ponente plantea la cuestión de si se puede diseñar un método en el que se pueda confiar en la cuantificación de la incertidumbre en cualquier punto de la aproximación, independientemente del tiempo de cálculo.
 

Clase 4 -- Procesos gaussianos conscientes de la computación -- Jonathan Wenger



Numéricos de ML 4 -- Procesos gaussianos conscientes de la computación -- Jonathan Wenger

En este video sobre Numerics of ML, Jonathan Wenger analiza los procesos gaussianos conscientes de la computación y su capacidad para cuantificar el error de aproximación y la incertidumbre en las predicciones. Explora la importancia de elegir las acciones correctas y cómo los gradientes conjugados pueden reducir significativamente la incertidumbre y acelerar el aprendizaje. Wenger también habla sobre el uso de aproximaciones GP de tiempo lineal basadas en puntos de inducción, pero destaca los problemas que surgen de tales aproximaciones. Finalmente, analiza la actualización de las creencias sobre los pesos representativos y el uso de algoritmos de aprendizaje probabilístico para resolver el error en los pesos representativos. En general, el video demuestra la efectividad de los procesos gaussianos conscientes de la computación para mejorar la precisión de las predicciones al tener en cuenta las incertidumbres computacionales.

Jonathan Wenger también analiza el proceso gaussiano consciente de la computación y su complejidad en este video. Explica que solo es necesario calcular y almacenar el cuadrante superior de la matriz kernel, y el costo computacional del algoritmo es proporcional al tamaño de este cuadrante. El proceso gaussiano se puede usar en conjuntos de datos de tamaño arbitrario, siempre que los cálculos apunten solo a ciertos puntos de datos, borrando la línea entre los datos y el cálculo. Wenger argumenta que el GP se puede modelar para dar cuenta de esta situación condicionando los datos proyectados. Introduce un nuevo teorema que permite la cuantificación exacta de la incertidumbre con un modelo aproximado. Finalmente, anticipa la conferencia de la próxima semana sobre la extensión del modelo GP a los casos en los que una ley física gobierna parcialmente la función que se está aprendiendo.

  • 00:00:00 En esta sección, Jonathan Wenger habla sobre la culminación final de sus conferencias sobre procesos gaussianos, donde demuestra cómo realizar una cuantificación exacta de la incertidumbre en un tiempo arbitrario. Él explica que este enfoque permite a los usuarios cuantificar siempre qué tan lejos están de la función que están tratando de aprender, sin importar cuántos cálculos hayan realizado o cuál sea su presupuesto. Al reinterpretar los algoritmos de las conferencias anteriores como agentes de aprendizaje, pueden cuantificar el error de aproximación, que se introduce en la predicción posterior. Además, discuten lo que significa observar datos a través de una computadora y el debate filosófico que lo rodea.

  • 00:05:00 En esta sección, Jonathan Wenger analiza la importancia de elegir las acciones correctas cuando se trata de procesos gaussianos conscientes de la computación. Muestra que la elección de acciones puede reducir significativamente la incertidumbre y acelerar el proceso de aprendizaje sobre los fenómenos que se pronostican. Además, explora el método de los gradientes conjugados como una forma de encontrar mejores acciones a la hora de resolver sistemas lineales o minimizar funciones cuadráticas. Teniendo en cuenta la geometría del problema, los gradientes conjugados pueden converger en una solución en un pequeño número de pasos.

  • 00:10:00 En esta sección del video, Jonathan Wenger analiza los procesos gaussianos conscientes de la computación y cómo se diferencian de otros métodos de aproximación. Habla de que la operación más costosa en los métodos de aproximación de gradiente parcialmente conjugado y de cielo parcial es la multiplicación matriz-vector. Luego se burla de la idea de las aproximaciones de GP de tiempo lineal que se basan en la inducción de puntos como puntos de datos de resumen, y analiza los problemas que surgen de una aproximación de tiempo lineal. Luego, Wenger presenta la inferencia GP consciente de la computación, que aborda los problemas de la cuantificación exacta de la incertidumbre y dice que se trata de una investigación de vanguardia que se presentará en NURBS a finales de este año.

  • 00:15:00 En esta sección, Jonathan Wenger analiza el proceso gaussiano consciente de la computación y cómo cuantificar el error de aproximación que surge del uso de métodos iterativos para resolver un sistema lineal de pesos representativos. Él explica que las funciones del kernel en el modelo GP codifican suposiciones sobre cómo se ve la función real, y los solucionadores iterativos aproximan estos pesos para construir una predicción media posterior. Al cuantificar probabilísticamente este error de aproximación, es posible agregar la incertidumbre adicional a la predicción, lo que puede mejorar la precisión del modelo. Wenger también brinda un breve resumen del álgebra lineal de las distribuciones gaussianas y cómo facilitan los cálculos en la teoría de la probabilidad, particularmente cuando se trata de condicionamiento y observaciones.

  • 00:20:00 En esta sección, Jonathan Wenger analiza las propiedades de las distribuciones gaussianas y cómo se pueden usar para determinar la distribución posterior sobre una variable X dadas las observaciones Y. Al combinar las propiedades de escala y marginación, se pueden usar los procesos gaussianos cuantificar el error de aproximación en estimaciones de pesos representativos. Wenger explica cómo se puede actualizar y utilizar una distribución gaussiana anterior para conocer los pesos representativos reales, que no se pueden observar directamente. La dispersión y la orientación de una curva de campana gaussiana se pueden utilizar para determinar la dirección en la que buscar los pesos representativos reales.

  • 00:25:00 En esta sección, Jonathan Wenger explica cómo observar indirectamente un punto negro en un proceso gaussiano consciente de la computación mediante el uso de una transformación residual y vectorial. Muestra cómo aplicar el teorema de inferencia gaussiana afín para calcular la distancia entre las representaciones y los pesos estimados. El proceso implica colapsar la creencia en una línea ortogonal y desarrollar una creencia de probabilidad unidimensional, que se utiliza para encontrar los pesos representados. Wenger también analiza cómo seleccionar una línea roja más informativa que se alinee con la creencia previa para llegar a una solución más precisa.

  • 00:30:00 En esta sección, Jonathan Wenger analiza un algoritmo para actualizar una creencia sobre pesos representativos en procesos gaussianos conscientes de la computación a través de una observación realizada por una acción multiplicada por un residual. Explica que la actualización implica una inferencia gaussiana afín y señala los elementos clave en el proceso de actualización. Si bien el algoritmo es similar a CG y Cholesky parcial, señala que la elección del anterior sigue siendo un problema que debe abordarse, ya que debe estar relacionado con dónde se encuentran los pesos representativos reales para obtener una buena estimación del error. Wenger propone que la GP previa y las suposiciones hechas están relacionadas con los pesos representativos ya que están involucrados en el inverso de la matriz kernel, lo que los hace significativos en la GP previa.

  • 00:35:00 En esta sección, Jonathan Wenger analiza cómo comprender de qué datos de distribución se generaron antes de realizar cualquier observación con un proceso gaussiano (GP). Asumiendo una distribución sobre f, Wenger explica que las etiquetas se distribuyen de acuerdo con la media cero cuando se usa un gaussiano anterior de media cero y varían de acuerdo con la matriz kernel más el ruido independiente, que es parte del modelo de observación. Luego, Wenger analiza cómo encontrar a los representantes mediante un algoritmo de aprendizaje probabilístico que actualiza el anterior al proyectarlo en acciones. Finalmente, Wenger explica cómo resolver el problema de necesitar K hat inverso calibrado mediante el cálculo de una distribución de mu star evaluada en un punto de datos, que es una función lineal de V star.

  • 00:40:00 En esta sección, Jonathan Wenger explica los procesos gaussianos conscientes de la computación y cómo dar cuenta de las incertidumbres computacionales. Analiza la idea de la marginación, donde se consideran múltiples opciones para una variable aleatoria y se calcula una predicción media posterior que tiene en cuenta todas las posibles estimaciones ponderadas representativas. Explica cómo funciona la marginación lineal y cómo agrega incertidumbre adicional a la covarianza. Luego, Wenger continúa discutiendo la interpretación de la incertidumbre de un GP como una estimación del error medio y cómo la incertidumbre computacional también puede considerarse una estimación del error. En general, la sección explica el cálculo de la incertidumbre combinada que incluye el error en la función verdadera y el error en los pesos representativos en una sola estimación.

  • 00:45:00 En esta sección, el orador analiza los procesos gaussianos conscientes de la computación, que combinan el error resultante de no tener suficientes datos observados con el error de no haber realizado suficientes cálculos para aprender la predicción. El orador demuestra dos ejemplos de este proceso en acción con las acciones de Ed Cholesky y CG. El método propuesto llamado GP calcula el posterior y combina una creencia representativa con la inicialización para obtener predicciones más precisas mediante el seguimiento de la incertidumbre. El método es sencillo y efectivo, como se ve en la incertidumbre computacional reducida y la aproximación más cercana a la media posterior verdadera en los gráficos trazados.

  • 00:50:00 En esta sección, el orador analiza los procesos gaussianos conscientes de la computación y el uso de la creencia sin necesidad de invertir la matriz del kernel. Eligen una acción en una dirección específica y observan qué tan cerca están de los dos pesos representados en el subespacio elegido, lo que afecta la rapidez con la que convergen a los pesos representados. Para actualizar la estimación de los pesos representativos, observan el residual proyectado y calculan la dirección a seguir. También calculan una aproximación de rango bajo y actualizan su estimación de los representantes y Precision Matrix. Aplican las mismas cantidades usando Alaska parcial y CG, eligen acciones de vectores unitarios para recuperar ciertas acciones y diseñan un método como el método de tiempo lineal que pesa puntos de datos de acuerdo con la función kernel centrada en un punto de inducción.

  • 00:55:00 En esta sección, Jonathan Wenger analiza los procesos gaussianos (GP) conscientes de la computación y los compara con el GP condicional de entrenamiento totalmente independiente (FITC-GP). Él presenta Kernel Vector Actions, que resuelven algunos de los problemas con FITC-GP, pero son densos, lo que da como resultado una complejidad de N al cuadrado y, por lo tanto, no son rentables. Wenger muestra que al tomar acciones específicas que se enfocan solo en una parte de los puntos de datos, pueden reducir la complejidad necesaria para el cálculo de la matriz del kernel. Al final, el GP computacional tiene un mejor rendimiento y tales acciones demuestran ser un enfoque útil para el cálculo escalable con alta precisión.

  • 01:00:00 En esta sección, Jonathan Wenger analiza el proceso gaussiano consciente de la computación y su complejidad. Muestra que solo es necesario calcular y almacenar el cuadrante superior de la matriz kernel y, como resultado, el costo computacional del algoritmo es solo proporcional al tamaño de este cuadrante. Además, destaca que el algoritmo se puede usar en conjuntos de datos de tamaño arbitrario, siempre que las acciones que tienen ceros en el cuadrante inferior se elijan para apuntar solo a ciertos puntos de datos con el cálculo. Wenger argumenta que esto desdibuja la distinción entre datos y computación porque solo las observaciones destinadas a la computación se consideran datos. Finalmente, señala que el proceso gaussiano se puede modelar para dar cuenta de esta situación condicionando los datos proyectados.

  • 01:05:00 En esta sección, Jonathan Wenger explica que los procesos gaussianos (GP) se pueden considerar de dos maneras: como un modelo más preciso de lo que sucede o como una herramienta numérica probabilística que cuantifica el error introducido a través de la aproximación y toma en cuenta en las predicciones. Luego continúa discutiendo la interpretación de los errores cuadráticos como medidas probabilísticas y cómo se puede usar el posterior combinado como una herramienta de predicción. Wenger también presenta un nuevo teorema que permite la cuantificación exacta de la incertidumbre con un modelo aproximado, lo que permite a los usuarios confiar en su cuantificación de la incertidumbre de la misma manera que confían en los procesos gaussianos.

  • 01:10:00 En esta sección, Jonathan Wenger explica que los procesos gaussianos (GP) se pueden aproximar al diseñar un algoritmo de aprendizaje, que puede cuantificar probabilísticamente el error del algoritmo y enviar el error al GP posterior utilizado para hacer predicciones, lo que permite para la cuantificación exacta de la incertidumbre independientemente de la potencia computacional utilizada. Wenger también señala que, si bien existen diferentes variantes del método, proporcionan una cuantificación exacta de la incertidumbre siempre que las acciones sean linealmente independientes. Finalmente, Wenger anticipa la conferencia de la próxima semana, en la que Jonathan hablará sobre la extensión del modelo GP a los casos en los que una ley física gobierna parcialmente la función que se está aprendiendo.
 

Clase 5 -- Modelos de espacio de estado -- Jonathan Schmidt



Numéricos de ML 5 -- Modelos de espacio de estado -- Jonathan Schmidt

En esta sección, Jonathan Schmidt presenta los modelos de espacio de estado y su aplicación al aprendizaje automático. Explica que los modelos de espacio de estado se utilizan para modelar sistemas dinámicos complejos, que solo son parcialmente observables e involucran interacciones altamente no lineales. La conferencia cubre la representación gráfica de los modelos de espacio de estado y las propiedades importantes de la propiedad de Markov y las medidas condicionalmente independientes. Schmidt presenta diferentes algoritmos para calcular varias distribuciones, como distribuciones de predicción, filtrado y suavizado, que se utilizan para estimar el estado de un sistema, utilizando mediciones obtenidas en diferentes puntos en el tiempo. La conferencia también cubre la implementación de algoritmos de filtro de Kalman en Julia y el cálculo de estimaciones de suavizado en modelos lineales de espacio de estado gaussiano. Finalmente, Schmidt analiza el filtro de Kalman extendido, que permite la estimación de dinámicas no lineales y mediciones en modelos de espacio de estado.

Jonathan Schmidt también analiza los modelos de espacio de estado y su implementación mediante código, centrándose específicamente en la dinámica no lineal y el filtro de Kalman extendido. También demuestra algoritmos de suavizado y métodos alternativos de filtrado bayesiano, destacando sus ventajas y desventajas. La lección concluye con una recomendación para seguir aprendiendo y anticipando la próxima lección, donde Nathaniel presentará los números probabilísticos para simular sistemas dinámicos.

  • 00:00:00 En esta sección, Jonathan Schmidt presenta los modelos de espacio de estado y los sistemas dinámicos como un nuevo enfoque para el curso de lectura numérico del aprendizaje automático. Explica que los sistemas dinámicos evolucionan con el tiempo y solo pueden observarse parcialmente, lo que los hace difíciles de modelar. Schmidt proporciona ejemplos como el recuento de casos de COVID-19 y la estimación de la orientación de los teléfonos inteligentes para ilustrar la estructura temporal y los componentes ocultos de los sistemas dinámicos. El objetivo final es utilizar métodos probabilísticos para simular estos sistemas, pero primero se debe establecer un lenguaje y un marco algorítmico para descubrir componentes latentes a partir de datos observables.

  • 00:05:00 En esta sección, el orador analiza los modelos de espacio de estado, que implican una tarea de estimación en línea donde el objetivo es actualizar rápidamente la estimación de un sistema dinámico complejo a medida que ingresan nuevos datos. Estos modelos a menudo son solo parcialmente observables e involucran funciones e interacciones altamente no lineales. Para lograr esto, se necesita un marco algorítmico para actualizar la creencia en consecuencia. El orador analiza la representación gráfica del lenguaje de modelado utilizado en los modelos de espacio de estado, donde la secuencia de nodos blancos representa variables aleatorias que modelan el estado del sistema y el cuadro rojo representa los datos observados. El estado de un sistema dinámico es un conjunto de cantidades físicas que determinan la evolución del sistema, las cuales son rastreadas e interactúan entre sí. Los datos observados, y, dependen del estado actual y, a menudo, solo están disponibles para algunos estados en la trayectoria, pero no para otros.

  • 00:10:00 En esta sección, Jonathan Schmidt presenta modelos de espacio de estado como un marco probabilístico para modelar sistemas dinámicos. Él enfatiza dos propiedades importantes de los modelos de espacio de estado: la propiedad de Markov y las medidas condicionalmente independientes. Utilizando estas propiedades, define un modelo de espacio de estados como un modelo bayesiano que incluye una distribución inicial para el primer estado, un modelo dinámico para los estados subsiguientes y un modelo de medición para las observaciones. Schmidt señala que estos componentes destilados formarán la base para el resto de la serie de conferencias.

  • 00:15:00 En esta sección, el orador explica cómo analizar sistemas utilizando modelos de espacio de estado y calcula cuatro distribuciones de probabilidad condicional diferentes. Estos incluyen la distribución de predicción, la distribución de filtrado, la probabilidad de datos y la distribución de suavizado, que se calculan para cada paso en una secuencia en curso. La derivación implica introducir la cantidad que se está calculando y construir una distribución conjunta basada en lo que ya se sabe. La ecuación de Chapman Kolmogorov se usa para predecir el futuro dadas las mediciones pasadas, y el paso de corrección que usa el teorema de Bayes se usa para integrar nuevos datos en la estimación.

  • 00:20:00 En esta sección, el ponente explica el concepto de modelo de espacio de estados y el esquema de predicción y actualización utilizado en él. Al calcular la distribución predicha a través de la ecuación de Chapman-Homograph, el modelo actualiza la predicción a través del teorema de Bayes. Luego, el orador presenta el pseudocódigo del algoritmo, que opera en un bucle de tiempo lineal sin retroceder. El orador enfatiza la importancia de producir una secuencia de distribuciones para los estados actuales dadas todas las mediciones anteriores. Por último, el disertante presenta un modelo de espacio de estado gaussiano lineal y cómo produce distribuciones.

  • 00:25:00 En esta sección, el orador presenta modelos de espacio de estado para un sistema gaussiano lineal con una matriz de covarianza de ruido de proceso Q y un modelo de medición con una matriz de medición H y una matriz de covarianza de medición R. La conferencia explica cómo la predicción y los momentos de filtración del modelo se pueden calcular mediante inferencia gaussiana, siendo la distribución posterior una complicada colección de términos. Luego, el orador presenta el filtro de Kalman, llamado así por el científico húngaro Rudolph Kalman, que permite el cálculo de momentos de predicción y filtrado en forma cerrada. Se presentan las ecuaciones de predicción y corrección del filtro de Kalman, siendo la ganancia de Kalman una cantidad importante que traduce la información obtenida en el espacio de medición al espacio de estado para actualizar la media de filtrado.

  • 00:30:00 En esta sección del video, Jonathan Schmidt presenta modelos de espacio de estado y explica cómo usarlos para filtrar trayectorias basadas en mediciones ruidosas. Proporciona un ejemplo de seguimiento de un automóvil en un plano 2D utilizando mediciones de GPS y escribe el código en Julia. Schmidt explica que el modelo dinámico es un modelo gaussiano lineal y la covarianza del ruido del proceso involucra términos polinómicos del paso de tiempo. También enfatiza que la trayectoria de filtrado solo usa puntos de datos anteriores y presentes y no está informada por el futuro.

  • 00:35:00 En esta sección, el orador explica la implementación del filtro de Kalman para modelos de espacio de estado utilizando el código de Julia. Explica cómo configurar los modelos de transición y medición, predecir la media y la covarianza y corregir la estimación utilizando el modelo de medición. Luego, el orador demuestra cómo ejecutar el filtro de Kalman y proporciona una visualización de la estimación resultante y la incertidumbre correspondiente.

  • 00:40:00 En esta sección, Jonathan Schmidt explica cómo se usan los modelos de espacio de estado para describir sistemas dinámicos y cómo se pueden construir usando modelos gaussianos lineales que permiten el cálculo de cantidades interesantes usando álgebra lineal. También introduce el concepto de suavizado posterior, que proporciona la mejor estimación de una trayectoria dados todos los puntos de datos disponibles, y se basa en el filtrado de distribuciones para calcularlas en un algoritmo recursivo hacia atrás. Si bien la derivación de las ecuaciones de suavizado involucra la teoría de probabilidad y la propiedad de Markov, la colección resultante de variables aleatorias gaussianas facilita el cálculo de la distribución de suavizado en cada paso de tiempo.

  • 00:45:00 En esta sección, el orador explica el proceso de cálculo de estimaciones de suavizado en modelos de espacio de estado gaussiano lineal. Esto implica utilizar operaciones de matriz de productos vectoriales y marginar el siguiente paso de tiempo mientras se margina para calcular el posterior a partir del filtrado posterior. El algoritmo para suavizar las estimaciones se calcula a través de bucles, ya que solo funciona si hay un conjunto de datos o una porción fija de pasos de tiempo a considerar. El proceso implica comenzar desde el final de la serie de tiempo y retroceder hasta el principio calculando la ganancia de suavizado y usándola para calcular los momentos suaves. El ponente también menciona que la estimación de filtrado coincide con la estimación de suavizado al final de la serie temporal. El algoritmo de suavizado finalmente proporciona un proceso gaussiano posterior como el suavizado posterior.

  • 00:50:00 En esta sección, el orador explica cómo calcular procesos posteriores gaussianos en tiempo lineal haciendo suposiciones que incluyen transición lineal, mediciones lineales, ruido gaussiano aditivo para dinámicas y mediciones, y la propiedad de Markov. Sin embargo, no todos los posteriores de procesos gaussianos se pueden calcular mediante filtrado y suavizado gaussiano. El orador también analiza la posibilidad de abandonar la suposición gaussiana, pero esto requeriría una clase de algoritmos completamente nueva. El siguiente paso implica observar modelos no lineales usando una aproximación de Taylor en primer orden para linealizar las funciones y luego usar el filtrado común.

  • 00:55:00 En esta sección, Jonathan Schmidt analiza los modelos de espacio de estado y el filtro de Kalman extendido, que es una extensión del filtro de Kalman para mediciones y dinámicas no lineales. La linealización de la dinámica no lineal y los modelos de medición se logra mediante el uso de matrices jacobianas, lo que permite el uso de las ecuaciones de filtro de Kalman estándar con algunas modificaciones. La media pronosticada se evalúa en la media de filtrado anterior, lo que permite calcular fácilmente la matriz de covarianza pronosticada. El modelo de medición se linealiza de manera similar y se derivan las ecuaciones de filtro de Kalman extendidas. Schmidt señala que el filtro de Kalman extendido es útil cuando no es posible o deseable diferenciar funciones no lineales.

  • 01:00:00 En esta sección, Jonathan Schmidt analiza qué sucede si no podemos diferenciar nuestra función y cómo solucionarlo. Una posible solución es usar una diferencia finita en el esquema, donde construimos una diferencia como diferencias finitas estándar y luego hacemos lo mismo. Schmidt también construye el suavizador de raíz extendida observando las ecuaciones suavizadas e insertando, como matriz de transición transpuesta, la matriz jacobiana de la función no lineal evaluada en la media de filtrado. Schmidt proporciona un ejemplo de código utilizando un modelo de espacio de estado no lineal de un péndulo, donde la dimensión de estado es 2 y las medidas son escalares. Establece el modelo dinámico utilizando una transformación no lineal y analiza la covarianza del ruido del proceso.

  • 01:05:00 En esta sección, Jonathan Schmidt analiza los modelos de espacio de estado y cómo implementarlos mediante código. Explica la dinámica no lineal del sistema y el modelo de medición lineal simple utilizado para las mediciones. También demuestra cómo implementar un filtro de Kalman extendido para estimar la trayectoria de un péndulo. El filtro usa la diferenciación automática para calcular la matriz jacobiana para la función dinámica no lineal y el gradiente para la función de medición. La animación resultante muestra la trayectoria predicha y las mediciones ruidosas.

  • 01:10:00 En esta sección, Jonathan Schmidt analiza la estimación de filtrado y el suavizado extendido en los modelos de espacio de estado. La estimación de filtrado muestra la estimación de incertidumbre en el área sombreada, mientras que el algoritmo de suavizado ordena la estimación de filtrado mediante la diferenciación automática, calculando la ganancia de suavizado, la media suavizada y la covarianza suavizada. El suavizador devuelve un marginal posterior del proceso gaussiano, que cubre bien la trayectoria de la verdad fundamental en su incertidumbre. Schmidt también menciona métodos alternativos para el filtrado bayesiano, como el filtro de Kalman sin perfume para aproximar distribuciones y el filtro de partículas, que se aproxima al verdadero posterior real. Si bien estos métodos tienen sus pros y sus contras y pueden ser más difíciles de implementar, pueden ser efectivos para modelos no lineales o no gaussianos. Schmidt recomienda el libro "Bayesian Filtering and Smoothing" de Simo Särkkä para aquellos interesados en aprender sobre estos métodos.

  • 01:15:00 En esta sección, el orador resume lo que aprendió sobre los modelos de espacio de estado, su modelo gaussiano lineal y los filtros Kalman y Kalman extendido que se usan para manejar mediciones y dinámicas no lineales. Se recomienda la próxima lección, en la que Nathaniel presentará un lenguaje poderoso para capturar las leyes de la naturaleza y combinarlo con la lección de una semana para aprender a simular estos sistemas dinámicos usando números probabilísticos a través del filtrado y suavizado bayesiano. El orador concluye pidiendo comentarios y agradeciendo a los oyentes por su tiempo.
 

Clase 6 -- Resolviendo Ecuaciones Diferenciales Ordinarias -- Nathanael Bosch



Numéricos de ML 6 -- Resolución de ecuaciones diferenciales ordinarias -- Nathanael Bosch

Nathanael Bosch cubre el concepto de ODE en el aprendizaje automático, que describe la derivada de una función dada su entrada y modela sistemas que evolucionan con el tiempo. Discute los desafíos de resolver ODE e introduce métodos numéricos, como Euler directo y Euler inverso, y sus propiedades de estabilidad. Bosch explora diferentes métodos numéricos y sus compensaciones en precisión y complejidad, como el punto medio explícito y los métodos clásicos de cuarto orden. Enfatiza la importancia del error local, el orden y la comprensión de la estabilidad para evitar problemas al usar bibliotecas para resolver ODE.

Esta segunda parte del video trata el problema de estimar el campo vectorial y el valor inicial de una ecuación diferencial ordinaria (EDO) utilizando técnicas de aprendizaje automático. El ponente explica la importancia de escribir el modelo generativo y el modelo de observación de los estados de la EDO para resolver el problema de inferencia. La función de verosimilitud se maximiza minimizando el logaritmo de verosimilitud negativo, lo que produce una estimación del parámetro. El orador demuestra este enfoque utilizando un modelo SIR-D y analiza el uso de redes neuronales para mejorar la estimación de la tasa de contacto. También se destaca la importancia de las ODE en la investigación del aprendizaje automático y su papel en la resolución de problemas del mundo real.

  • 00:00:00 En esta sección de la conferencia, Nathanael Bosch presenta el concepto de ecuaciones diferenciales ordinarias (EDO) y cómo se utilizan en el aprendizaje automático. Define una ODE como una forma de describir la derivada de una función dada su entrada y explica que, a menudo, en el aprendizaje automático, las ODE se utilizan para modelar sistemas que evolucionan con el tiempo. Brinda ejemplos de dónde aparecen las EDO en el aprendizaje automático, incluidos los modelos de difusión y los problemas de optimización. Bosch también analiza los desafíos de resolver ODE, que requieren solucionadores numéricos complejos debido a la impracticabilidad de resolverlos a la perfección.

  • 00:05:00 En esta sección, el orador explica cómo se utilizan las EDO para transformar el ruido en datos para modelar distribuciones complejas, lo que se hace mediante la normalización de flujos. También explica el concepto de EDO neuronales, que generó mucha investigación y reinterpreta las redes neuronales residuales como discretizaciones de algo más continuo. Además, el orador relaciona las ODE con la optimización, específicamente, el flujo de gradiente, sobre el cual es más fácil escribir un teorema que el descenso de gradiente discreto. Por último, el orador analiza cómo la inferencia de parámetros es un ejemplo del uso de ODE para aprender algo desconocido y, en la próxima lección, interpretará las soluciones numéricas de ODE como algoritmos de aprendizaje automático. El orador concluye que si bien podemos escribir una solución para una ODE, no es útil debido al problema de integración y las variables desconocidas.

  • 00:10:00 En esta sección, el narrador presenta ecuaciones diferenciales ordinarias (EDO) y problemas de valor inicial, que son cruciales para comprender muchos algoritmos en el aprendizaje automático. Las ODE representan la tasa de cambio de un sistema a lo largo del tiempo, y se requiere el valor inicial para resolver el problema. La solución de una EDO viene dada por una función que depende del valor inicial, y las soluciones numéricas de las EDO requieren extrapolarse paso a paso. El narrador presenta un problema de EDO logístico para el crecimiento de la población y se da la solución. El narrador enfatiza que el objetivo de resolver un problema de valor inicial es encontrar la solución para un punto de partida específico dado el campo vectorial de las ODE. La dificultad para resolver ODE es tanto resolver la integral como manejar el término diferencial. El narrador sugiere tamaños de pasos pequeños para soluciones numéricas de EDO para aproximarse a la solución verdadera con precisión.

  • 00:15:00 En esta sección, Nathanael Bosch explica diferentes métodos numéricos para resolver ecuaciones diferenciales ordinarias. El primer método que presenta es la aproximación de la serie de Taylor de orden cero, donde solo se considera el valor de la función en el paso de tiempo actual para la aproximación. Esto conduce al método Forward Euler, que es una fórmula simple y explícita para calcular el siguiente punto en el tiempo. Bosch señala que si bien este método es una mala aproximación, todavía se usa ampliamente en software y simulaciones dinámicas.

  • 00:20:00 En esta sección, el video analiza dos métodos para resolver ecuaciones diferenciales ordinarias (EDO): el método de Euler hacia adelante y el método de Euler hacia atrás. El método de Euler hacia adelante usa la pendiente en el punto actual para aproximar el valor en el siguiente punto, mientras que el método de Euler hacia atrás usa una aproximación de la serie de Taylor alrededor de Tau igual a t más h. El video proporciona ejemplos de código para ambos métodos utilizando la ODE logística, que producen soluciones razonables. Sin embargo, el video advierte que las ecuaciones diferenciales más complejas pueden requerir una consideración adicional al elegir un solucionador numérico. Además, el video toca la complejidad de los métodos numéricos y la importancia de conocer los algoritmos subyacentes cuando se usan paquetes numéricos.

  • 00:25:00 En esta sección, el orador analiza la diferencia entre los métodos explícitos e implícitos para resolver ecuaciones diferenciales ordinarias (EDO) y la importancia de la estabilidad al elegir el algoritmo apropiado. El hablante compara los métodos de Euler directo y de Euler inverso para una EDO escalar simple, x' = λx, donde λ es menor que cero. El método de Euler hacia adelante solo es estable para tamaños de paso donde 1 + hλ es menor que uno, mientras que el método de Euler hacia atrás es estable para todos los tamaños de paso. El orador demuestra que elegir un tamaño de paso inapropiado puede conducir a un comportamiento de divergencia, enfatizando la importancia de la estabilidad al seleccionar un método apropiado para resolver ODE.

  • 00:30:00 En esta sección, Nathanael Bosch analiza las diferencias entre los métodos de Euler directo y de Euler inverso para resolver ecuaciones diferenciales ordinarias (EDO). Si bien ambos métodos usan matemáticas similares, Euler hacia atrás requiere pequeños requisitos para la convergencia y puede manejar áreas rígidas en las ODE que Euler hacia adelante no puede. La cuadratura numérica es necesaria y hay muchas formas de hacerlo. Además, construir X hat, la aproximación de la función en un momento dado, es otro problema para el que diferentes métodos arrojan respuestas diferentes. En general, la elección del método depende de factores como el tiempo de cálculo y la inclinación esperada de la ODE.

  • 00:35:00 En esta sección, Nathanael Bosch explica la formulación general de métodos numéricos para resolver ecuaciones diferenciales ordinarias (EDO), que involucra tres variables: bi, Qi y X hats. También presenta cuadros de carnicero como una forma de hacer que hablar sobre los diferentes métodos sea más compacto y legible, y señala que las diferentes formas de calcular el bi y el Qi, así como la forma de construir los sombreros X, son lo que hace que cada método sea único. . Bosch da ejemplos de diferentes métodos numéricos, incluido el más simple, Euler directo, que satisface la ecuación general y tiene un cuadro de carnicero que contiene ceros pero sigue siendo un método suficientemente útil. También introduce Euler hacia atrás como un método implícito que carece de un cero y se calcula de manera ligeramente diferente que Euler hacia adelante.

  • 00:40:00 En esta sección, el video explora las diferentes estrategias que se pueden usar para resolver ecuaciones diferenciales ordinarias (EDO). Una sugerencia de un oyente fue dividir la integral en diferentes términos y dar pasos entre cada término, pero el presentador explica que esto daría como resultado un algoritmo diferente con propiedades diferentes. El video continúa demostrando la regla explícita del punto medio, que está cerca de hacer dos pasos de Euler, pero no es exactamente lo mismo. El presentador explica que la regla del punto medio extrapola desde el punto y reduce lo que hizo el delantero Euler para obtener una mejor extrapolación. Además, el video explora el método clásico de cuarto orden, que se llama así porque fue el método original desarrollado por Byron y Kota. Finalmente, el video señala que si bien existe cierta libertad para elegir los coeficientes para resolver ODE, ya existen cientos de métodos conocidos en Wikipedia.

  • 00:45:00 conduce a dos soluciones. En el método Dobre-Fermi, hay dos líneas al final porque da dos soluciones en cada paso. Este método es complicado porque satisface múltiples propiedades y se vuelve más complejo a medida que el Tableau crece. El objetivo no debe ser comprender cómo funciona el gradiente, sino centrarse en las propiedades que deben satisfacer los coeficientes. El método fue motivado por las reglas de cuadratura y, si bien puede que no haya un mapeo directo a las EDO, todavía están muy motivados por las reglas de cuadratura.

  • 00:50:00 En esta sección, el video analiza cómo la resolución de ecuaciones diferenciales puede ser complicada debido a los métodos que apuntan a la eficiencia al proporcionar dos métodos a la vez con diferentes grados de precisión. Uno es más preciso que el otro, y usar el más preciso puede ayudar a estimar el error del menos preciso, lo que puede ser útil para ajustar el tamaño del paso al resolver la ODE mientras se satisface algún error local. El video también menciona que existen diferentes tipos de métodos con diferentes propiedades, y la estabilidad también es un factor a considerar al elegir un método para resolver un problema. Por último, el video toca brevemente la importancia del orden en la resolución de ecuaciones diferenciales.

  • 00:55:00 En esta sección, Nathanael Bosch analiza los diferentes métodos para resolver ecuaciones diferenciales ordinarias (EDO) y el compromiso entre precisión y complejidad. Destaca la importancia del error local, que mide el error en un solo paso de la estimación, y cómo se puede reducir haciendo que el tamaño del paso sea más pequeño. Luego se analizan diferentes métodos, como el de Euler duro y el punto medio explícito, cada uno con su propio orden y tasa de convergencia de errores. Bosch también se refiere a las diversas campanas y silbatos que vienen con el uso de bibliotecas para resolver ODE, como la selección de tamaño de paso y la selección automática de servidor, pero advierte que aún es importante comprender la estabilidad y el orden para evitar posibles problemas cuando las cosas se rompen.

  • 01:00:00 En esta sección del video, el orador analiza el problema de estimar el campo vectorial y el valor inicial de una ecuación diferencial ordinaria (ODE) a partir de datos utilizando técnicas de aprendizaje automático. Da un ejemplo de un modelo epidemiológico donde el objetivo es estimar los parámetros beta, gamma y lambda que ajustan la ODE a los datos observados. El ponente explica que escribir el modelo generativo y el modelo de observación de los estados de la EDO es fundamental para resolver el problema de inferencia. Señala que la estimación de los parámetros permite una mejor comprensión del proceso que generó los datos y la verificación cruzada de los parámetros inferidos con la literatura puede proporcionar información adicional.

  • 01:05:00 En esta sección, el orador analiza el problema de la inferencia de parámetros y cómo calcular la estimación de máxima verosimilitud para resolver ecuaciones diferenciales ordinarias (EDO). La función de verosimilitud es un producto de gaussianas que no se puede evaluar debido a la suposición de que no se puede obtener la verdadera X, por lo que se requiere una aproximación. Al suponer que el solucionador es lo suficientemente bueno, el orador demuestra que reemplazar una solución estimada por la solución verdadera produce un término evaluable. Luego, la función de probabilidad se maximiza minimizando el logaritmo de probabilidad negativo y la función de pérdida resultante produce una estimación de parámetro. El disertante concluye con un ejemplo usando un modelo SIR-D donde el número de individuos infectados al principio es desconocido y necesita ser estimado.

  • 01:10:00 En esta sección, el orador analiza cómo realizar la inferencia de parámetros en un modelo de ecuaciones diferenciales ordinarias (EDO). La simulación del modelo ODE se realiza tomando muestras ruidosas de él, y se utilizan dos parámetros para formar una función de pérdida que se calcula comparando las líneas en el diagrama de dispersión con los datos reales. El optimizador se usa para iterar sobre la suposición inicial y los parámetros, y el optimizador L-BFGS se usa para generar datos de salida. Los datos resultantes se pueden utilizar para interpretar el modelo y sus parámetros, que se pueden comparar con la literatura. Luego, el modelo se mejora haciendo que la tasa de contacto varíe con el tiempo, lo que lo hace un poco más complejo, y todo el proceso de inferencia de parámetros se realiza nuevamente.

  • 01:15:00 En esta sección, Nathanael Bosch analiza los desafíos de estimar beta de t, que describe una estimación variable en el tiempo de una tasa de contacto en ODE y enfatiza la necesidad de mejores herramientas para resolver el problema de estimación. Para abordar esto, propone usar una red neuronal para modelar beta de t y minimizar una función de pérdida de L2 en la inferencia de parámetros. Si bien el enfoque de la red neuronal es menos interpretable y no proporciona buenas estimaciones de incertidumbre, proporciona una estimación puntual de la tasa de contacto. Además, los resultados sugieren que el enfoque de la red neuronal aún necesita una mejora significativa para que coincida con el ajuste del modelo GP, y se deben tener en cuenta las incertidumbres en los resultados.

  • 01:20:00 En esta sección, el orador analiza el enfoque del uso de redes neuronales para resolver ODE y menciona que, aunque la cuantificación de la incertidumbre no está fácilmente disponible con este método, sigue siendo un enfoque conceptual válido. Se analizan las estimaciones de máxima verosimilitud y se menciona la posibilidad de agregar datos previos y muestreo para proporcionar una cuantificación de la incertidumbre. El orador también analiza el próximo tema de los solucionadores de ODE numéricos probabilísticos y destaca la importancia de las ODE en la investigación del aprendizaje automático y su papel en la resolución de problemas del mundo real. Las ODE neuronales también se mencionan brevemente como un enfoque más general y sin estructura, pero con similitudes en la función de pérdida y los procedimientos de entrenamiento.
 

Clase 7 -- Solucionadores numéricos probabilísticos de ODE -- Nathanael Bosch



Numéricos de ML 7 -- Solucionadores de EDO numéricos probabilísticos -- Nathanael Bosch

En este video, Nathanael Bosch presenta el concepto de solucionadores de ODE numéricos probabilísticos, que combinan la estimación de estado y los solucionadores de ODE numéricos para proporcionar distribuciones sobre los estados o soluciones de ODE. Bosch explica cómo se puede utilizar un proceso de Wiener integrado Q veces para modelar la solución real y cómo este proceso permite cuantificar y propagar incertidumbres en el sistema. Luego demuestra cómo usar filtros de Kalman extendidos para resolver ODE y cómo los tamaños de paso afectan las estimaciones de error. El video termina con una discusión sobre la calibración de la incertidumbre y el uso del filtro de Kalman extendido para estimar parámetros en modelos de espacio de estado no lineales.

En la segunda parte de la conferencia, Nathanael Bosch habla sobre los beneficios de usar métodos probabilísticos para resolver ODE, incluida la obtención de estimaciones de incertidumbre significativas y la flexibilidad de incluir características adicionales del modelo, como valores iniciales. Demuestra este enfoque con ejemplos como el oscilador armónico y las ecuaciones algebraicas diferenciales. Bosch también muestra cómo la inclusión de información adicional y el uso de técnicas probabilísticas pueden conducir a resultados más significativos, usando un ejemplo de un modelo epidémico que no pudo representar con precisión los datos usando métodos escalares tradicionales. Utiliza filtros y suavizadores de Kalman extendidos para resolver ODE a través de la estimación de estado, tratando la estimación como un problema probabilístico y destaca la importancia de ser bayesiano en la toma de decisiones.

  • 00:00:00 En esta sección, Nathanael Bosch introduce el concepto de solucionadores de EDO numéricos probabilísticos. Comienza resumiendo las conferencias anteriores, incluidos los modelos de espacio de estado y los filtros/suavizados comunes para la estimación de estado y los solucionadores numéricos de EDO. Explica que el desafío es estimar el estado de una solución ODE dada una ecuación diferencial, y que los solucionadores numéricos de ODE solo brindan una aproximación. Luego, Bosch propone una forma de combinar los dos conceptos interpretando las ODE como problemas de estimación de estado y resolviéndolos como problemas de estimación de datos. Los algoritmos resultantes proporcionan distribuciones sobre los estados o soluciones ODE, creando servidores numéricos probabilísticos que ofrecen una salida más rica que los servidores clásicos.

  • 00:05:00 En esta sección, se discute el concepto de solucionadores de EDO numéricos probabilísticos. Estos solucionadores estiman la verdadera solución al proporcionar una única estimación X a través de la evaluación del campo vectorial para actualizar o extender la estimación a un punto de tiempo futuro con un error que depende del tamaño del paso. Luego, la discusión pasa al uso de la estimación de estado especial como una herramienta para resolver problemas de estimación numérica de EDO. Luego se explican la distribución de filtrado, el suavizado posterior y el paso de predicción que estima los estados futuros dada la información actual, y se mencionan algoritmos como el filtro de Kalman extendido y el suavizador de Kalman extendido como métodos simples para calcular estas cantidades. La sección concluye con la idea de que las soluciones numéricas ODE pueden expresarse como un problema de inferencia en lugar de tratar de calcular la verdadera solución real, y que el objetivo es encontrar el posterior de x de t que satisfaga la condición inicial y ODE en un discreto cambio de agujas.

  • 00:10:00 En esta sección, nos sumergimos en la construcción de un modelo de espacio de estado para solucionadores de EDO numéricos probabilísticos. El estado que consideramos es el proceso de Wiener integrado Q veces. Este estado es un proceso estocástico que describe el sistema dinámico y rastrea las derivadas hasta Q. Al rastrear un número limitado de derivadas, podemos obtener un modelo de estado probabilístico que nos permite cuantificar y propagar la incertidumbre en el sistema. El objetivo principal es definir un modelo previo, de probabilidad y de datos que, una vez resuelto, nos dará una estimación de la salida. Esto es necesario para realizar el filtrado y suavizado gaussiano, que es un algoritmo rápido para la inferencia.

  • 00:15:00 En esta sección, Nathanael Bosch explica el proceso estocástico que modela la verdadera solución de un proceso Winner integrado Q veces. El proceso tiene transiciones en forma de modelo Gaussiano que utiliza una Matriz a de H y una Matriz de covarianza Q de H las cuales tienen fórmulas de forma cerrada. El acceso a una entrada en el proceso es una operación lineal, por lo que es conveniente acceder a la primera y segunda derivada. El proceso es markoviano y satisface las propiedades de un proceso gaussiano. Bosch también muestra gráficos de diferentes muestras del proceso, lo que ilustra por qué se llama un proceso lineal dos veces integrado.

  • 00:20:00 En esta sección, el disertante analiza el Q veces integrado Ornstein-Uhlenbeck anterior y cómo es conveniente porque pueden escribir las densidades de transición necesarias para el filtrado y suavizado gaussiano posterior. La parte de probabilidad y combinación de datos también es importante porque informa al anterior para hacer lo deseado en la parte superior. El disertante muestra cómo usar el lenguaje de la ODE y define una función de medida u operador de información que debería ser cero en un mundo perfecto donde hay cómputo infinito. También introducen un modelo de observación y explican por qué ayuda a satisfacer lo deseado para la inferencia. Finalmente, el modelo de verosimilitud sin ruido es una verosimilitud directa, lo cual es conveniente porque tiene en mente las actualizaciones del filtro de Kalman.

  • 00:25:00 En esta sección, Nathanael Bosch analiza el modelo generativo de una Z, que es un ejemplo concreto de la EDO logística, y cómo se relaciona con el proceso de inferencia. El modelo generativo permite la simulación de soluciones, el cálculo de derivadas y la generación de una posterior, que colapsa alrededor de la Z. Este modelo generativo, además del modelo de verosimilitud que codifica la ecuación diferencial, permite resolver el modelo de espacio de estado y proporciona estimaciones para X, que se relacionan con la solución. La inferencia permite establecer una relación entre el resultado final anterior y el deseado, y permite resolver el modelo de espacio de estado.

  • 00:30:00 En esta sección, Nathanael Bosch analiza la importancia de incluir el valor inicial al resolver una ecuación diferencial ordinaria a través de métodos numéricos probabilísticos. Explica que agregar otra medida que dependa solo del valor inicial al modelo de observación es una forma más general de incluir el valor inicial. Luego proporciona pseudocódigo para los componentes básicos del filtro Kalman extendido y el filtro ODE necesarios para implementar el algoritmo y describe el ciclo de filtrado estándar involucrado en los pasos de predicción y actualización. El algoritmo extendido primero satisface el valor inicial y usa el modelo de transición A y Q para calcular el tamaño del paso.

  • 00:35:00 En esta sección, Nathanael Bosch demuestra el código necesario para resolver una ecuación diferencial ordinaria (EDO) usando métodos numéricos probabilísticos en Julia. Señala que si bien las fórmulas pueden parecer complicadas, las 10 líneas de código necesarias para configurar el modelo correctamente son sencillas. Bosch muestra cómo se implementa el filtro de Kalman extendido con solo dos líneas de código y se reemplaza la notación estándar para multiplicar por el inverso con una solución numéricamente estable que resuelve un sistema lineal. Define el campo vectorial, el período de tiempo inicial y la solución verdadera para la ODE logística y demuestra cómo definir el anterior utilizando el proceso de Wiener integrado de dos tiempos. La implementación de Bosch del algoritmo de filtro de Kalman ampliado coincide estrechamente con el pseudocódigo de las diapositivas, y la distribución inicial que utiliza se establece arbitrariamente en media cero y covarianza estándar.

  • 00:40:00 En esta sección, Nathanael Bosch demuestra cómo usar los filtros de Kalman extendidos para resolver ODE y traza las estimaciones de los filtros. Luego juega con los tamaños de los pasos, mostrando cómo los pasos más pequeños reducen las incertidumbres y cómo los más grandes las aumentan. Explica que la incertidumbre no solo crece con el tiempo y que las estimaciones de error son un modelo del error que está ocurriendo. Finalmente, demuestra que suavizar generalmente mejora los resultados de las trayectorias, lo que coincide con la motivación de hace dos conferencias. Sin embargo, las estimaciones de error podrían mejorarse aún más, pero le pide a la audiencia que aporte información sobre cómo hacerlo.

  • 00:45:00 En esta sección, aprendemos que la estimación del error para el solucionador ODE numérico probabilístico es demasiado grande y debe corregirse mediante la calibración de la incertidumbre. El hiperparámetro sigma al cuadrado influye directamente en las incertidumbres y debe configurarse correctamente para obtener estimaciones de incertidumbre reales que sean significativas. La motivación para establecer los hiperparámetros es similar a la de los procesos gaussianos, donde los hiperparámetros se estiman maximizando la probabilidad de los datos dado el parámetro. La probabilidad de los datos se puede descomponer, lo que facilita su expresión y optimización.

  • 00:50:00 En esta sección, Nathanael Bosch analiza el uso del filtro de Kalman extendido para estimar los parámetros en un modelo de espacio de estado no lineal. La P de z K dado Z1 hasta K menos 1 se estima mediante estimaciones gaussianas, y el sombrero Sigma se calcula como el argmax de la estimación de cuasi máxima verosimilitud. En los filtros ODE, es posible calcular la estimación de máxima verosimilitud en forma cerrada utilizando una forma reescalada de recalibrar las estimaciones de parámetros. Este método produce mejores estimaciones y corresponde a la estimación de máxima verosimilitud Sigma. Bosch explica cómo se puede implementar esto usando una función de actualización con un sufijo de calibración.

  • 00:55:00 En esta sección, Nathanael Bosch analiza el filtro de Kalman extendido (EKF) para solucionadores numéricos probabilísticos de ecuaciones diferenciales ordinarias (ODE). Menciona que se ha modificado para aumentar el sombreado sigma, lo que da como resultado que la suma se calcule de forma continua y se divida por n, que es la cantidad que quieren calcular. El EKF anteriormente estaba tratando de aproximarse a algo tan gaussiano que podría no serlo, y el objetivo es obtener estimaciones de incertidumbre que sean lo más informativas posible. Al hacerlo, tienen un algoritmo que proporciona estimaciones de error útiles que describen significativamente el error numérico del solucionador ODE. El algoritmo obtenido es rápido y proporciona estimaciones de incertidumbre no perfectas pero útiles.

  • 01:00:00 En esta sección, Nathanael Bosch explica la motivación para usar métodos probabilísticos para resolver ODE. Más allá de simplemente cuantificar la incertidumbre y obtener estimaciones y gráficos significativos de la incertidumbre, Bosch cree que formular solucionadores de ODE de manera probabilística es flexible y conveniente, lo que permite la inclusión de características adicionales del modelo, como valores iniciales. Al definir un modelo de espacio de estado y ejecutar un filtro de Kalman extendido, es posible resolver no solo problemas numéricos con valor inicial, sino también ODE de orden superior con información adicional.

  • 01:05:00 En esta sección, Nathanael Bosch explica un enfoque diferente de los valores iniciales para los solucionadores de ODE. Define una nueva cantidad para asegurarse de que X1 sea igual a la derivada inicial dada, y esto se puede usar para ejecutar un filtro de comando extendido con algunos pasos de predicción y actualización. Muestra el ejemplo del oscilador armónico y cómo solo se necesitaron cambiar dos líneas antes para incluir una actualización en la primera derivada. La calibración se aplica nuevamente para obtener resultados significativos, y el error en este caso no tiende a cero ya que no hay un atractor al que tender, sino que se ajusta según la configuración del problema. Bosch también analiza las ecuaciones algebraicas diferenciales, que son ecuaciones diferenciales que no se pueden mover de izquierda a derecha debido a una matriz singular.

  • 01:10:00 En esta sección, el disertante discute el concepto de ecuaciones algebraicas diferenciales (DAE), que son ecuaciones que no describen una derivada y tienen un valor constante en algún punto. El orador sugiere una modificación al algoritmo de probabilidad ODE para crear un algoritmo de probabilidad DAE que pueda resolver DAE de manera probabilística. Luego, el orador da un ejemplo de un problema donde una ODE tiene información adicional y sugiere una modificación al modelo de espacio de estado para introducir un modelo de observación adicional para que el algoritmo pueda aplicar ambos modelos de observación para satisfacer g en la cuadrícula discreta. El orador proporciona un ejemplo de video que ilustra la importancia de las cantidades de conservación en la resolución de problemas con EDO e información adicional.

  • 01:15:00 En esta sección del video, Nathanael Bosch analiza el uso de solucionadores numéricos probabilísticos de ODE y los beneficios de incluir información adicional para mejorar los resultados de los modelos ODE. Presenta un ejemplo de un modelo epidémico, donde el modelo escalar tradicional no pudo representar con precisión los datos, y muestra cómo se puede utilizar un proceso gaussiano para mejorar el modelo. Agregar más información y usar técnicas probabilísticas puede, en última instancia, conducir a un resultado más significativo.

  • 01:20:00 En esta sección, Bosch analiza los solucionadores de ODE numéricos probabilísticos, que implican el uso de un operador de medición lineal para medir ciertas dimensiones de una solución a una ODE, representada como un objeto de cuatro dimensiones (sirnd). Después de crear un modelo de espacio de estados, se resuelve la solución ODE, con la adición de un estado beta, y se consideran los modelos de probabilidad de la solución ODE, el valor inicial y los datos. La tarea de inferencia implica el uso de un filtro de Kalman extendido para determinar cuáles son los puntos blancos, dados los puntos negros de los datos observados. También se sugiere que X y beta se fusionen para una reformulación más simple.

  • 01:25:00 En esta sección, el orador explica cómo funcionan los solucionadores de ODE numéricos probabilísticos, que es esencialmente una forma de resolver ODE a través de la estimación de estado, tratando la estimación como un problema probabilístico. Él define un método para resolver ODE utilizando filtros y suavizadores de Kalman extendidos que conducen a una gama de solucionadores a los que a veces se hace referencia como "filtros ODE". El ponente destaca la importancia de ser bayesiano en la toma de decisiones y la utilidad de las estimaciones de incertidumbre, así como la conveniencia de utilizar algoritmos pacientes que se pueden aplicar a una variedad de problemas, incluida la resolución de EDO.

  • 01:30:00 En esta sección, el orador habla sobre el uso de filtros de comandos externos de una manera no estándar para resolver problemas numéricos y realizar inferencias a partir de datos de una manera que combina la física y las observaciones externas generales. Según el ponente, el filtrado y suavizado bayesianos son la mejor manera de modelar o formular sistemas dinámicos, ya que permite la adición flexible de información y la factorización del algoritmo de inferencia. Se alienta a la audiencia a escanear los códigos QR para recibir comentarios y las preguntas para el orador son bienvenidas.
 

Clase 8 -- Ecuaciones en derivadas parciales -- Marvin Pförtner



Numéricos de ML 8 -- Ecuaciones en derivadas parciales -- Marvin Pförtner

Marvin Pförtner analiza las ecuaciones diferenciales parciales (PDE) y su importancia en el modelado de varios sistemas del mundo real. Explica cómo las PDE representan el mecanismo de un sistema con una función desconocida y un operador diferencial lineal, pero requieren resolver parámetros que a menudo se desconocen. La inferencia de procesos gaussianos se puede utilizar para analizar modelos PDE e inyectar conocimiento mecanicista en modelos estadísticos. Pförtner examina la distribución de calor en una unidad central de procesamiento en una computadora restringiendo el modelo a una distribución de calor bidimensional y presentando suposiciones hechas para el modelo. La conferencia también cubre el uso de procesos gaussianos para resolver PDE y agregar condiciones de contorno realistas para modelar la incertidumbre. En general, el enfoque GP combinado con la noción de un operador de información nos permite incorporar conocimiento previo sobre el comportamiento del sistema, inyectar conocimiento mecanicista en forma de PDE lineal y manejar condiciones de contorno y lados derechos.

En la segunda parte de este video, Marvin Pförtner analiza el uso de procesos gaussianos para resolver ecuaciones diferenciales parciales (PDE) mediante la estimación de una medida de probabilidad sobre funciones en lugar de una estimación puntual. Explica los beneficios de la cuantificación de la incertidumbre y señala que este enfoque es más honesto porque reconoce la incertidumbre en la estimación de la función del lado derecho de la PDE. Pförtner también explica el kernel de Matern, que es útil en la práctica y puede controlar la diferenciabilidad del GP, y proporciona una fórmula para calcular el parámetro P para el kernel de Matern. Explica además cómo construir un kernel d-dimensional para PDE tomando productos de kernels Matern unidimensionales sobre las dimensiones y la importancia de ser matemáticamente cuidadoso en la construcción del modelo.

  • 00:00:00 En esta sección de la conferencia, Marvin Pförtner presenta las ecuaciones diferenciales parciales (EDP) y su importancia en la descripción de modelos mecánicos que generan datos en el mundo real, incluidos los mercados financieros, fluidos como el clima y el tiempo, y la mecánica ondulatoria. . A pesar de ser difíciles de resolver, las PDE lineales siguen siendo un poderoso lenguaje de modelado, ya que describen con precisión muchos procesos físicos, como la conducción térmica, el electromagnetismo y las velocidades de las partículas en el movimiento browniano. La conferencia se centra específicamente en la integración de modelos basados en PDE en modelos de aprendizaje automático probabilístico a través de un ejemplo práctico de modelado.

  • 00:05:00 En esta sección, Marvin Pförtner analiza el uso de ecuaciones diferenciales parciales (EDP) para modelar varios sistemas, incluidos modelos físicos y financieros. Enfatiza la importancia de comprender el comportamiento del mecanismo de un sistema e inferir su comportamiento con el uso de modelos PDE. Sin embargo, las PDE a menudo requieren parámetros del sistema que son desconocidos y el objetivo es utilizar la estimación estadística bayesiana para fusionar el conocimiento mecánico del sistema con datos de medición para encontrar estos parámetros desconocidos y ganar confianza en las predicciones. Marvin también explica las PDE lineales y cómo se relacionan con los sistemas físicos con extensión espacial.

  • 00:10:00 En esta sección, Marvin Pförtner analiza las ecuaciones diferenciales parciales (PDEs), que se usan comúnmente para describir sistemas físicos como las distribuciones de temperatura o la fuerza generada por un conjunto de cargas eléctricas. La función desconocida en una PDE representa el sistema que se está simulando, y el conocimiento mecanicista viene dado por un operador diferencial lineal. Sin embargo, un desafío con las PDE es que generalmente no tienen una solución analítica y requieren solucionadores numéricos que introducen errores de discretización. Los parámetros materiales y la función del lado derecho son dos de los parámetros que no se pueden conocer con exactitud, lo que genera dificultades para propagar las incertidumbres a través de los solucionadores clásicos. Además, las PDE generalmente no identifican de manera única su solución, lo que requiere que se impongan condiciones adicionales.

  • 00:15:00 En esta sección, el orador analiza las ecuaciones diferenciales parciales (PDEs) y su relación con las funciones, que son objetos de dimensión infinita. El operador diferencial es lineal, lo que significa que las funciones lineales están en el núcleo del operador diferencial, lo que permite agregar un término lineal a cualquier solución de la ecuación de Poisson y aun así obtener una solución. Las condiciones de contorno son necesarias para modelar las interacciones fuera del dominio de simulación, que luego se resumen en cómo el exterior interactúa con la simulación en el límite. Las PDE son declaraciones sobre funciones que pertenecen a espacios de funciones, que son conjuntos de funciones que tienen una estructura de espacio vectorial similar a la de Rn, lo que permite la representación de operadores lineales mediante matrices. Los operadores lineales son mapas entre espacios de funciones que tienen una propiedad de linealidad porque un operador diferencial asigna una función a su derivada.

  • 00:20:00 En esta sección, Pförtner explica que las PDE lineales son esencialmente sistemas lineales en un espacio vectorial de dimensión infinita y transmite la importancia de definir normas en espacios vectoriales y comprender la convergencia. Luego introduce un modelo matemático de la distribución de calor en una unidad central de procesamiento en una computadora y restringe el modelo a una distribución de calor bidimensional en una línea que corta el chip. La conferencia analiza las suposiciones hechas para este modelo y cómo es un buen modelo para este caso particular.

  • 00:25:00 En esta sección, el orador analiza el modelado de fuentes y disipadores de calor en un chip y cómo se puede representar mediante ecuaciones diferenciales parciales (PDE). Explican la ecuación del calor, que es una PDE lineal de segundo orden y cómo se puede aplicar para modelar la distribución de temperatura en el chip. El orador también explica cómo el conocimiento mecanicista de la ecuación diferencial se puede inyectar en modelos estadísticos al interpretar las PDE como una observación de la función desconocida y la imagen bajo el operador diferencial. Las PDE se comparan con las leyes fundamentales de la física que describen la conservación de cantidades fundamentales como la energía y la masa.

  • 00:30:00 En esta sección, Marvin Pförtner analiza la relación entre la temperatura y la energía térmica y cómo son proporcionales entre sí a través de los parámetros materiales. Él explica que cada cambio en la energía térmica puede explicarse por un valor conocido de calor que ingresa al sistema o por el calor que fluye hacia un punto determinado desde los alrededores a través de la conducción de calor. Luego presenta el operador de información como un concepto matemático que se puede utilizar para expresar cualquier información, incluida la de una ecuación diferencial. Explica además cómo se puede usar un proceso gaussiano anterior para modelar una función desconocida U, y cómo se puede calcular el posterior usando cierres de procesos gaussianos bajo observaciones lineales. Sin embargo, debido a que resolver PDE requiere un conjunto infinito de observaciones, es computacionalmente imposible para la mayoría de los casos, a menos que se conozca la información analítica sobre el problema que se está resolviendo.

  • 00:35:00 En esta sección, el orador analiza el uso de procesos gaussianos (GP) para resolver ecuaciones diferenciales parciales (PDEs), que es similar al enfoque utilizado en las ecuaciones diferenciales ordinarias (ODEs). El GP se ve como una medida de probabilidad en espacios de funciones y un operador lineal mapea las rutas de muestra de ese GP en RN. Se encuentra que el predictor previo de este proceso es una distribución normal, con la media dada por la imagen de la función media GP a través del operador lineal, y la matriz de covarianza es muy similar a la matriz de covarianza encontrada en el caso de dimensión finita. La parte posterior de este evento resulta tener una estructura similar. El orador señala que hay muchos detalles teóricos involucrados y es necesario tener precaución debido a los infinitos involucrados en la resolución de PDE usando GP.

  • 00:40:00 En esta sección, Marvin Pförtner explica cómo calcular una elección específica de un operador lineal y las dificultades para expresarlo en notación de operador lineal estándar. También analiza cómo diferenciar un argumento, diferenciar el otro argumento y construir una matriz de todas las derivadas por pares entre dos puntos. Luego habla sobre cómo usar el mismo teorema para aplicarlo al problema y calcular el proceso gaussiano posterior, y cómo definir el conjunto de puntos de colocación.

  • 00:45:00 En esta sección, el orador explica cómo una forma generalizada de inferencia del proceso gaussiano puede resolver un problema de valor límite. Describen cómo se pueden representar las observaciones utilizando una función negra que coincide con el lado derecho de la ecuación diferencial parcial (PDE) y cómo la información aprendida de esto se puede propagar de nuevo al proceso gaussiano original. El grado de libertad en la EDP que las condiciones de contorno no fijan puede causar incertidumbre, pero al imponer las condiciones de contorno de Dirichlet, el posterior se convierte en un problema de regresión del proceso gaussiano normal, que funciona si se observan los dos valores de contorno. El orador enfatiza la importancia de señalar que los valores límite en el despliegue generalmente no se conocen, y sería útil agregar incertidumbre tanto a los valores límite como a la distribución de la fuente de calor.

  • 00:50:00 En esta sección, el orador discute condiciones de contorno más realistas para ecuaciones diferenciales parciales. Afirma que el calor se extrae uniformemente sobre toda la superficie de la CPU y esta información se puede modelar como condiciones de contorno de Neumann donde se establece la primera derivada de un punto de contorno en lugar del valor del punto de contorno. Al hacerlo, podemos agregar incertidumbre al modelo y usar una distribución gaussiana para modelar la derivada. Se utiliza un operador de información adicional para describir esta condición de contorno. El orador explica además cómo se determina la escala absoluta del sistema mediante el uso de termómetros dentro de la CPU, y también cómo se pueden obtener estimaciones inciertas de la función mediante el modelado de una creencia previa utilizando otro proceso gaussiano.

  • 00:55:00 En esta sección, Marvin Pförtner analiza cómo integrar el conocimiento previo sobre el comportamiento de un sistema en el modelo, con la ayuda de procesos gaussianos y operadores de información. Menciona que es fundamental elegir la función del lado derecho para el modelo integrable a cero para evitar que el sistema se caliente continuamente. Luego, Pförtner procede a discutir los desafíos de garantizar que el GP tenga el área uno en todas sus muestras y cómo se pueden resolver agregando restricciones adicionales, incluidos los efectos de límite, que tienen en cuenta el calor que sale a través del límite. Finalmente, Pförtner concluye que este enfoque GP combinado con la noción de un operador de información nos permite incorporar conocimiento previo sobre el comportamiento del sistema, inyectar conocimiento mecanicista en forma de PDE lineal y manejar condiciones de contorno y lados derechos.

  • 01:00:00 En esta sección, Marvin Pförtner analiza el uso de procesos gaussianos para resolver ecuaciones diferenciales parciales (PDE) mediante la estimación de una medida de probabilidad sobre funciones en lugar de una estimación puntual, que puede proporcionar intervalos de confianza y muestras que cumplen las condiciones de la PDE . Explica que este enfoque es más honesto porque reconoce la incertidumbre en la estimación de la función del lado derecho de la PDE y que se puede aplicar a simulaciones 2D, así como a simulaciones con el tiempo como otra dimensión espacial. Pförtner señala que la media posterior de este método, suponiendo que no hay incertidumbre, es equivalente a un método clásico llamado colocación simétrica. Finalmente, explica que otros métodos para resolver PDE, como el residual ponderado, el volumen finito y los métodos espectrales, también se pueden realizar como medios posteriores de un proceso gaussiano, solo que sin la cuantificación de la incertidumbre.

  • 01:05:00 En esta sección, el orador explica cómo se pueden usar los procesos gaussianos (GP) para resolver ecuaciones diferenciales parciales lineales (PDEs) y también se puede realizar la regresión para la estimación de funciones. Destacan la importancia de elegir las funciones correctas y antes de trabajar, así como los beneficios de la cuantificación de la incertidumbre. El orador también señala los casos de falla, como cuando las rutas de muestra de los GP no son diferenciables, y la necesidad de verificar condiciones importantes para que todo sea riguroso. La sección concluye con un adelanto de una próxima publicación del grupo del orador que profundizará en los detalles formales de estos teoremas.

  • 01:10:00 En esta sección, el orador explica cómo se definen y utilizan los procesos gaussianos (GP) para modelar funciones desconocidas. Los GP son colecciones de variables aleatorias de valor real, una para cada punto en su dominio. Se utilizan para representar funciones, pero solo conocemos la combinación finita de evaluaciones del GP. Para obtener una ruta de muestra de un GP, necesitamos muestrear continuamente una función arreglando un Omega y transformándolo a través de todas las funciones. Nos aseguramos de que las rutas de muestra sean lo suficientemente diferenciables para garantizar que estén definidas. Además, para calcular LF, la imagen de un GP bajo un operador lineal L, fijamos un Omega y aplicamos L a la función correspondiente.

  • 01:15:00 En esta sección, el orador explica cómo se puede mapear una ruta de muestra a través de un operador lineal para crear un objeto de dimensión infinita llamado GP, que luego se convierte en una variable aleatoria que debe ser medible. Señalan que las rutas de muestra del GPS se convierten en un espacio de Hilbert del kernel de reproducción al elegir un kernel apropiado, sin embargo, el espacio de Hibbert del kernel de reproducción del kernel real del GP no es el espacio del que provienen las muestras, y un espacio más grande necesita ser elegido en el que estas muestras están contenidas. El orador continúa discutiendo el kernel de Matern, que es útil en la práctica y puede controlar la diferenciabilidad del GP, y proporciona una fórmula para calcular el parámetro P para el kernel de Matern, que puede ayudar a generalizar el proceso.

  • 01:20:00 En esta sección, el orador explica cómo construir un kernel d-dimensional para ecuaciones diferenciales parciales (PDEs) tomando productos de kernels Matern unidimensionales sobre las dimensiones, especialmente si hay órdenes mixtos de las derivadas. Esto ayuda a adaptarse a la ecuación concreta que los usuarios están tratando de resolver. Además, GPS proporciona un marco para combinar varias fuentes de información en un solo modelo de regresión utilizando operadores de información afines. El disertante enfatiza la importancia de ser matemáticamente cuidadoso en la construcción del modelo, particularmente cuando se construye el prior para una ecuación específica.
 

Clase 9 -- Monte Carlo -- Philipp Hennig



Números de ML 9 -- Monte Carlo -- Philipp Hennig

En este video sobre el tema de Monte Carlo, Philipp Hennig explica cómo la integración es un problema fundamental en el aprendizaje automático cuando se trata de la inferencia bayesiana utilizando el teorema de Bayes. Presenta el algoritmo de Monte Carlo como una forma específica de realizar la integración y proporciona una breve historia del método. También analiza las propiedades de los algoritmos de Monte Carlo, como la estimación imparcial y la reducción de la varianza con un aumento en el número de muestras. Además, Hennig profundiza en el algoritmo Metropolis-Hastings, Markov Chain Monte Carlo y Hamiltonian Monte Carlo, brindando una descripción general de las propiedades de cada algoritmo y cómo funcionan al tomar muestras de una distribución de probabilidad. En última instancia, Hennig destaca la importancia de comprender por qué se utilizan los algoritmos, en lugar de aplicarlos a ciegas, para lograr resultados óptimos y eficientes.

En la segunda parte del video, Philipp Hennig analiza los métodos de Monte Carlo para distribuciones de alta dimensión, específicamente el algoritmo No U-turn Sampler (NUTS) que resuelve el problema con la idea de U-turn de romper el equilibrio detallado. Hennig enfatiza que, si bien estos algoritmos son complejos y difíciles de implementar, comprenderlos es crucial para usarlos de manera efectiva. También cuestiona el enfoque instintivo para calcular los valores esperados utilizando los métodos de Monte Carlo y sugiere que puede haber otras formas de aproximarse sin aleatoriedad. Hennig analiza el concepto y las limitaciones de la aleatoriedad, la falta de tasas de convergencia para los métodos de Monte Carlo y propone la necesidad de considerar otros métodos para el aprendizaje automático en lugar de confiar en la aleatoriedad determinista.

  • 00:00:00 En esta sección, el instructor introduce el tema de la integración, que es un problema fundamental en el aprendizaje automático cuando se realiza una inferencia bayesiana para calcular distribuciones condicionales posteriores utilizando el teorema de Bayes. Explica que este proceso contiene una integral, que representa la marginal que se calcula como un valor esperado de alguna distribución condicional. El instructor enfatiza la importancia de saber cómo realizar la integración correctamente y presenta el algoritmo de Monte Carlo como una forma específica de realizar la integración. Da una breve historia de Monte Carlo y reflexiona sobre por qué es importante entender por qué se usan los algoritmos, en lugar de simplemente aplicarlos a ciegas.

  • 00:05:00 En esta sección, Philipp Hennig analiza la historia de cómo se desarrollaron las simulaciones de Monte Carlo para ayudar a diseñar una bomba nuclear en la década de 1940. El problema estaba en optimizar la geometría para lograr una explosión, y la solución fue usar simulaciones de Monte Carlo para aproximar integrales con sumas. Para este propósito se inventó la computadora analógica Fermi, que consta de dos ruedas y un bolígrafo para simular la trayectoria de un neutrón mediante el uso de números aleatorios extraídos de un dado. Aunque este proceso parece simple, este método fue el primer paso para desarrollar simulaciones de Monte Carlo para varios campos.

  • 00:10:00 En esta sección, el concepto de simulaciones de Monte Carlo se explica como una forma de estimar un valor esperado reemplazando la integral con una suma sobre las evaluaciones de una función en puntos extraídos de una distribución. Este es un estimador insesgado con una varianza que disminuye a medida que aumenta el número de muestras, lo que resulta en un error que cae como uno sobre la raíz cuadrada del número de muestras. Mientras que los estadísticos argumentan que esta es la tasa óptima para los estimadores no sesgados, los matemáticos numéricos consideran que esta tasa es bastante lenta, y se prefieren las tasas polinómicas. Sin embargo, este método tiene sus ventajas, como estar libre de dimensionalidad, ya que la varianza no depende de la dimensionalidad de la distribución subyacente.

  • 00:15:00 En esta sección, Philipp Hennig aborda el debate en torno a la dimensionalidad del problema de Monte Carlo. Aunque existe una varianza de f bajo p, que podría estar relacionada con la dimensionalidad del problema, el argumento es que no depende de la dimensionalidad. Sin embargo, en ciertos problemas estructurados, la varianza puede explotar exponencialmente rápido en función de la dimensionalidad. Sin embargo, las aplicaciones más interesantes del muestreo de Monte Carlo son insensibles a la dimensionalidad del problema, lo que permite el cálculo de problemas de alta dimensión. Hennig también analiza el ejemplo clásico de cálculo de Pi utilizando el muestreo de Monte Carlo, donde converge hacia la verdad con una tasa dada por la raíz cuadrada inversa del número de muestras.

  • 00:20:00 En esta sección, Philipp Hennig analiza los métodos de Monte Carlo para aproximar integrales. Explica cómo funciona este método extrayendo una gran cantidad de muestras de una distribución y calculando el valor esperado bajo esas simulaciones. Esta puede ser una buena solución cuando se necesita una estimación aproximada, pero no es práctica para respuestas muy precisas. Hennig también habla sobre formas de construir muestras a partir de distribuciones con las que es difícil trabajar, como el muestreo de rechazo y el muestreo importante, pero señala que estos métodos no escalan bien en dimensiones altas.

  • 00:25:00 En esta sección, se discute la idea de generar variables aleatorias basadas en una distribución dimensional alta. El método estándar para esto se llama cadena de Markov Monte Carlo, que se basa en una estructura que avanza iterativamente con una memoria finita. Un método de este tipo es el algoritmo Metropolis Hastings, que consiste en construir una cadena de Markov e ir a una nueva ubicación utilizando una distribución propuesta y una relación entre la distribución de la que se extrae y la distribución propuesta. Este algoritmo fue inventado por un grupo de físicos nucleares en la década de 1950, que trabajaban en la optimización de las geometrías de las armas nucleares, y todavía se usa ampliamente en la actualidad.

  • 00:30:00 En esta sección, Philipp Hennig analiza el algoritmo Metropolis-Hastings, que es un tipo de algoritmo Monte Carlo de cadena de Markov que se usa para muestrear una distribución de probabilidad. Demuestra cómo el algoritmo genera puntos a partir de una distribución propuesta y aceptándolos o rechazándolos en función de su densidad de probabilidad. Hennig también destaca la importancia de utilizar una distribución de propuesta adaptada adecuadamente para explorar de manera efectiva la distribución que se está muestreando. El algoritmo Metropolis-Hastings tiene dos propiedades importantes, equilibrio detallado y ergodicidad, que aseguran que el proceso de ejecutar el algoritmo durante mucho tiempo produzca una distribución estacionaria dada por la distribución que se está muestreando.

  • 00:35:00 En esta sección, Philipp Hennig analiza las propiedades de los algoritmos que tienen al menos una distribución estacionaria, que es una secuencia que es aperiódica y tiene recurrencia positiva, lo que significa que hay una probabilidad distinta de cero de volver a ese punto en un punto futuro. El algoritmo no debe tener ninguna estructura que pueda hacer que se quede atascado en otra distribución estacionaria. Metropolis Hastings, por ejemplo, es un algoritmo que cumple estas dos propiedades. Sin embargo, tiene una peor tasa en comparación con el Monte Carlo simple y puede tener comportamientos de trabajo aleatorios locales. El número de muestras efectivas extraídas por el algoritmo tiene algo que ver con la longitud del paso libre de la autopista o la duración del tiempo libre entre dos muestras en extremos completamente opuestos de la distribución.

  • 00:40:00 En esta sección, el orador analiza los métodos de Monte Carlo y cómo evaluarlos. Explica que para viajar de un extremo de la distribución al otro, se debe usar una gran cantidad de pasos que son proporcionales al cuadrado de la relación entre las escalas de longitud larga y pequeña, lo que da como resultado tasas de convergencia que aún son o de raíz cuadrada. de t pero con un gran múltiplo al frente. Afirma que un desafío con Monte Carlo es que si solo está mirando las estadísticas de estos puntos azules, sin saber cuál es la forma de la distribución y sin tener los puntos rojos como referencias, no es del todo obvio cómo notaría que esto es el caso. Finalmente, habla sobre el hamiltoniano Monte Carlo, que afirma que es el "átomo" de Markov Chain Monte Carlo, y es el algoritmo común que se usa para dibujar a partir de la distribución de probabilidad P de x.

  • 00:45:00 En esta sección, Philipp Hennig explica el concepto de Hamiltonian Monte Carlo (HMC), un método utilizado para extraer muestras de una distribución de probabilidad. En HMC, la cantidad de variables se duplica, con una nueva variable que representa el impulso de la variable existente. Luego, la variable de momento se desarrolla de acuerdo con una función que define una ecuación diferencial ordinaria, con H representando la energía y K representando la energía cinética. La derivada temporal de X viene dada por la derivada parcial de H con respecto a P, y la derivada temporal de P viene dada por menos la derivada parcial de H con respecto a X. Si el algoritmo logra extraer muestras de la distribución conjunta sobre X y P, se extrae marginalmente de la distribución sobre X.

  • 00:50:00 En esta sección, Philipp Hennig analiza la implementación de un solucionador de ecuaciones diferenciales ordinarias (ODE) para la derivada de la probabilidad de un estado dado mediante el método de Hoyn, que tiene tasas de convergencia de orden dos. Luego compara esto con el uso de una biblioteca de software y muestra cómo el solucionador simula la dinámica de un sistema hamiltoniano, que es una partícula de masa 1 que se mueve en un potencial dado por el logaritmo de una forma, y finalmente produce buenas muestras. Aunque requiere un número algo constante de pasos para simular, Hennig señala que el esquema Metropolis-Hastings siempre acepta y el algoritmo realiza pasos que no se mueven a una distancia dada por escalas de longitud larga sobre escalas de longitud corta al cuadrado, pero sin una raíz cuadrada, lo que finalmente lo convierte en un algoritmo más eficiente.

  • 00:55:00 En esta sección, Philipp Hennig explica cómo funciona el algoritmo hamiltoniano de Monte Carlo. Este algoritmo se basa en una distribución conjunta sobre X y P en una línea de potencial constante. La línea de potencial se elige por el impulso inicial y, en cada paso, el impulso cambia para pasar a una línea de potencial diferente. Hennig compara el algoritmo con un problema de optimización y señala que tiene dos parámetros llamados pasos LeapFrog y delta T que deben elegirse correctamente para que el algoritmo funcione de manera efectiva. Si los parámetros se configuran incorrectamente, la simulación podría desperdiciar recursos computacionales al moverse de un lado a otro sin viajar a ninguna parte.

  • 01:00:00 En esta sección, Philipp Hennig analiza la idea de un giro en U y el algoritmo No U-turn Sampler (NUTS) en los métodos de Monte Carlo para distribuciones de alta dimensión. El problema con la idea del cambio de sentido es que rompe el equilibrio detallado y hace que el algoritmo se aleje y no regrese. El algoritmo NUTS supera esto iniciando dos cadenas de Markov en direcciones opuestas y esperando hasta que una comience a girar, luego eligiendo una al azar. Esto satisface el equilibrio detallado y es un componente clave de muchos algoritmos Monte Carlo de la cadena de Markov. Hennig enfatiza que, si bien estos algoritmos son complejos y difíciles de implementar, comprenderlos es crucial para usarlos de manera efectiva.

  • 01:05:00 En esta sección, el orador analiza el enfoque instintivo para calcular los valores esperados en la inferencia bayesiana utilizando métodos de Monte Carlo, y destaca la baja tasa de convergencia y la necesidad de estimadores imparciales. Sin embargo, el orador cuestiona la necesidad de estimadores no sesgados y aleatoriedad en primer lugar, y sugiere que puede haber otras formas de aproximar la cantidad de interés sin aleatoriedad. El ponente también toca el concepto de aleatoriedad y su relación con las sucesiones y sucesiones finitas calculadas en una máquina de Turing.

  • 01:10:00 En esta sección, Philipp Hennig analiza el concepto de aleatoriedad a través de diferentes secuencias de números. Argumenta que algunas secuencias, como las producidas por los dados, han sido culturalmente aceptadas como aleatorias aunque no lo sean verdaderamente. Por otro lado, los números irracionales como pi no son aleatorios, pero también carecen de estructura. Además, Hennig explica cómo una semilla puede alterar la aleatoriedad de una secuencia producida por un generador de números aleatorios. Finalmente, analiza cómo las máquinas físicas que producían números aleatorios se probaron para determinar la aleatoriedad, pero finalmente fallaron las pruebas Die Hard de Aleatoriedad.

  • 01:15:00 En esta sección, Philipp Hennig analiza la aleatoriedad y cómo se relaciona con el aprendizaje automático, específicamente con los métodos Monte Carlo. Él explica que la aleatoriedad tiene que ver con la falta de información, por lo que es aplicable en áreas como la criptografía donde alguien sabe algo es importante. Para los tipos de números aleatorios que se utilizan en el aprendizaje automático contemporáneo, es un error hablar de esta falta de información. Cuando se utiliza un método de Monte Carlo, los escritores de artículos científicos que confían en los métodos de Monte Carlo a menudo ocultan información a sus espectadores. Lo usan porque es fácil de usar e implementar, no porque esté sesgado.

  • 01:20:00 En esta sección, Philipp Hennig explica cómo funciona la cadena de Markov Monte Carlo (MCMC), y que funciona relativamente bien para problemas de alta dimensionalidad, aunque no conocemos las tasas de convergencia para ello. MCMC es el único algoritmo para el que tenemos garantías teóricas que se basan en el uso de números aleatorios, pero se acepta que las muestras producidas por este enfoque son útiles en ausencia de otros métodos con los que comparar. Hennig también comenta que MCMC es fundamentalmente muy lento y laborioso y que puede haber mejores formas de aproximar integrales. Advierte que los algoritmos que analizarán la próxima semana generalmente solo funcionarán para problemas de baja dimensión y propone la necesidad de considerar otros métodos para el aprendizaje automático en lugar de confiar en la aleatoriedad determinista.
 

Clase 10 -- Cuadratura bayesiana -- Philipp Hennig



Numéricos de ML 10 -- Cuadratura bayesiana -- Philipp Hennig

En este video, Philipp Hennig analiza la cuadratura bayesiana como un método eficiente para el problema computacional de la integración en el aprendizaje automático. Explica cómo una función de valor real puede identificarse de manera única pero es difícil responder preguntas directamente. La cuadratura bayesiana es un método de inferencia que trata el problema de encontrar una integral como un problema de inferencia colocando una prioridad sobre el objeto desconocido y las cantidades que se pueden calcular, luego realiza una inferencia bayesiana. Hennig también compara este enfoque con el rechazo de Monte Carlo y el muestreo de importancia, mostrando cómo la cuadratura bayesiana puede superar las reglas de cuadratura clásica. La conferencia cubre el algoritmo de filtro de Kalman para la cuadratura bayesiana y su conexión con los algoritmos de integración clásicos, con una discusión sobre el uso de estimaciones de incertidumbre en métodos numéricos. Finalmente, Hennig explora cómo la estructura social de la computación numérica afecta el diseño de algoritmos, analiza un método para diseñar métodos computacionales para problemas específicos y cómo el aprendizaje automático probabilístico puede estimar el error en tiempo real.

En la segunda parte del video, Philipp Hennig analiza la cuadratura bayesiana, que implica poner distribuciones previas sobre las cantidades que nos interesan, como integrales y valores de algoritmos, para calcular algo de forma bayesiana. El método asigna tanto una estimación posterior como una estimación de la incertidumbre en torno a las estimaciones, que pueden identificarse con los métodos clásicos. Hennig explica cómo el algoritmo se adapta a la función observada y utiliza un procedimiento de aprendizaje activo para determinar dónde evaluar a continuación. Este algoritmo puede funcionar en dimensiones más altas y tiene algunas tasas de convergencia inteligentes no triviales. También analiza las limitaciones de los algoritmos clásicos y las reglas de cuadratura y propone una solución mediante el razonamiento adaptativo.

  • 00:00:00 En esta sección, Philipp Hennig analiza el problema computacional de la integración en el aprendizaje automático con un enfoque en la cuadratura bayesiana como método eficiente. Describe una función de valor real, f de x, que es un producto de dos funciones, X menos seno al cuadrado 3x y X menos x al cuadrado, y puede identificarse de manera única escribiendo un conjunto de caracteres. Hennig explica que si bien sabemos todo acerca de esta función, es difícil responder a todas las preguntas directamente, como el valor de la integral definida de menos tres a más 3 sobre esta función, que no se puede encontrar en libros llenos de integrales o la nueva biblioteca C.

  • 00:05:00 En esta sección, Philipp Hennig analiza la cuadratura bayesiana, un método de inferencia que trata el problema de encontrar una integral como un problema de inferencia poniendo una prioridad sobre el objeto desconocido y las cantidades que se pueden calcular, y luego realiza la bayesiana inferencia. Al poner un a priori, comenzamos con una incertidumbre finita, lo que conduce a un rango estrecho de posibles resultados del cálculo, lo que lo hace típico de los cálculos. El enfoque se contrasta con el rechazo de Monte Carlo y el muestreo de importancia, que son menos eficientes. La función estimada se puede trazar como una función del número, lo que sugiere que la cuadratura bayesiana es una opción viable para resolver integrales.

  • 00:10:00 En esta sección de la charla de Philipp Hennig, analiza la cuadratura bayesiana como una forma de estimar la integral de una función mediante el aprendizaje automático probabilístico. Compara este enfoque con el método de Monte Carlo y explica que se utiliza un proceso gaussiano como priorización de la función. Al evaluar la función en valores específicos de x, podemos estimar la variable latente, que es la integral de la función. Hennig también muestra cómo este enfoque puede superar las reglas clásicas de cuadratura.

  • 00:15:00 En esta sección, Philipp Hennig explica cómo calcular integrales sobre el núcleo para aproximar integrales sobre cualquier función que estemos tratando de aprender. Al elegir una función de media previa y una función de covarianza previa, podemos incorporar el problema de calcular una integral en el espacio de Hilbert del kernel de reproducción. A través de cálculos que involucran evaluaciones de la función en varios puntos, terminamos con la incrustación media del kernel, que implica calcular integrales sobre el kernel. Por lo tanto, debemos elegir núcleos para los que podamos calcular integrales en forma cerrada, y Hennig elige el núcleo del proceso de Weiner como ejemplo.

  • 00:20:00 En esta sección, Philipp Hennig analiza el proceso de la cuadratura bayesiana. El proceso implica el uso de un proceso Vino anterior, un proceso gaussiano que es asimétrico y no estacionario, y el condicionamiento en un conjunto de valores de función para obtener un proceso gaussiano positivo. Mediante el uso de este proceso, es posible lograr un resultado mucho mejor que la integración de Monte Carlo. Por ejemplo, para lograr un error relativo de 10^-7, la cuadratura bayesiana necesitaría menos de 200 evaluaciones, mientras que la integración Monte Carlo requeriría más de 10^11 evaluaciones.

  • 00:25:00 En esta sección, el orador analiza la velocidad de la cuadratura bayesiana en comparación con las simulaciones de Monte Carlo. Si bien las simulaciones de Monte Carlo son baratas y fáciles de implementar, la cuadratura bayesiana también es relativamente rápida y se puede implementar como un filtro de Kalman, lo que hace factible su uso en modelos de aprendizaje automático. El orador explica el mapa lineal entre los dos estados del proceso y cómo puede codificar la integración, lo que hace posible discretizar la ecuación diferencial estocástica y calcular las actualizaciones de la integral. Luego, la conferencia pasa a discutir las propiedades de la cuadratura bayesiana con más detalle.

  • 00:30:00 En esta sección, el orador presenta un algoritmo de filtro de Kalman para cuadratura bayesiana para evaluar integrales de una función. El algoritmo implica definir las matrices A y Q para representar las partes determinísticas y estocásticas del sistema lineal invariante en el tiempo, y H y R para representar el modelo de observación. La media posterior es una suma ponderada de funciones kernel, y el filtro de Kalman actualiza la estimación de la integral, con la incertidumbre de la integral aumentando con la longitud del paso al cubo. El algoritmo se ejecuta en tiempo lineal y la media posterior es una función lineal por partes que interpola los valores de la función. La estimación de la integral es la suma de los valores medios de cada bloque.

  • 00:35:00 En esta sección, Hennig explica el concepto de cuadratura bayesiana y su conexión con la regla trapezoidal, que es un algoritmo de integración clásico. Señala que la regla trapezoidal puede verse como la media posterior de un esquema de inferencia de proceso gaussiano complejo y que esta idea particular es un resultado esencial y común. Hennig analiza además cómo varios algoritmos clásicos, ya sea para el cálculo numérico, la optimización, el álgebra lineal o la resolución de ecuaciones diferenciales, todos tienen conexiones con las estimaciones posteriores bayesianas. Además, enfatiza que el cálculo numérico debe considerarse como una inferencia gaussiana, ya que involucra estimaciones de mínimos cuadrados para cantidades numéricas con incertidumbre, y sugiere que el uso de estimaciones de incertidumbre puede ser ventajoso cuando se trata de métodos numéricos.

  • 00:40:00 En esta sección, Philipp Hennig analiza el aspecto de la toma de decisiones de los algoritmos numéricos y cómo se parece a un algoritmo de IA porque decide qué cálculos realizar. Una pregunta que surge es dónde colocar los puntos de evaluación y la respuesta se puede encontrar en los problemas de inferencia bayesiana. Al definir una distribución de probabilidad para que converja hacia la certeza, podemos encontrar una cantidad que describa la certeza o la incertidumbre y manipularla. Para la varianza de la distribución posible sobre la integral, el objetivo es minimizarla, lo que se puede hacer igualando todos los Delta J a Delta n menos uno, lo que indica una cuadrícula regular de nodos de integración. Además, se discute la necesidad de tener nodos de integración en ambos extremos del dominio de integración.

  • 00:45:00 En esta sección, el ponente explica cómo se puede utilizar el algoritmo de cuadratura bayesiana para obtener un diseño de dónde colocar los nodos de evaluación basados en un proceso gaussiano previo. El algoritmo puede proporcionar diferentes diseños según el anterior utilizado, y los nodos de evaluación se pueden elegir de acuerdo con una política simple de Máxima Ganancia de Información. La regla trapezoidal se puede considerar como una estimación bayesiana, donde la media posterior es una estimación del paciente que surge de un proceso gaussiano específico anterior al integrando. El algoritmo proporciona una estimación del error, pero la estimación no es precisa y existe una brecha significativa entre el error real y el estimado. Sin embargo, la regla del trapezoide existe desde hace cientos de años y el algoritmo no es necesariamente defectuoso. La regla trapezoidal podría tener algunas propiedades que deben cuestionarse.

  • 00:50:00 En esta sección, Philipp Hennig analiza las estimaciones de la varianza y su relación con la cuadratura bayesiana. Explica que la estimación del error es la desviación estándar, que es la raíz cuadrada del error cuadrático esperado. El uso de un tamaño de paso constante hace que la suma sea fácil de calcular, ya que no hay una "i" dentro de la suma. El teorema establece que la tasa de convergencia para esta regla trapezoidal es O de 1 sobre N al cuadrado. Sin embargo, hay suposiciones ocultas en las matemáticas. Las rutas de muestra extraídas de un proceso de Wiener tienen comportamientos extremadamente toscos, ya que no son diferenciables en casi todas partes, lo que hace que la suposición previa sea inválida.

  • 00:55:00 En esta sección, Philipp Hennig analiza el problema de integrar funciones aproximadas no diferenciables mediante algoritmos numéricos. Él explica que los algoritmos diseñados para operar en funciones muy aproximadas, como la regla trapezoidal, pueden no ser tan eficientes como podrían ser si la función que están integrando es mucho más suave. Hennig sugiere que la estructura social de la computación numérica, donde los algoritmos están diseñados para funcionar en una gran clase de problemas, puede conducir a métodos demasiado generales que no funcionan particularmente bien en ninguno de ellos. Sin embargo, señala que es posible diseñar un método computacional para un problema en particular si es lo suficientemente importante, una vez que se comprende cómo funcionan estos algoritmos. También analiza cómo se puede estimar la escala del error en el algoritmo mientras se ejecuta, utilizando ideas del aprendizaje automático probabilístico.

  • 01:00:00 En esta sección, Philipp Hennig analiza cómo estimar la escala de una constante desconocida en la matriz de covarianza dados algunos datos e introduce el concepto de conjugados previos. Explica que para las distribuciones de probabilidad de la familia exponencial, siempre hay un conjugado previo, como el gamma previo, que se puede usar para estimar la varianza de una distribución gaussiana. Hennig cuenta la historia de William C Lee Gossett, quien ideó este método mientras trabajaba como cervecero para Guinness y tuvo que estimar la distribución de muestras de un barril de cerveza. Este método implica multiplicar el anterior y la probabilidad juntos y normalizar los resultados para obtener la misma forma algebraica que la distribución gamma, con nuevos parámetros basados en las observaciones o los valores de la función.

  • 01:05:00 En esta sección, Philipp Hennig explica cómo estimar la concentración posterior de un parámetro y la distribución T de Student. El método se llama Cuadratura bayesiana, donde la escala comienza amplia y se vuelve más concentrada a medida que se recopilan más observaciones. Los resultados se muestran en un gráfico, donde inicialmente la distribución se contrae después de un aumento en las observaciones. Hennig señala que las suposiciones anteriores sobre esta función suave son demasiado conservadoras para este problema, y existen algoritmos mucho más inteligentes para la integración, como la cuadratura gaussiana con conjuntos de características que se expanden con polinomios de Legendre, que funcionan muy bien.

  • 01:10:00 En esta sección, Hennig analiza la cuadratura bayesiana, que es una forma clásica de hacer integrales en dominios acotados, como nuestro dominio de -1 a 1. Explica que existen reglas de cuadratura correspondientes que convergen extremadamente rápido, con un super peso polinomial de convergencia, pero esto solo funciona para funciones que en realidad son suaves. La línea verde que se ve en el gráfico de la derecha también puede corresponder a una estimación media posterior bajo ciertos tipos de suposiciones previas gaussianas. Si bien el resultado de este artículo es principalmente de interés teórico para aclarar la relación entre los dos enfoques diferentes de la integración numérica, existen algoritmos clásicos que son muy buenos para este tipo de problema y vienen con mucha estructura con diferentes bases para diferentes tipos de problemas de integración. Estas reglas de cuadratura aproximan la integral asumiendo que se puede escribir en una forma particular usando polinomios ortogonales y una función de ponderación, y existen opciones específicas para Phi dependiendo de W y el dominio de integración.

  • 01:15:00 En esta sección, el disertante analiza los diferentes tipos de polinomios de Chebyshev y su uso en el cálculo de integrales numéricas para funciones univariadas. El orador también explica por qué es importante considerar el dominio de integración, la forma de la función y el previo al especificar un previo para una regla de inferencia del paciente. El orador señala que los algoritmos de integración clásicos y las reglas de cuadratura pueden considerarse como una forma de estimación media posterior gaussiana, y las elecciones realizadas por estos algoritmos pueden estar motivadas por argumentos teóricos de la información. El orador concluye afirmando que, si bien las reglas clásicas de cuadratura funcionan bien para integrales unidimensionales, los problemas de mayor dimensión requieren enfoques más complicados, como los algoritmos de Monte Carlo.

  • 01:20:00 En esta sección, el orador discute las limitaciones de los métodos mostrados en la sección anterior cuando se trata de escalar en dimensionalidad. Estos métodos tienden a tener un decaimiento de rendimiento que es exponencial en dimensionalidad porque se debe producir una malla de evaluaciones, lo que significa que tienen que cubrir el dominio con puntos. Esto es problemático porque los procesos gaussianos se están utilizando como previos y su incertidumbre posterior no depende de los números vistos, solo donde se han realizado evaluaciones. Como resultado, estos métodos de integración no son adaptativos, lo que limita su escalabilidad en dimensiones más altas. Para superar este problema, se necesitan nuevos algoritmos que puedan razonar sobre el hecho de que algunos puntos son más informativos que otros a través del razonamiento adaptativo.

  • 01:25:00 En esta sección, Philipp Hennig analiza las limitaciones de los procesos gaussianos para codificar valores no negativos y propone una solución al definir una nueva función que eleva al cuadrado la función real. La distribución resultante no es gaussiana y se aproxima mediante un proceso estocástico que se puede aproximar mediante un proceso gaussiano. El algoritmo resultante se llama Wasabi, que significa integración bayesiana activa secuencial warp. Es una formulación probabilística que agrega incertidumbre de forma adaptativa donde se esperan valores de función grandes, lo que permite la construcción de algoritmos numéricos aproximados. La función de utilidad en azul representa la incertidumbre posterior sobre los valores de la función.

  • 01:30:00 En esta sección, Philipp Hennig analiza el concepto de cuadratura bayesiana, un algoritmo para la integración numérica. Hennig explica cómo el algoritmo se adapta a la función observada y utiliza un procedimiento de aprendizaje activo para determinar dónde evaluar a continuación. Este algoritmo puede funcionar en dimensiones más altas y tiene algunas tasas de convergencia inteligentes no triviales. Hennig también compara este algoritmo con los algoritmos de Monte Carlo y argumenta que el conocimiento previo puede mejorar el rendimiento del algoritmo. Además, insinúa la posibilidad de un algoritmo aún mejor más allá de Monte Carlo, que se discutirá después de Navidad.

  • 01:35:00 En esta sección, Philipp Hennig analiza la cuadratura bayesiana, que implica poner una distribución previa sobre las cantidades que nos interesan, como integrales y valores de algoritmos, para calcular algo de forma bayesiana. El método asigna tanto una estimación posterior como una estimación de la incertidumbre en torno a las estimaciones, que pueden identificarse con los métodos clásicos. Si las estimaciones de error son malas, no significa necesariamente que la visión probabilística del cálculo sea incorrecta, sino que el conjunto de suposiciones previas es malo. Al utilizar más conocimientos previos y tratar los algoritmos numéricos como agentes autónomos, podemos extraer más información y hacer que los algoritmos funcionen mejor y más rápido.