Redes Neurais em IA e Deep Learning - página 27

 

Lección 14. Cambios de bajo rango en A y su inversa



14. Cambios de bajo rango en A y su inversa

El video analiza el concepto de matrices de bajo rango y su importancia en las matrices de funciones, particularmente la fórmula de inversión de matrices que encuentra el inverso de una matriz N por n en términos de una matriz más simple de 1 por 1. La fórmula es útil para encontrar la inversa de matrices que tienen perturbaciones de bajo rango y puede simplificar el proceso de encontrar inversas. El orador muestra cómo funciona la fórmula al presentar la fórmula de la segunda matriz y muestra cómo se aplicó la misma lógica para llegar a la respuesta. El video también analiza las aplicaciones prácticas de esta fórmula, particularmente en problemas de mínimos cuadrados y el filtro de Kalman.

  • 00:00:00 En esta sección, el profesor discute el concepto de matrices de bajo rango y su importancia en las matrices de funciones. El tema principal es una fórmula famosa llamada fórmula de inversión de matriz, también conocida como los cambios de bajo rango en A y su inversa. La fórmula encuentra la inversa de una matriz de N por n en términos de una matriz más simple de 1 por 1 usando una transpuesta UV y dividiéndola por 1 menos la transpuesta de V por U. La fórmula es útil para encontrar la inversa de matrices que tienen baja perturbaciones de rango y se puede utilizar para simplificar el proceso de encontrar inversas. El profesor explica cómo funciona esta fórmula y sus aplicaciones prácticas.

  • 00:05:00 En esta sección, el orador analiza cómo cambiar una matriz por el rango 1 resultará en un cambio en su inversa por el rango uno. La fórmula que presenta calcula una inversa de N por n en términos de una inversa de 1 por 1, lo cual es muy útil. Luego, el orador demuestra cómo verificar la fórmula multiplicando el inverso reclamado por la matriz original y esperando obtener una matriz identidad. El orador muestra cómo funciona la fórmula al presentar la fórmula de la segunda matriz y muestra cómo se aplicó la misma lógica para llegar a la respuesta.

  • 00:10:00 una fórmula para un cambio de rango bajo en la matriz A y su inversa. La fórmula implica tomar la inversa de una matriz N por n, pero se puede cambiar a una matriz K por K, que es una perturbación más pequeña de la matriz identidad. Se demuestra que la fórmula es verdadera a través de una verificación y puede ser útil para perturbar una matriz A. También se enumeran los nombres de las personas que descubrieron esta fórmula.

  • 00:15:00 En esta sección, el orador está discutiendo los cambios que ocurren cuando se toma la inversa de una matriz A de bajo rango. Usan manipulaciones algebraicas para mostrar que cuando se toma la inversa de A, hay ciertos términos que pueden ser eliminado, dando lugar a una expresión simplificada. El orador señala que si bien pueden probar la fórmula comprobando que produce la matriz de identidad, es importante considerar cómo se puede derivar la fórmula en primer lugar. Sugieren usar la fórmula para resolver un sistema lineal con una nueva medición u observación en el método de mínimos cuadrados.

  • 00:20:00 En esta sección, el orador explica cómo tratar con nuevas medidas al resolver problemas de mínimos cuadrados. Con una matriz rectangular A, agregar una medición o punto de datos más a la solución da como resultado una nueva matriz y el lado derecho para resolver. Sin embargo, en lugar de volver a calcular la multiplicación de matrices A^TA, el orador describe cómo expandir la matriz con la nueva medida, transponerla y usarla para calcular la solución actualizada. Al usar lo que ya se calculó, esto permite una resolución más eficiente desde el punto de vista computacional de los problemas de mínimos cuadrados.

  • 00:25:00 En esta sección, el orador analiza la perturbación A y su inversa con nuevos datos, lo que proporciona un cambio de rango 1 en A transpuesta A. Este concepto es aplicable a problemas de mínimos cuadrados, y el filtro de Kalman es un ejemplo de un método de mínimos cuadrados recursivos que utiliza este enfoque. El filtro Kalman se utiliza para guiar misiles y satélites mediante el seguimiento de nuevos datos y la actualización de la solución, que es una aplicación importante de este concepto en la práctica.

  • 00:30:00 En esta sección del video, el orador explica cómo aplicar la fórmula Sherman-Morrison-Woodbury para calcular cambios de rango bajo en A y su inversa. Mencionan que el filtro de Kalman, que se utiliza para los mínimos cuadrados dinámicos, tiene dos factores adicionales que se tienen en cuenta: la matriz de covarianza y la ecuación de estado. La matriz de covarianza se ocupa de cómo se correlacionan los errores, y la ecuación de estado indica cuánto debe moverse el satélite (en el ejemplo). El filtro de Kalman es una versión mejorada de los cuadrados recursivos que se ocupa de cambiar las medidas mientras deja una gran parte sin cambios.

  • 00:35:00 En esta sección, el orador analiza el uso de la fórmula de actualización de rango bajo para resolver sistemas lineales. La fórmula implica perturbar la matriz de un problema resuelto en el rango uno y usar la inversa de la matriz original para resolver rápidamente el nuevo problema. Este enfoque puede reducir significativamente el tiempo requerido para resolver un nuevo problema y es especialmente útil para matrices grandes donde los métodos de eliminación tradicionales llevarían mucho tiempo.

  • 00:40:00 En esta sección, el ponente explica cómo encontrar la inversa de una matriz combinando soluciones a diferentes problemas. Al factorizar la matriz A en Lu, todo el trabajo duro se realiza en el lado izquierdo, y encontrar las soluciones para los diferentes lados derechos solo requiere sustitución hacia atrás. Usando la fórmula de Sherman-Morrison-Woodbury, la respuesta X se puede lograr combinando las soluciones W y Z. La fórmula cambia la solución W por un término que proviene de Sherman-Morrison Woodbury, y el término en el numerador es un múltiplo de Z por X.

  • 00:45:00 En esta sección, el orador analiza cómo los cambios de rango bajo en una matriz A pueden afectar su inversa, y proporciona una fórmula para invertir una matriz N por N cambiando e invirtiendo una matriz K por K. La fórmula consiste en restar una copia del inverso y agregar algunas otras piezas y, en última instancia, da como resultado un cambio de rango K al inverso original. El orador señala que esta fórmula tiene aplicaciones prácticas y alienta a los espectadores a escribirla para referencia futura.

  • 00:50:00 En esta sección, el orador analiza la inversa de una matriz K por K y reconoce la abundancia de fórmulas cubiertas en la hora y los 50 minutos anteriores. La sección concluye afirmando que las notas cubren algunas aplicaciones y pasarán a abordar otros aspectos de bajo rango.
 

Lección 15. Matrices A(t) en función de t, Derivada = dA/dt



15. Matrices A(t) En función de t, Derivada = dA/dt

Este video cubre varios temas relacionados con las matrices, incluidos los cambios en las matrices y su inversa, así como los cambios en los valores propios y singulares a lo largo del tiempo. El disertante explica fórmulas clave para calcular estos cambios y enfatiza la importancia de comprender el cálculo en álgebra lineal. Además, la conferencia analiza la importancia de la normalización y explora teoremas de entrelazado para valores propios en matrices simétricas y de rango 1. Por último, el video concluye con una revisión de los temas tratados y la promesa de ampliarlos en futuras conferencias.

  • 00:00:00 En esta sección, el orador analiza los cambios en matrices, valores propios y valores singulares cuando cambia una matriz. La atención se centra en comprender las fórmulas para el cambio en la matriz inversa, la derivada de la inversa y los cambios en los valores propios y singulares cuando cambia una matriz. El orador explica que si bien es posible que no exista una fórmula exacta para el cambio en los valores propios y los valores singulares,
    posible, aún pueden derivar desigualdades para comprender qué tan grande podría ser el cambio. La lección también cubre la configuración de la matriz A, que depende del tiempo (T) y la inversa A inversa.

  • 00:05:00 En esta sección, el orador analiza una identidad en cálculo que complementa la discusión de la sección anterior sobre el inverso de las matrices. La fórmula establece que la derivada de la matriz inversa es igual a menos uno por la inversa de la matriz, multiplicado por la derivada de la matriz y la inversa de la matriz. El orador explica cómo encontrar la derivada de la matriz inversa llamándola "cambio en el inverso" y dividiendo ambos lados de la fórmula por delta T. Finalmente, el orador aplica el cálculo para dejar que Delta T llegue a cero, lo que lleva a una comprensión intuitiva. comprensión de la fórmula. El orador también expresa su opinión sobre el énfasis del cálculo en las matemáticas universitarias, afirmando que eclipsa el álgebra lineal.

  • 00:10:00 En esta sección, el disertante explica la fórmula para la derivada de una matriz A como dA/dt con respecto al tiempo t, cuando delta T tiende a cero. La relación Delta a dividida por Delta T tiene un significado y, a medida que Delta T se aproxima a cero, la ecuación se convierte en inversa. La derivada de uno sobre X en el caso uno por uno es solo 1 sobre X al cuadrado, y esto es paralelo a las fórmulas cuando Delta a es de tamaño completo pero de rango bajo. Luego, el enfoque de la conferencia cambia a los valores propios de lambda y cómo cambian cuando cambia una matriz, con dos posibilidades, un cambio pequeño y un orden de tamaño completo de un cambio. La conferencia termina con hechos relacionados con los valores propios y los vectores propios.

  • 00:15:00 En esta sección, se explica el concepto de vectores propios y valores propios para matrices que dependen de un parámetro. La matriz A se explora en detalle, con el vector propio X a la izquierda que tiene el mismo valor propio que AX. En contraste, el vector propio Y, para una matriz simétrica A, se usa de la misma manera con la transpuesta de A o AT. Se enfatiza la importancia de la normalización, específicamente la transposición de Y por X es igual a uno. Luego, el autor procede a tomar la derivada de una fórmula y analiza cómo distorsionar la ecuación para que se ajuste a este nuevo contexto.

  • 00:20:00 En esta sección, el orador explica cómo se puede usar la derivada de una matriz para encontrar la derivada de sus valores propios y vectores propios a medida que cambia el tiempo. Usando la regla del producto, derivan una fórmula para la derivada del producto de tres términos que dependen del tiempo. Al reorganizar los términos y aplicar la fórmula de diagonalización, llegan a una fórmula simple para la derivada del valor propio. El orador señala que si bien esta es una técnica clásica, es posible que no siempre se conozca ampliamente o se enseñe en los cursos.

  • 00:25:00 En esta sección, el orador analiza una fórmula para encontrar la derivada de un valor propio usando la tasa a la que cambia la matriz y los vectores propios a la izquierda y a la derecha. Simplifican la fórmula para mostrar que dos términos se cancelan entre sí y el término restante es la respuesta correcta para la derivada. Usan el hecho de que la derivada de uno es cero para probar esta cancelación. El orador también menciona que esta fórmula no involucra la derivada del vector propio y también se puede usar para encontrar derivadas de nivel superior.

  • 00:30:00 En esta sección, el orador analiza el cambio en los valores propios después de un cambio de rango uno a una matriz simétrica. Señala que el cambio es un vector verdadero y no un diferencial, por lo que no hay una fórmula exacta para los nuevos valores propios. Sin embargo, comparte algunos hechos conocidos, como que los valores propios están en orden descendente y el cambio de rango uno es semidefinido positivo. También le pide a la audiencia que considere el vector propio de la matriz transpuesta uu y explica que es una columna de matriz completa n por n multiplicada por una fila. Concluye afirmando que el número resultante de este cálculo es mayor que cero.

  • 00:35:00 En esta sección, el orador analiza una matriz simétrica y lo que sucede cuando se le agrega una matriz de rango uno. Concluyen que esto da como resultado matrices semidefinidas positivas, y los nuevos valores propios (lambdas) son más grandes que los valores propios originales (gammas). Sin embargo, la diferencia de tamaño no es significativa y existe un teorema llamado "entrelazado" que asegura que los valores propios no se superen entre sí. Específicamente, lambda 1 es más grande que gamma 1, pero lambda 2 es más pequeña que gamma 1. Este es un teorema útil que garantiza el orden de los valores propios cuando se agrega una matriz de rango uno positivo a una matriz simétrica.

  • 00:40:00 En esta sección, el profesor analiza los valores propios de una matriz de rango 2 resultante de una matriz simétrica y un cambio de rango 1. Explica que el rango de la matriz de cambio es 2, lo que indica dos valores propios distintos de cero, y su naturaleza semidefinida positiva significa que los valores propios aumentarían al agregarla a la matriz original. Sin embargo, revela un teorema que establece que los valores propios no pueden ser más altos que los valores propios originales al agregar una matriz semidefinida positiva. Aplica esto a los valores alfa y los compara con las lambdas, y finalmente concluye que el valor alfa 2 no puede pasar la lambda 1 y el valor alfa 3 sigue siendo desconocido.

  • 00:45:00 En esta sección, el profesor explica el entrelazado de valores propios con un ejemplo de matriz simétrica. La versión reducida de esta matriz también tiene valores propios y se entrelazan con los valores propios de la matriz original. Sin embargo, el disertante plantea una preocupación sobre el entrelazamiento de valores propios cuando se cambia el rango. Si el nuevo vector propio se multiplica por un número grande, entonces potencialmente puede mover el valor propio hacia arriba, lo que parece contradecir el teorema de entrelazamiento. El disertante deja esto como una pregunta para responder en la próxima conferencia.

  • 00:50:00 En esta sección, el disertante analiza los valores propios y los vectores propios y por qué un vector propio en particular que tiene un valor propio lambda 2 más 20 no invalida las afirmaciones anteriores. La conferencia se concluye con una revisión de los temas tratados y una nota para continuar la discusión en la próxima clase.
 

Lección 16. Derivadas de Valores Inversos y Singulares


16. Derivadas de valores inversos y singulares

Este video cubre una variedad de temas que incluyen la derivada de los valores inverso y singular de una matriz, el entrelazado y la norma nuclear de una matriz. El disertante presenta una fórmula para la derivada de valores singulares, utilizando el SVD, para comprender cómo cambia una matriz con el tiempo, al tiempo que establece límites para los cambios en los valores propios en matrices simétricas. La desigualdad de Vial se presenta como una forma de estimar los valores lambda de una matriz, y la búsqueda de bases se utiliza en los problemas de completación de matrices. El orador también discute la idea de que la norma nuclear de una matriz proviene de una norma que no es del todo una norma e introduce el concepto de Lasso y la detección comprimida que se discutirá en la próxima lección.

  • 00:00:00 En esta sección, el instructor analiza varios temas, incluida la búsqueda de la derivada de la inversa de una matriz, la derivada de un valor propio y la derivada del valor singular. El instructor comparte una fórmula para la derivada del valor singular, que descubrió recientemente, y menciona que la fórmula para la derivada del inverso no es simplemente la derivada de la matriz original. También habla sobre la tarea de laboratorio, pide consejo sobre un proyecto y menciona la próxima conferencia del profesor Townsend sobre álgebra lineal aplicada. El instructor continúa explicando cómo encontrar sistemáticamente la derivada de una matriz cuadrada y por qué la fórmula comúnmente asumida es incorrecta.

  • 00:05:00 En esta sección, el orador analiza la derivada de valores singulares, que es similar a la derivada de valores propios. La fórmula para la derivada de valores singulares viene dada por la transposición de da/dt por el vector singular de a. Esta fórmula se basa en la SVD, que dice que a por V es igual a Sigma U. Al usar estos hechos y manipular la ecuación, es posible derivar la fórmula para la derivada de valores singulares. Esta fórmula es útil para comprender cómo cambia una matriz con el tiempo y se puede aplicar en varios campos, como la física y la ingeniería.

  • 00:10:00 En esta sección, el orador analiza las derivadas de valores inversos y singulares. Comienzan explicando la fórmula para los valores singulares en términos de la SVD de una matriz y luego toman la derivada de la ecuación. El orador usa la regla del producto y simplifica la ecuación resultante para encontrar el término que le dará la respuesta que busca. Luego demuestran que los otros dos términos serán cero, lo que prueba que el término elegido es el correcto. Finalmente, usan productos escalares y un número para mostrar que la derivada de U con U transpuesta es igual a cero.

  • 00:15:00 En esta sección, el orador analiza las derivadas de valores singulares y valores propios de una matriz simétrica. Si bien no se puede calcular una fórmula exacta para el cambio en los valores singulares o propios, se pueden establecer límites reconociendo que los cambios positivos en los valores propios no harán que disminuyan. El entrelazamiento de los valores antiguos y nuevos se ilustra por el hecho de que el segundo valor propio no excederá el primer valor propio antiguo, y el primer valor propio nuevo no será menor que el primer valor propio antiguo, lo que hace que estos conceptos sean útiles para comprender la SVD.

  • 00:20:00 En esta sección del video, el orador plantea una pregunta de acertijo sobre el efecto de exagerar el segundo vector propio en los valores propios de una matriz. Señala que si el segundo valor propio aumenta en cierta cantidad, denotada como Theta, eventualmente puede superar el primer valor propio, lo que plantea un problema potencial. Sin embargo, luego explica su proceso de pensamiento y muestra que esto no es realmente un problema porque el primer valor propio permanece sin cambios, mientras que el segundo valor propio aumenta pero finalmente converge en la suma de lambda 1 y Theta.

  • 00:25:00 En esta sección, el orador analiza el entrelazado y la desigualdad de Vial. La desigualdad de Vial es una forma de estimar los valores lambda de una matriz, que son los valores propios que se ordenan de mayor a menor. La desigualdad es cierta para cualquier matriz simétrica y establece que el valor propio más grande de la suma de dos matrices simétricas es menor o igual que la suma de los valores propios más grandes de cada matriz individualmente. Esta propiedad de entrelazamiento se cumple no solo para perturbaciones de rango uno, sino también para perturbaciones de otros rangos. El orador usa el ejemplo de agregar una matriz positiva, T, a S y explica cómo se relaciona esto con la desigualdad de Vial.

  • 00:30:00 En esta sección, el orador analiza la desigualdad de Vile y cómo se relaciona con el entrelazado. La desigualdad de Vile da un límite sobre cuánto puede aumentar un valor propio, y este hecho es crucial para comprender el fenómeno de entrelazamiento. El orador menciona que hay dos formas de probar el entrelazado, incluida la desigualdad de Vile y otro método que involucra un gráfico. La sección también presenta la detección comprimida, que se analizará en la siguiente parte del video.

  • 00:35:00 En esta sección se introduce el concepto de norma nuclear de una matriz, que es la suma de los valores singulares de la matriz. Esto se puede considerar como la norma L1 para un vector. Tiene una propiedad especial, similar a la norma L1, donde minimizar la norma nuclear con una restricción da como resultado una solución dispersa. Esta propiedad es útil en problemas de completación de matrices, donde es necesario completar los datos que faltan en una matriz. Los números que minimizan la norma nuclear son una buena opción para completar los datos que faltan. La norma cero de un vector, que representa el número de no ceros, no es una norma, pero se puede mover a la norma más cercana, que es la norma L1. Esta norma es la suma de los valores absolutos de las componentes del vector. Minimizar esta norma sujeta a algunas condiciones se denomina búsqueda de base y se utiliza en problemas de completación de matrices.

  • 00:40:00 En esta sección, el orador discute la idea de que la norma nuclear de una matriz proviene de una norma que no es del todo una norma. Explica que el rango de la matriz es equivalente a esta norma pero deja de ser una norma porque no es escalable si se duplica el tamaño de la matriz. El orador continúa describiendo la conjetura de que el algoritmo de aprendizaje profundo de descenso de gradiente encuentra la solución al problema mínimo en la norma nuclear e introduce el concepto de Lasso y detección comprimida que se discutirá más a fondo en la próxima lección.
 

Lección 17: Valores singulares rápidamente decrecientes



  17: Valores singulares rápidamente decrecientes

La conferencia se centra en las matrices y sus rangos, y en la rapidez con la que los valores singulares decrecientes prevalecen en las matemáticas computacionales. El disertante examina matrices de rango bajo y demuestra cómo tienen muchos ceros en su secuencia de valores singulares, lo que hace que sea más eficiente enviar la matriz a un amigo en forma de rango bajo que en forma de rango completo. También introducen el rango numérico de una matriz, que se define permitiendo cierto margen de maniobra para definir la tolerancia de los valores singulares de una matriz. Al muestrear funciones suaves, que pueden aproximarse bien mediante polinomios, el rango numérico puede ser bajo, lo que da como resultado una aproximación de bajo rango de la matriz X. La lección también incluye ejemplos de matrices gaussianas y de Vandermonde para explicar cómo pueden llevar a matrices de rango bajo y analiza la utilidad de los números de Zolotarev para delimitar valores singulares.

  • 00:00:00 En esta sección, un profesor explica por qué las matrices de rango bajo son tan frecuentes en el mundo de las matemáticas computacionales. Analiza la importancia de los valores singulares, que nos informan sobre el rango de una matriz y qué tan bien se puede aproximar mediante una matriz de bajo rango. Continúa explicando que una matriz X se puede descomponer en una suma de K matrices de rango uno si tiene K valores singulares distintos de cero. Además, el espacio de columna y el espacio de fila de X tienen dimensión K. La secuencia de valores singulares es exclusiva de una matriz, y el enfoque está en identificar las propiedades de X que hacen que las matrices de bajo rango aparezcan en varios problemas matemáticos.

  • 00:05:00 En esta sección, el disertante analiza las matrices de bajo rango y cómo tienen muchos ceros en su secuencia de valores singulares. Una matriz de rango bajo es aquella en la que es más eficiente enviar la matriz a un amigo en forma de rango bajo que en forma de rango completo. La conferencia utiliza diferentes banderas para demostrar el concepto de matrices de bajo rango, con rangos extremadamente bajos altamente alineados con las coordenadas de las filas y columnas. A medida que aumenta el rango, la alineación se vuelve borrosa y se vuelve más difícil ver si la matriz tiene un rango bajo. Las matrices de rango alto son ineficientes para enviar en forma de rango bajo.

  • 00:10:00 En esta sección, el disertante examina la matriz de la bandera triangular para comprender por qué los patrones diagonales no son buenos para la compresión de rango bajo. La matriz de todos unos tiene una propiedad que es similar a la matriz favorita de Gil cuando se toma su inversa. Al examinar los valores singulares de esta matriz, el disertante muestra que los patrones triangulares no son susceptibles de compresión de bajo rango. Sin embargo, el caso del círculo y el patrón de la bandera japonesa son convenientes para la compresión de rango bajo.

  • 00:15:00 En esta sección, el disertante discute el rango de un círculo, particularmente la bandera japonesa. Al descomponer la bandera en un círculo, una pieza de rango uno en el medio y un cuadrado, se puede determinar el rango sumando los rangos de cada pieza. El disertante muestra que la pieza de rango uno está limitada por uno, y luego usa la simetría para determinar el rango de la pieza cuadrada, que depende del radio del círculo. Al hacer algunos cálculos con trigonometría, el disertante concluye que el rango es aproximadamente 1/2, lo que hace eficiente representar la bandera japonesa en forma de rango bajo. Sin embargo, la mayoría de las matrices en matemática computacional no son de rango finito sino de rango numérico, que es similar al rango pero permite cierta aproximación.

  • 00:20:00 En esta sección, aprendemos sobre el rango numérico de una matriz, que se define permitiendo cierto margen de maniobra para definir la tolerancia de los valores singulares de una matriz. El rango numérico es K si K es el primer valor singular por encima de épsilon, que denota la tolerancia, y el rango es el mismo que el último valor singular por encima de épsilon, y es el primer valor singular por debajo de épsilon. Las matrices numéricamente de bajo rango no son solo matrices de bajo rango, sino también matrices de rango completo con valores singulares que disminuyen rápidamente. Esto nos permite comprimir matrices usando una aproximación de bajo rango mientras permite un nivel de tolerancia razonable en la práctica. La matriz de Hilbert es un ejemplo de matriz de rango completo con rango numérico bajo.

  • 00:25:00 En esta sección, el disertante analiza cómo las matrices pueden tener un rango numérico bajo pero no necesariamente un rango bajo en general. La matriz de Vandermonde se utiliza como un ejemplo clásico de esto. Esta matriz aparece en la interpolación de polinomios en puntos reales y, a menudo, tiene un rango numérico bajo, lo que dificulta su inversión. Sin embargo, el rango bajo numérico no siempre es deseable, particularmente cuando se trata de encontrar el inverso. El disertante explica que la razón por la que hay tantas matrices de bajo rango es que el mundo es suave, lo que significa que las matrices son numéricamente de bajo rango. Se da un ejemplo donde se muestrea un polinomio en dos variables, y se muestra que la matriz resultante es de rango bajo matemáticamente con épsilon igual a cero.

  • 00:30:00 En esta sección, el orador explica cómo obtener una aproximación de rango bajo para una matriz X muestreando una función y aproximando esa función mediante un polinomio. Si se puede escribir un polinomio de dos variables, con grado M tanto en x como en y, y luego muestrearlo, la x resultante tendrá un rango bajo con épsilon igual a cero, teniendo como máximo un rango de M al cuadrado. Al muestrear funciones suaves, que pueden aproximarse bien mediante polinomios, el rango numérico puede ser bajo, lo que da como resultado una aproximación de bajo rango de la matriz X. Sin embargo, el razonamiento detrás de este método no funciona bien para la matriz de Hilbert, que es rango completo.

  • 00:35:00 En esta sección, el disertante discute cómo encontrar una razón apropiada para acotar el rango de una matriz. Mucha gente ha tratado de encontrar un polinomio que pueda predecir con precisión el rango de una matriz, pero los métodos no han sido satisfactorios. El disertante introduce la idea de las matrices de Sylvester, que son matrices que satisfacen una cierta ecuación llamada ecuación de Sylvester. Al encontrar un A, B y C que satisfagan la ecuación, se puede demostrar que una matriz tiene un rango numérico bajo. El disertante proporciona un ejemplo utilizando la matriz de Hilbert y una forma específica de multiplicar por la mitad a la izquierda y a la derecha para satisfacer la ecuación de Sylvester.

  • 00:40:00 En esta sección, la conferencia proporcionó ejemplos de matrices gaussianas y de Vandermonde para explicar cómo las permutaciones y la multiplicación pueden conducir a matrices de bajo rango. La conferencia explica que si X satisface una ecuación semestral, entonces se puede encontrar un límite en los valores singulares de cualquier matriz que satisfaga una expresión similar a la de las matrices de Gauss y Vandermonde, llamada norma de Frobenius. El Fuller y el límite se utilizan para demostrar este bajo rango numérico en matrices, con ejemplos dados para demostrar una conexión entre satisfacer ciertas ecuaciones y la apariencia de estas matrices de bajo rango en la práctica.

  • 00:45:00 En esta sección, el disertante analiza cómo el problema abstracto de valores singulares acotados por números de Zolotarev es útil porque muchas personas han estudiado previamente estos números. La razón clave por la que esto es útil es que los conjuntos E y F están separados, y esto es lo que hace que el número de Zolotarev se haga pequeño extremadamente rápido con k. El disertante usa la matriz de Hilbert como ejemplo para mostrar cómo el número de Zolotarev puede dar un límite en el rango numérico, lo que indica por qué hay tantas matrices de bajo rango en las matemáticas computacionales. El disertante también menciona la maldición no oficial que rodea a las dos personas clave que trabajaron en el problema de Zolotarev; ambos fallecieron a la edad de 31 años, razón por la cual aparece un signo de interrogación al lado del nombre de Pencil.
 

Lección 18: Parámetros de conteo en SVD, LU, QR, Puntos de silla



18: Parámetros de conteo en SVD, LU, QR, Puntos de silla

En esta lección, el orador revisa varias factorizaciones de matrices, como L&U, Q&R y matrices de vectores propios, y cuenta la cantidad de parámetros libres en cada una de estas matrices. También analizan el cálculo de Qs frente a SVD y cuentan el número de parámetros en el SVD para una matriz de rango R. El disertante también explica el concepto de puntos silla en matrices y cómo encontrarlos usando técnicas de optimización y multiplicadores de Lagrange. Por último, el disertante analiza el signo de los valores propios de una matriz simétrica y cómo el cociente de Rayleigh puede ayudar a determinar el valor máximo y el vector propio correspondiente de la matriz.

  • 00:00:00 En esta sección, el orador repasa las grandes factorizaciones de una matriz, como L&U, Q&R y matrices de vectores propios, y cuenta el número de parámetros libres en cada una de estas matrices. El orador señala que el número de parámetros libres en L&U o Q&R debe coincidir con el número de parámetros en la matriz original, y que los parámetros libres de las matrices de valores propios y vectores propios suman N al cuadrado. El orador señala que este ejercicio no se ve a menudo en los libros de texto, pero es una revisión importante para comprender el álgebra lineal.

  • 00:05:00 En esta sección, el orador analiza la cantidad de parámetros libres en diferentes factorizaciones de matrices, incluidas SVD, LU, QR y descomposición polar. El orador observa que el número de parámetros libres en una matriz ortogonal Q de N por n es N-1 para la primera columna y N-2 para las columnas posteriores debido a las condiciones de normalización y ortogonalidad. También analizan la cantidad de parámetros libres en una matriz simétrica S, que es 1/2 N por N menos 1 más la cantidad de elementos diagonales. Luego continúan mostrando cómo estos conteos se suman para diferentes factorizaciones, incluyendo L por U, Q por R y Q por S. Finalmente, mencionan la descomposición polar como otra factorización que da como resultado una matriz ortogonal por una simétrica.

  • 00:10:00 En esta sección, el disertante analiza el cálculo de Qs frente al SVD y luego cuenta los parámetros en el SVD. El rango más grande que puede tener la matriz rectangular es M, lo que dará como resultado una matriz M por N para la SVD. El disertante espera que sume el total de la matriz original, que tiene parámetros MN. La cuenta de S es igual a M y la cuenta de V es igual a N. La cuenta de U es igual a 1/2 (M^2 + M) si es una matriz ortogonal de M por M.

  • 00:15:00 En esta sección, el orador explica cómo contar los parámetros importantes en la descomposición de valores singulares (SVD) de una matriz para una matriz de rango R. Las M columnas de V que corresponden a valores singulares distintos de cero son las únicas partes importantes de la matriz. Para contar el número de parámetros, el locutor utiliza una fórmula que explica el número diferente de parámetros necesarios en cada columna ortogonal de V, hasta la columna M-ésima. La fórmula consiste en sumar de 1 a NM para cada columna y restar ese número de la mitad de M al cuadrado más M más 1. El resultado de la fórmula es el recuento final de los parámetros en la SVD de una matriz de rango R.

  • 00:20:00 En esta sección, el disertante discute las matrices de rango R y la cantidad de parámetros que tienen. Las matrices de rango R no son un subespacio porque diferentes matrices pueden tener el mismo rango, haciéndolo más como una superficie, con diferentes piezas. El hablante cree que una matriz de rango R tiene parámetros R. Luego pasan a encontrar el número de parámetros en una matriz de rango R. El número de parámetros es R para Sigma, (R + 1) / 2 para V y (M - 1) + (M - 2) + ... + (M - R) para U.

  • 00:25:00 En esta sección de la lección, el instructor analiza el concepto de puntos de silla en matrices, que son diferentes de máximos y mínimos. Los puntos de silla surgen cuando se optimiza una función de costo cuadrática sujeta a restricciones lineales utilizando multiplicadores de Lagrange. El instructor presenta lambda y muestra cómo se usa en el Lagrangiano para formar una función que depende tanto de X como de lambda. Esta función se puede optimizar para encontrar cualquier punto de silla que pueda surgir. El instructor también menciona otra fuente de puntos silla, que surgen en matrices que no son definidas positivas ni definidas negativas.

  • 00:30:00 En esta sección, el orador analiza cómo encontrar los puntos de silla de una función y muestra cómo surgen en una clase importante de problemas representados por una matriz de bloques. La función tiene puntos silla, no un máximo. La contribución de Lagron a este problema es tomar las derivadas con respecto a X y lambda, produciendo n y m ecuaciones, respectivamente. En última instancia, la matriz representada por la matriz de bloques indica que no es definida positiva y esta información se puede utilizar para determinar los puntos silla.

  • 00:35:00 En esta sección, el disertante analiza cómo el determinante de una matriz puede ayudar a determinar los signos de sus valores propios. Usando un ejemplo simple, muestra que si el determinante es negativo, debe haber valores propios de ambos signos. Luego relaciona esto con las matrices KKT utilizadas en la optimización y argumenta que generalmente son indefinidas, pero tienen un bloque definido positivo asociado con ellas. Demuestra que, cuando se utiliza la eliminación de bloques en este bloque definido positivo, todos los n pivotes serán positivos, lo que lleva a la conclusión de que las matrices KKT tienen valores propios tanto positivos como negativos.

  • 00:40:00 En esta sección, el disertante analiza los puntos de silla y cómo se relacionan con las restricciones. Explica cómo determinar el signo de los valores propios de una matriz simétrica, en función de los signos de sus pivotes. El disertante también define el cociente de Rayleigh y repasa cómo puede ayudarnos a determinar el valor máximo y el vector propio correspondiente de una matriz simétrica. La conferencia termina con una explicación de cómo cualquier valor que introduzcamos en el cociente de Rayleigh será menor que el valor máximo.

  • 00:45:00 En esta sección, el orador discute el concepto de puntos silla en el cociente de Rayleigh. Hay lambdas intermedias difíciles de manejar entre el mínimo y el máximo. Sin embargo, en el máximo y mínimo, los valores del cociente son fáciles de medir. Si se selecciona cualquier vector en cualquier dimensión, podemos calcular R de X, que está entre el máximo y el mínimo. El orador dice que hablar sobre los detalles de los puntos de silla se guardará para la próxima lección, pero antes de eso, se dará el tercer laboratorio, que enseña sobre el sobreajuste, el aprendizaje profundo y se entregará después del descanso.
 

Lección 19. Puntos de silla (continuación), principio de Maxmin



19. Puntos de silla (continuación), principio de Maxmin

En este video, el orador continúa discutiendo los puntos de silla y cómo encontrar valores mínimos y máximos usando el cociente de Rayleigh en un espacio bidimensional. Se explica el teorema del entrelazado, que consiste en escribir puntos de silla como el máximo de un mínimo para encontrar rápidamente máximos y mínimos. El orador también advierte contra el sobreajuste al ajustar datos con un polinomio de alto grado y analiza dos laboratorios abiertos para la clase, que involucran puntos de silla y una red neuronal simple. Se explican los conceptos de media y varianza en estadísticas y varianza y covarianza de muestra, y el orador señala que la matriz de covarianza para salidas totalmente dependientes no sería invertible, y para escenarios de sondeo con varias personas viviendo en una casa, se espera algo de covarianza pero no del todo independiente.

  • 00:00:00 En esta sección, el orador analiza la importancia de comprender los puntos de silla en relación con encontrar el mínimo de la función de costo total en el aprendizaje profundo. Proporcionan un ejemplo de un cociente de Rayleigh y una matriz S simple para ilustrar los hechos principales de los puntos de silla, los valores máximo y mínimo de la función y la presencia de un punto de silla. El orador también menciona sus planes para discutir el laboratorio tres, proyectos y estadísticas básicas, particularmente la matriz de covarianza.

  • 00:05:00 En esta sección, el orador analiza los puntos de silla y cómo encontrar los valores mínimo y máximo cargando todo en una variable y calculando las derivadas para encontrar dónde son iguales a cero. Demuestran cómo encontrar el valor mínimo y muestran que los vectores propios y los valores propios de la matriz ayudan a encontrar la ubicación y el valor del punto de silla. El disertante también habla sobre cómo calcular las segundas derivadas y la matriz simétrica. Enfatizan la importancia de calcular los valores del punto silla y sugieren trabajar con códigos y ser conscientes del proceso.

  • 00:10:00 En esta sección, el orador analiza la idea de los puntos silla y cómo escribirlos como el máximo de un mínimo para volver rápidamente a los máximos y mínimos. Explica que esto conduce al teorema de entrelazamiento y da un ejemplo de tomar el mínimo sobre un subespacio bidimensional para encontrar el mínimo del cociente de Rayleigh. Tomando el máximo de ese mínimo sobre todos los subespacios, puede obtener lambda, el valor del punto silla.

  • 00:15:00 En esta sección, el ponente explica cómo encontrar los valores máximos y mínimos en un espacio bidimensional utilizando el cociente de Rayleigh. Demuestra que el valor máximo es tres tomando el máximo sobre todos los espacios 2D posibles y mostrando que esta elección particular de V dio la respuesta de tres. Luego, el orador explica cómo el valor mínimo estará por debajo de tres para cualquier otro subespacio, lo que significa que el valor máximo para los mínimos también es tres. También se discute el concepto de puntos de silla, y el orador señala que estos puntos a menudo ocurren en los puntos más altos de ciertas regiones, y pueden ser Máximos de Mínimos o Mínimos de Máximos. El video concluye con una discusión de proyectos y una invitación para que los espectadores hagan preguntas sobre ellos.

  • 00:20:00 En esta sección, el ponente explica un modelo de sobreajuste en el que se utiliza un polinomio de grado 5 para ajustar 6 puntos. El orador señala que el polinomio de quinto grado encajaría exactamente con los puntos de datos, pero también sería un modelo defectuoso porque no sería uniforme ni agradable. Este ejemplo sirve como advertencia contra el sobreajuste, que ocurre cuando un modelo es demasiado complejo y se ajusta demasiado a los datos de entrenamiento.

  • 00:25:00 En esta sección, el disertante discute el problema de ajustar datos con un polinomio de alto grado. Si bien el ajuste de una línea recta puede resultar en un ajuste insuficiente, el ajuste de un polinomio de alto grado puede generar un ajuste excesivo, ya que crea un ajuste perfecto para todos los puntos de datos dados, sin considerar el ruido en los datos. La idea de un ajuste perfecto está relacionada con la matriz de Vandermonde, que tiene una inversa grande debido al vector de coeficiente gigante resultante del ajuste perfecto. La matriz tiene una amplia gama de valores singulares, con valores diminutos junto a valores de tamaño ordinario. Como tal, puede ser un desafío encontrar el grado correcto de polinomio que se ajuste a los datos para lograr un equilibrio entre el ajuste insuficiente y el ajuste excesivo.

  • 00:30:00 En esta sección, el orador describe dos ejemplos de laboratorios abiertos para su clase, uno que involucra puntos de silla y el otro que involucra una red neuronal simple. Para el ejemplo del punto de silla, el orador sugiere enviar gráficos y tablas de datos al alcance del grado y sacar conclusiones sobre la seguridad y el riesgo de aumentar K. Con respecto al ejemplo de la red neuronal, el orador describe un problema de clasificación básico y alienta a los estudiantes a modificar el modelo como mejor les parezca, sin dejar de usar el álgebra lineal. El orador también menciona una próxima reunión de profesores sobre los planes del MIT para cursos de pensamiento computacional, de los cuales este curso es un ejemplo. Finalmente, el orador invita a los estudiantes a enviarle un correo electrónico con ideas generales de proyectos y preferencias de grupo.

  • 00:35:00 En esta sección, el profesor discute la idea de un proyecto para la clase y aclara su alcance. Menciona que el proyecto no sería demasiado grande, tal vez equivalente a tres tareas, pero tampoco trivial. Pide a los estudiantes sus preguntas y aportes sobre el proyecto, sugiriendo la posibilidad de incluir temas como redes neuronales convolucionales. El profesor también menciona que algunos estudiantes habían iniciado una reunión en el Media Lab, y se había llevado a cabo con éxito. Pregunta si la gente estaría interesada en tales reuniones nuevamente después de las vacaciones de primavera.

  • 00:40:00 En esta sección, el orador presenta los conceptos de media y varianza en las estadísticas, cómo se relacionan con el resultado real y el resultado esperado, y la diferencia entre la media de la muestra y la media esperada. La media muestral se calcula a partir del resultado real de un experimento, mientras que la media esperada se calcula a partir de las probabilidades de esos resultados. También se analiza la varianza, distinguiéndose entre la varianza muestral y la varianza esperada. El orador explica que los valores esperados de la media y la varianza se aproximarán a los valores reales a medida que aumente el número de muestras o posibilidades.

  • 00:45:00 En esta sección, se analiza el concepto de varianza muestral, que mide la distancia promedio al cuadrado desde la media de un conjunto de n muestras. En estadística, la división de n menos uno significa que esta distancia se calcula a partir de la media de la muestra, no de cero, y cuando n es grande, la diferencia entre n y n menos uno no es significativa. La covarianza, por otro lado, es una idea más profunda que involucra la manipulación de matrices cuando se realizan múltiples experimentos y se calcula la probabilidad conjunta de dos eventos separados.

  • 00:50:00 En esta sección, el orador analiza los dos extremos de la salida de covarianza: salidas independientes y salidas totalmente dependientes. Mientras que las salidas independientes tienen una covarianza de 0, las salidas totalmente dependientes tienen una covarianza máxima, donde una salida está completamente determinada por la otra. El orador usa el ejemplo de lanzar monedas pegadas para explicar este concepto. La matriz de covarianza para las salidas dependientes no sería invertible y definida positiva simétrica, o semidefinida para el caso pegado. El orador menciona que en escenarios de encuestas donde varias personas viven en una casa, se esperaría cierta covarianza, pero no sería completamente independiente.
 

Lección 20. Definiciones y Desigualdades



20. Definiciones y Desigualdades

En esta sección del video, el orador analiza varios conceptos en la teoría de la probabilidad, incluido el valor esperado, la varianza y las matrices de covarianza. La desigualdad de Markov y la desigualdad de Chebyshev también se introdujeron como herramientas fundamentales para estimar probabilidades. Luego, el orador procede a explicar la relación entre la desigualdad de Markov y la desigualdad de Chebychev, ilustrando cómo conducen al mismo resultado. También se introdujo el concepto de covarianza y matriz de covarianza, una herramienta fundamental en la teoría de la probabilidad. El video también explora la idea de las probabilidades conjuntas y los tensores, y explica cómo pegar monedas agrega dependencia y altera las probabilidades. Finalmente, el disertante discute las propiedades de la matriz de covarianza, enfatizando que siempre es semidefinida positiva y es una combinación de matrices semidefinidas positivas de rango 1.

  • 00:00:00 En esta sección, el disertante analiza el valor esperado, la varianza y la matriz de covarianza. El valor esperado, simbolizado como 'e', se define como el promedio ponderado de todos los resultados posibles en función de sus probabilidades. La varianza, por otro lado, es el valor esperado del cuadrado de la distancia entre la media y cada punto de datos. La matriz de covarianza también se puede expresar de manera similar. Luego, el disertante explora una segunda expresión para la varianza escribiendo los cuadrados y combinándolos de manera diferente, lo que da como resultado una forma más eficiente de calcular la varianza.

  • 00:05:00 En esta sección, el orador analiza un proceso algebraico de simplificación de una ecuación para encontrar el valor esperado de x al cuadrado. Muestra que el valor esperado de x al cuadrado menos el valor esperado de x menos M al cuadrado es equivalente a la suma de las probabilidades de x al cuadrado. Luego, el orador continúa presentando la desigualdad de Markov, que es una desigualdad estadística que involucra probabilidades y expectativas. Señala que Markov fue un gran matemático ruso y que verán las cadenas y los procesos de Markov más adelante en el libro.

  • 00:10:00 En esta sección, el orador explica la desigualdad de Markov, que puede ayudar a estimar la probabilidad de que X sea mayor o igual a cierto número. La desigualdad establece que la probabilidad de que X sea mayor o igual que a es menor o igual que la media de X dividida por a. El hablante da un ejemplo usando una media de uno y un valor de a de tres, mostrando que la probabilidad de que X sea mayor o igual a tres es menor o igual a 1/3. Sin embargo, el orador señala que esta desigualdad solo se aplica a eventos no negativos y no se puede usar con eventos que tienen salidas que van desde infinito negativo hasta infinito positivo.

  • 00:15:00 En esta sección del video, el orador habla sobre el uso de un caso especial para demostrar la probabilidad de ser mayor o igual a 3. Usan la definición de la media para escribir una ecuación específica y luego hacen suposiciones sobre los valores de X1 a X5 para satisfacer la desigualdad de Markov. Establecen el hecho de que las probabilidades suman 1 y todas son mayores o iguales a 0. Luego, el orador procede a manipular la ecuación para mostrar que la probabilidad de ser mayor o igual a 3 es menor o igual a 1/. 3 restando ciertos valores de la ecuación. Concluyen mostrando que la ecuación satisface la desigualdad de Markov.

  • 00:20:00 En esta sección, el orador analiza las desigualdades de probabilidad de Markov y Chebyshev. La desigualdad de Markov consiste en estimar la probabilidad de que una variable sea mayor o igual a un cierto valor, y solo se aplica cuando las variables son todas mayores o iguales a cero. La desigualdad de Chebyshev, por otro lado, se ocupa de la probabilidad de que una variable esté a cierta distancia de la media, y no hace ninguna suposición sobre las entradas. Estas dos desigualdades son herramientas fundamentales para estimar probabilidades en la teoría de la probabilidad.

  • 00:25:00 En esta sección, el orador explica la relación entre la desigualdad de Markov y la desigualdad de Chebychev. Introduce una nueva variable Y, que es X menos M al cuadrado, y explica cómo calcular su media. Luego, el orador aplica la desigualdad de Markov a Y y la desigualdad de Chebychev a X, demostrando cómo conducen al mismo resultado. Finalmente, introduce el concepto de covarianza y matrices de covarianza.

  • 00:30:00 En esta sección, el orador introduce el concepto de covarianza y matriz de covarianza, que es una matriz M por M donde M es el número de experimentos que se realizan a la vez. Para ilustrar este concepto, el orador usa el ejemplo de lanzar dos monedas con una salida (X) por moneda. Si las dos monedas se lanzan al aire de forma independiente, entonces no hay correlación entre las salidas, pero si están pegadas, entonces las salidas están correlacionadas y las probabilidades conjuntas se colocan en una matriz de 2x2.

  • 00:35:00 En esta sección, el orador analiza el concepto de probabilidades conjuntas y matrices para configuraciones experimentales que involucran monedas independientes. Exploran la idea de una estructura de tres vías, o tensor, en los casos en que hay tres experimentos con monedas justas independientes o cuando las monedas están pegadas. Las entradas resultantes en el tensor serían las probabilidades conjuntas, que se pueden usar para calcular la probabilidad de diferentes resultados. El orador señala que mientras que las entradas en un caso simple de un experimento sin pegar son un octavo, pegar las monedas agrega dependencia y altera las probabilidades.

  • 00:40:00 En esta sección del video, el orador analiza la probabilidad conjunta de lanzar tres monedas y cómo se puede representar en una matriz de 3 vías. Menciona el concepto de tensores y matrices de covarianza, definiendo esta última como la varianza del resultado conjunto de dos experimentos, X e Y, expresada como la suma de todos los resultados posibles. El orador también explica el símbolo P IJ y cómo se relaciona con pegar y despegar monedas en diferentes configuraciones.

  • 00:45:00 En esta sección del video, el orador analiza la probabilidad conjunta de dos eventos, X e Y, y cómo calcular esta probabilidad para diferentes pares de valores. El orador brinda ejemplos de cómo usar la probabilidad conjunta, incluido el cálculo de la probabilidad de una cierta edad y altura. El orador también define las probabilidades marginales, que son las probabilidades individuales de cada evento, y explica cómo sumar las probabilidades a lo largo de las filas o columnas de una matriz. Luego, el orador continúa definiendo la matriz de covarianza y explica cómo calcular sus entradas.

  • 00:50:00 En esta sección, el ponente habla sobre la matriz de covarianza y sus propiedades. Explica que la varianza del experimento X se deriva de sumar todos los P IJ, mientras que la varianza del experimento Y viene dada por el valor de Sigma Y al cuadrado. La covarianza entre X e Y es la suma de los P IJ multiplicados por la distancia de X a su media y la distancia de Y a su media. En el caso de monedas independientes la covarianza sería cero, mientras que en el caso de monedas pegadas sería igual a Sigma X al cuadrado Sigma Y al cuadrado. El determinante de la matriz es cero en el caso de las monedas pegadas, lo que muestra que la covarianza al cuadrado es la misma que Sigma X al cuadrado Sigma Y al cuadrado. La matriz de covarianza siempre es semidefinida positiva y es una combinación de semidefinida positiva de rango 1, por lo que es semidefinida positiva o definida positiva.
 

Lección 21: Minimizando una función paso a paso



Lección 21: Minimizando una función paso a paso

Esta video conferencia analiza los algoritmos básicos utilizados para minimizar una función y sus tasas de convergencia, en particular el método de Newton y el descenso más pronunciado. También destaca la importancia de la convexidad, que asegura que la función tenga un mínimo, e introduce el concepto de conjuntos convexos y funciones convexas. El disertante explica cómo probar la convexidad en una función, lo que determina si tiene puntos de silla o mínimos locales, en lugar de un mínimo global. El video concluye con una discusión de Levenberg Marquardt, una versión más económica del método de Newton que no es completamente de segundo orden.

  • 00:00:00 En esta sección, el disertante analiza los conceptos básicos de la optimización, que es el algoritmo fundamental que interviene en el aprendizaje profundo. La lección comienza explicando la serie de Taylor y continúa mostrando cómo extender la serie de Taylor cuando la función es de más de una variable. Luego, el disertante introduce el gradiente de F, que son las derivadas parciales de F con respecto a cada variable X. Finalmente, se explica el término cuadrático y la lección termina discutiendo las segundas derivadas y cómo cambian con más variables.

  • 00:05:00 En esta sección de la lección, se introduce el concepto de matriz hessiana, que es la matriz de las segundas derivadas de una función. La matriz hessiana es simétrica y su cálculo es factible para valores pequeños a moderadamente grandes de n. Hay una imagen paralela para la función vectorial, que es la matriz jacobiana, con entradas que son las derivadas de la función con respecto a diferentes variables. Estos son hechos de cálculo multivariable, que se utilizan para resolver ecuaciones en problemas de optimización.

  • 00:10:00 En esta sección, el disertante analiza el método de Newton para resolver sistemas de ecuaciones en n incógnitas, que consiste en minimizar una función dada. El método de Newton es la mejor manera de resolver n ecuaciones en n incógnitas, que se pueden expresar como F igual a 0, donde F de uno es igual a cero y hay n ecuaciones en total. El disertante muestra cómo utilizar el método de Newton para resolver la ecuación x al cuadrado menos 9 igual a 0, que se puede escribir como una función, y demuestra cómo aplicar el método paso a paso.

  • 00:15:00 En esta sección, el disertante analiza cómo se usa el método de Newton para minimizar una función y cómo determinar qué tan rápido converge. Comienzan simplificando la fórmula que determina X sub K + 1 y muestran que si X sub K es exactamente 3, entonces X sub K + 1 también será 3. Luego se enfocan en qué tan rápido el error se aproxima a cero y restan 3 de ambos lados para factorizar 1 sobre X sub K. La simplificación de la ecuación muestra que el error en el paso K + 1 se eleva al cuadrado en cada paso, lo que demuestra por qué el método de Newton es fantástico si se ejecuta lo suficientemente cerca.

  • 00:20:00 En esta sección, el disertante analiza el uso del método de Newton para la optimización y cómo es aplicable a funciones de pérdida muy complicadas con miles o incluso cientos de miles de variables. La conferencia cubre dos métodos, el descenso más pronunciado y el método de Newton, en los que el descenso más pronunciado implica moverse en la dirección del gradiente de F, pero con libertad para decidir el tamaño del paso. Por otro lado, el método de Newton tiene en cuenta la segunda derivada de F y permite una convergencia más rápida, pero también podría converger a soluciones no deseadas o explotar para ciertos puntos de partida. Esto lleva al concepto de regiones de atracción, donde ciertos puntos de partida conducen a la solución deseada, mientras que otros conducen a los indeseables o al infinito.

  • 00:25:00 En esta sección, el disertante analiza dos métodos para minimizar una función paso a paso: el descenso más pronunciado y el método de Newton. Ambos implican elegir iterativamente una dirección en el espacio n-dimensional y moverse una cierta distancia a lo largo de esa dirección, pero el descenso más pronunciado usa el gradiente de la función para elegir la dirección, mientras que el método de Newton usa el hessiano o segunda derivada. La conferencia también explica el concepto de una búsqueda de línea exacta y la importancia de elegir una tasa de aprendizaje adecuada en estos métodos.

  • 00:30:00 En esta sección, el disertante analiza los algoritmos básicos utilizados para minimizar una función y sus tasas de convergencia. El disertante explica que el método de Newton tiene una tasa de convergencia cuadrática, lo que lo hace súper rápido si se inicia lo suficientemente cerca. Por el contrario, el algoritmo de descenso más pronunciado tiene una tasa de convergencia lineal, lo que lo hace menos eficiente. El disertante enfatiza que el punto de partida para resolver estos problemas debe ser la convexidad, lo que asegura que la función tenga un mínimo. El disertante define conjuntos y funciones convexos y explica su importancia en la minimización de una función para puntos en un conjunto convexo. La conferencia concluye con una discusión de Levenberg Marquardt, una versión más económica del método de Newton que no es completamente de segundo orden.

  • 00:35:00 En esta sección del video, el orador analiza cómo minimizar una función. Las restricciones de la función están definidas por un conjunto convexo, lo que significa que cualquier línea dibujada entre dos puntos dentro del conjunto debe permanecer dentro del conjunto. El orador da el ejemplo de dos triángulos superpuestos, que no forman un conjunto convexo cuando se combinan.

  • 00:40:00 En esta sección, se introduce el concepto de conjuntos convexos y funciones convexas. Se observa que la intersección de dos conjuntos convexos siempre es convexa, y el conjunto vacío se considera un conjunto convexo. Las notas en el video resaltan la importancia de comprender estos conceptos al minimizar funciones, ya que el problema del prototipo consiste en encontrar funciones con una imagen convexa. El video también conecta la definición de una función convexa con la definición de un conjunto convexo, observando que la gráfica de una función convexa se asemeja a un tazón, mientras que los puntos en esa superficie no son conjuntos convexos. Sin embargo, el conjunto de puntos en el gráfico es un conjunto convexo.

  • 00:45:00 En esta sección de la conferencia, el orador discute una prueba de función convexa. Explica que se pueden usar dos funciones convexas para crear una función mínima y máxima, y una de ellas será convexa mientras que la otra no. La función mínima tendrá una torcedura y, por lo tanto, no será convexa, mientras que la función máxima será convexa. El ponente también menciona que esta prueba se puede extender a un máximo de 1500 funciones, y si todas las 1500 funciones son convexas, su máximo también será convexo.

  • 00:50:00 En esta sección, el orador explica cómo probar la convexidad en una función. Para una función con una sola variable en cálculo, una función convexa se puede probar verificando si la segunda derivada es positiva o cero. Cuando se trata de una función vectorial con múltiples variables, se agregaría una matriz simétrica F a la función. La prueba de convexidad aquí sería semidefinida positiva para el hessiano, ya que las segundas derivadas dan como resultado una matriz. Los problemas convexos no tienen puntos de silla ni mínimos locales, solo el mínimo global, lo que los hace deseables.
 

Lección 22. Descenso de gradiente: descenso al mínimo



22. Descenso de pendiente: cuesta abajo hasta el mínimo

En el video, "Gradient Descent: Downhill to a Minimal", el orador analiza la importancia del gradiente descendente en la optimización y el aprendizaje profundo, donde el objetivo es minimizar una función. El orador presenta el gradiente y la arpillera, e ilustra los pasos del descenso más pronunciado usando una función cuadrática. El orador también analiza cómo interpretar el gradiente y la arpillera, así como su papel en la medición de la convexidad. El ponente profundiza en la elección de la tasa de aprendizaje adecuada, destacando la importancia del número de condición en el control de la velocidad de convergencia. El video también brinda ejemplos prácticos y fórmulas para ayudar a comprender el concepto de descenso de gradiente, incluido el método de la bola pesada.

  • 00:00:00 En esta sección, el orador analiza el descenso de gradiente como el algoritmo central en las redes neuronales, el aprendizaje profundo, el aprendizaje automático y la optimización en general. El objetivo es minimizar una función, y si hay demasiadas variables para tomar las segundas derivadas, el enfoque está en las primeras derivadas de la función. El orador introduce la idea de gradiente y Hessian, y el papel de la convexidad antes de sumergirse en un ejemplo crucial de una función cuadrática pura con dos incógnitas. A través del ejemplo, el hablante demuestra los pasos del descenso más empinado y qué tan rápido convergen a la respuesta, que es el punto mínimo. El ponente también explica la importancia del número de condición en la velocidad de convergencia, y cómo interpretar y calcular el gradiente de una función.

  • 00:05:00 En esta sección, el ponente explica cómo interpretar el gradiente y la arpillera de una superficie. Usando el ejemplo de una superficie donde el gradiente es constante y el hessiano solo contiene segundas derivadas de cero, el orador ilustra cómo visualizar la superficie e interpretar el gradiente y el hessiano en términos de conjuntos de nivel y ascenso más pronunciado. El disertante enfatiza que la matriz hessiana de segundas derivadas nos informa sobre la forma de una superficie y qué tan rápido cambia en diferentes direcciones.

  • 00:10:00 En esta sección, se introduce el concepto de Hessian como una herramienta para medir la convexidad de una función. El hessiano de una función nos dice si una superficie es convexa o no, con hessianos semidefinidos positivos o definidos positivos que indican convexidad. Una función lineal es convexa pero no estrictamente convexa, mientras que una función estrictamente convexa se curvaría hacia arriba. Se da un ejemplo de una función estrictamente convexa, a saber, 1/2 x transpuesto x, que tiene un valor mínimo cuando el gradiente es la mitad de sx al cuadrado.

  • 00:15:00 En esta sección, el orador analiza el concepto de encontrar el valor mínimo de una función cuadrática mediante el descenso de gradiente. El mínimo se alcanza en un punto donde el gradiente es cero, y este punto se denota como argh men. El orador enfatiza que esto es diferente del valor mínimo real de la función y que el enfoque a menudo es encontrar el punto donde se alcanza el mínimo en lugar del valor mínimo en sí. En este ejemplo particular, el valor mínimo es cero debido a la falta de un término lineal.

  • 00:20:00 En esta sección, el orador analiza la cuestión fundamental de la minimización para encontrar el mínimo de una función cuadrática. La función pasa por cero y toca fondo en un cierto punto, y reemplazando ese punto, podemos determinar su nivel más bajo. El orador menciona una función convexa notable y señala que la convexidad es lo que realmente hace que las cosas funcionen. Esta función es una función de una matriz y contiene N variables al cuadrado.

  • 00:25:00 En esta sección, el hablante analiza una función convexa obtenida tomando el determinante de una matriz, seguido de su logaritmo con signo negativo. La función resultante es convexa y, para una matriz dada, las derivadas parciales funcionan como las entradas de la inversa de esa matriz. A continuación, el ponente profundiza en la derivada del determinante de una matriz con respecto a sus entradas, destacando la importancia de calcular estas derivadas en algoritmos de descenso de gradiente.

  • 00:30:00 En esta sección, el orador explica el determinante y su propiedad fundamental, que establece que es lineal en la Fila 1. También entra en la fórmula para la expansión del cofactor de un determinante y la conecta con el hecho de que el gradiente es las entradas de X inversa. Luego, el orador introduce el descenso del gradiente y proporciona su fórmula, que involucra el tamaño del paso y el gradiente de s en X. La única entrada que queda para la toma de decisiones es el tamaño del paso.

  • 00:35:00 En esta sección, el instructor analiza la importancia de elegir la tasa de aprendizaje adecuada en el descenso de gradiente. Si la tasa de aprendizaje es demasiado grande, la función oscilará y será difícil de optimizar. Por otro lado, si la tasa de aprendizaje es demasiado pequeña, el algoritmo tardará demasiado en converger. Una forma de elegir la tasa de aprendizaje óptima es a través de una búsqueda de línea exacta, pero esto puede llevar mucho tiempo para problemas grandes. En cambio, las personas suelen estimar una tasa de aprendizaje adecuada y la ajustan según sea necesario mediante la búsqueda de línea de retroceso. El instructor enfatiza la importancia del número de condición en el control de la velocidad de convergencia y pregunta cuánto reduciría la función una búsqueda de línea exacta.

  • 00:40:00 En esta sección, el orador analiza un ejemplo para comprender mejor el descenso de gradiente. Se introduce una función particular donde se conocen las respuestas exactas, lo que permite realizar comparaciones. Comenzando en un punto de la superficie de esta función, el hablante aplica la fórmula de descenso de gradiente y calcula las iteraciones para esta función en particular. Luego, el orador presenta una hermosa fórmula que se tomará como el mejor ejemplo posible para ayudar a comprender el descenso de gradiente.

  • 00:45:00 En esta sección, el orador analiza cómo la relación (1-B)/(1+B) es crucial para determinar la velocidad de convergencia durante el descenso de gradiente. Si B está cerca de cero, la razón está cerca de uno, lo que lleva a una convergencia lenta, y si B está cerca de uno, la razón está cerca de cero, lo que lleva a una convergencia rápida. El disertante usa el ejemplo de conjuntos de niveles y elipses para explicar cómo el valle angosto puede causar una convergencia lenta cuando se acerca al mínimo. El orador enfatiza la importancia de un buen número de condición para la optimización.

  • 00:50:00 En esta sección, el orador analiza cómo el descenso de gradiente se aproxima a una curva con una trayectoria en zigzag para finalmente llegar a un punto específico. Él enfatiza que el multiplicador 1 - B/ (1 + B) juega un papel crítico, y para una función convexa, esta cantidad es crucial para determinar la convergencia del descenso más pronunciado. La próxima lección discutirá el impulso o bola pesada, lo que implica agregar un término adicional que permite que el movimiento se acelere en lugar de simplemente dirigirlo mediante un descenso más pronunciado en cada punto. La idea es dejar que el impulso de una bola pesada tome el control y ruede hacia abajo, de forma similar a como lo haría en la vida real.
 

Lección 23. Acelerar el descenso de gradiente (Usar Momentum)



23. Acelerar el descenso de gradiente (usar impulso)

Este video analiza el concepto de impulso en el descenso acelerado de gradientes. El presentador explica la fórmula básica de descenso de gradiente y muestra cómo agregar impulso puede resultar en un descenso más rápido que el método ordinario, lo que en última instancia produce mejoras significativas. También analizan un modelo continuo de descenso más pronunciado y explican cómo se puede analizar como una ecuación diferencial de segundo orden con un término de cantidad de movimiento. El presentador enfatiza la importancia de minimizar ambos valores propios cuando se usa el impulso para minimizar el valor propio más grande al elegir valores para s y beta para hacer que los valores propios de la matriz sean lo más pequeños posible. También discuten el método de Nesterov y sugieren que es posible obtener más mejoras retrocediendo dos o tres pasos o más.

  • 00:00:00 En esta sección, el orador analiza la fórmula básica de descenso del gradiente, donde el punto nuevo es el punto anterior menos el tamaño del paso multiplicado por el gradiente negativo en XK, que es la dirección del descenso. Agregar impulso para evitar zigzags en el descenso de gradientes da como resultado un descenso más rápido que el método ordinario. También existe una alternativa al impulso que acelera el descenso, desarrollada por un matemático ruso llamado Nestoroff. Para problemas de aprendizaje automático con cientos de miles de variables, se utiliza el descenso de gradiente estocástico, donde se elige aleatoria o sistemáticamente un mini lote de datos de entrenamiento para hacer un lote de muestras de entrenamiento en cada paso.

  • 00:05:00 En esta sección, el orador analiza el descenso de la dirección más empinada y los conjuntos de nivel para un problema modelo con una función de X e Y al cuadrado igual a una constante, formando elipses. Explican que el punto de parada óptimo es donde estás tangente a la elipse más alejada en el nivel establecido y comienzas a subir de nuevo. El orador introduce el término de impulso para mejorar la fórmula de descenso más pronunciado y rastrea su descenso con un patrón en zig-zag, mostrando una mejora en el valor de los vectores propios. El disertante concluye que la expresión con impulso es un milagro y produce mejoras significativas.

  • 00:10:00 En esta sección del video, el orador analiza el uso del impulso para acelerar el descenso de gradientes. El término de decaimiento en cantidad de movimiento te dice qué tan rápido es menor la disminución, y con cantidad de movimiento, este término de 1 menos B sobre 1 más B cambia a uno menos la raíz cuadrada de B sobre 1 más la raíz cuadrada de B. El orador toma el ejemplo de B siendo 1 sobre 100, y la nueva X es la antigua X menos el gradiente con un término extra que nos da un poco de memoria. Este término implica tomar una nueva cantidad Z con un tamaño de paso, y en lugar de tomar Z solo como el gradiente, que sería el descenso más pronunciado, el hablante agrega una versión beta múltiple de la Z anterior, que es la dirección de búsqueda.

  • 00:15:00 En esta sección, el orador analiza el concepto de impulso en el descenso de gradiente acelerado. En lugar de usar un punto para representar la función, el hablante sugiere usar una bola pesada que se mueva más rápido por el valle de la función de costo. Esto se logra involucrando el paso anterior en los cálculos, dando como resultado un método de tres niveles en lugar de un método de dos niveles. Luego, el orador relaciona esto con un modelo continuo de descenso más pronunciado y explica cómo se puede analizar como una ecuación diferencial de segundo orden con un término de cantidad de movimiento. Luego muestran cómo escribir esto como un sistema de dos ecuaciones de primer orden, que se puede usar para crear un algoritmo de descenso de gradiente más eficiente y rápido.

  • 00:20:00 En esta sección, el orador analiza cómo analizar lo que sucede cuando k avanza en el algoritmo de descenso de gradiente acelerado. Explican que en cada paso, hay un problema de coeficiente constante ya que la variable XZ se multiplica por una matriz. El orador también menciona que para rastrear cada vector propio de s, siguen cada valor propio, lo que les permite reescribir la fórmula en términos de escalares en lugar de vectores.

  • 00:25:00 En esta sección, el orador analiza cómo rastrear un vector propio y usarlo para hacer que todo el problema sea escalar. Al elegir el tamaño del paso y el coeficiente de momento, pueden crear una matriz que puede multiplicar los coeficientes del vector propio en cada paso para actualizarlo. Al hacer que s y beta sean lo más pequeños posible, pueden garantizar que el algoritmo minimice la función de pérdida en todo el rango de posibles lambdas. El objetivo es elegir estos valores para que el proceso sea lo más eficiente posible.

  • 00:30:00 En esta sección, el orador explica el concepto del número de condición, que es la relación entre el valor propio más grande y el valor propio más pequeño de una matriz definida positiva simétrica. Un número de condición más alto significa un problema más difícil y uno más bajo significa un problema más fácil. El orador explica cómo usar el impulso para acelerar el descenso del gradiente y minimizar el valor propio más grande eligiendo valores para s y beta para hacer que los valores propios de la matriz sean lo más pequeños posible. El orador enfatiza que es esencial minimizar ambos valores propios, ya que tener un valor propio pequeño pero uno grande puede resultar mortal.

  • 00:35:00 En esta sección del video, el orador analiza el problema de encontrar los parámetros óptimos s y beta para una matriz de dos por dos, según los valores propios que dependen de lambda, m y capya. El objetivo es elegir parámetros que den como resultado el valor propio más pequeño posible, lo que conducirá a una convergencia más rápida. El disertante presenta la fórmula para los valores óptimos de s y beta, que dependen de la relación entre la m pequeña y la M grande, y explica cómo calcular el valor propio mínimo resultante en función de esta fórmula. En última instancia, el orador concluye que esta elección óptima de s y beta da como resultado valores propios que son más pequeños que un cierto número, lo que conduce a una convergencia más rápida.

  • 00:40:00 En esta sección, el orador habla sobre el uso del impulso para mejorar la tasa de convergencia en el aprendizaje automático. Mencionan el método de Nesterov para usar una idea ligeramente diferente que involucra el valor de tiempo anterior y evaluar el gradiente en un punto diferente. El orador señala que ahora se usan métodos muy populares para el aprendizaje automático que involucran una fórmula simple para agregar los valores anteriores, como ADA grad. También sugieren que es posible obtener más mejoras retrocediendo dos o tres pasos o más, como se hace en las fórmulas de diferencias hacia atrás utilizadas en el software MATLAB y en los cálculos planetarios.

  • 00:45:00 En esta sección, el presentador habla sobre el término de impulso y Nesterov, que implica evaluar el gradiente en un punto entre XK y XK menos 1. El punto de evaluación del gradiente de F está en algún punto no entero, lo cual es inesperado y extraño porque no es un punto de malla. Esto implica XK más 1, XK y XK menos 1, por lo que es un método de segundo orden. Para analizarlo se sigue el proceso de escribirlo como dos pasos de primer orden para optimizar los coeficientes en Nesterov. Este proceso implica escribirlo como un sistema acoplado de un solo paso que tiene una matriz, encontrar la matriz, encontrar los valores propios de la matriz y hacer que esos valores propios sean lo más pequeños posible.