Redes Neurais em IA e Deep Learning - página 4

 

Clase 6 - Teoría de la Generalización




Curso de aprendizaje automático de Caltech - CS 156. Clase 06 - Teoría de la generalización

La conferencia discute la teoría de la generalización y la función de crecimiento como el número de dicotomías que pueden ser generadas por una hipótesis establecida en un conjunto de N puntos, con el objetivo de caracterizar toda la función de crecimiento y generalizar para cada N caracterizando la ruptura. punto. El orador demuestra el proceso de calcular la función de crecimiento para diferentes conjuntos de hipótesis y probar el límite superior de la función de crecimiento mediante la identidad combinatoria. La discusión también toca el uso de la función de crecimiento en la desigualdad de Hoeffding, el VC destinado a caracterizar superposiciones entre hipótesis y la desigualdad de Vapnik-Chervonenkis, que es polinomial en N con el orden del polinomio decidido por el punto de ruptura.

El profesor discute la teoría de la generalización, aclarando puntos anteriores y explicando el concepto de punto de quiebre, que se utiliza para calcular los recursos necesarios para el aprendizaje. El enfoque del aprendizaje está en la aproximación a E_out, no a E_in, lo que permite al alumno trabajar con cantidades familiares. El profesor también explica el razonamiento detrás de reemplazar M con la función de crecimiento y cómo esto se relaciona con la cantidad combinatoria B de N y k. Mientras analiza las funciones de regresión, el profesor enfatiza la compensación de sesgo-varianza y cómo la capacidad de aprendizaje es independiente de la función objetivo. Finalmente, el profesor señala que los mismos principios se aplican a todo tipo de funciones.

  • 00:00:00 En esta sección, aprendemos sobre las dicotomías como mini-hipótesis que están restringidas a un conjunto finito de puntos y la función de crecimiento. La función de crecimiento cuenta el número de dicotomías que puede generar una hipótesis sobre un conjunto de N puntos. El punto de quiebre de los perceptrones se define como el punto donde los patrones comienzan a perderse debido al uso de hipótesis de un conjunto restringido. El objetivo teórico es caracterizar toda la función de crecimiento y generalizar para cada N caracterizando el punto de quiebre. También vemos que una restricción en el número de patrones en unos pocos puntos da como resultado la pérdida de muchos patrones para un mayor número de puntos, independientemente del conjunto de hipótesis y del espacio de entrada.

  • 00:05:00 En esta sección, el disertante analiza dos elementos: el primero muestra que la función de crecimiento es polinomial con un punto de quiebre y el segundo demuestra el reemplazo de M, el número de hipótesis, en la desigualdad de Hoeffding. El disertante enfatiza que no necesitan determinar los detalles de la función de crecimiento, sino solo mostrar que está acotada por un polinomio para que pueda usarse en la desigualdad de Hoeffding. El disertante introduce una cantidad clave llamada B de N y k, que es una cantidad combinatoria que representa el número máximo de dicotomías en N puntos con un punto de ruptura k. El límite para B de N, k se encuentra recursivamente llenando una tabla con N puntos y aislando el último punto para introducir una recursividad.

  • 00:10:00 En esta sección, el orador analiza cómo agrupar filas de una matriz que representan la extensión de una secuencia binaria. El primer grupo, S_1, consta de filas que aparecen solo una vez según la extensión. El segundo grupo, S_2, consta de filas que aparecen con ambas extensiones. Usando estas agrupaciones, el hablante define el número de filas en el grupo S_1 como alfa y el número de filas en el grupo S_2 como beta. Con estas definiciones, el hablante puede encontrar una recursión para el número máximo de filas/patrones que se pueden obtener en N puntos, de modo que ninguna columna k tenga todos los patrones posibles.

  • 00:15:00 En esta sección de la conferencia, el orador analiza la teoría de la generalización y cómo estimar beta. Explica que al analizar la segunda parte de la matriz S_2, que contiene bloques de patrones repetidos, puede argumentar que estos bloques de patrones tienen un punto de ruptura de k menos 1, no k. También explica que al tomar alfa más beta, que es el número total de filas o patrones en la minimatriz, puede decir algo sobre un punto de ruptura para esta pequeña matriz. Termina afirmando que al juntarlo todo, puede estimar la matriz completa y su número de filas.

  • 00:20:00 En esta sección, el orador analiza una matriz y deriva una fórmula recursiva para resolver un límite superior en B de N y k, donde B de N y k es la función de crecimiento máximo de un conjunto de hipótesis con una ruptura punto de k. Al calcular los valores de B de N y k usando la fórmula de recurrencia, el hablante llena una tabla con un límite superior en B de N y k. Las condiciones de contorno de la tabla se llenan primero y luego el resto de la tabla se llena usando la fórmula de recurrencia.

  • 00:25:00 En esta sección, el orador analiza la teoría de la generalización y habla sobre una tabla que representa el número máximo de dicotomías o patrones dado un número específico de puntos, N, y un punto de ruptura, k. El hablante explica cómo se llena la tabla y cómo se puede vaciar la restricción. Además, presentan una fórmula que calcula el número máximo de dicotomías o patrones como un límite superior para la función de crecimiento de cualquier conjunto de hipótesis que tenga un punto de ruptura k, sin hacer ninguna pregunta sobre el conjunto de hipótesis o el espacio de entrada.

  • 00:30:00 En esta sección, el disertante analiza el paso de inducción para demostrar un teorema sobre la fórmula de N y k. El paso implica suponer que la fórmula se cumple para valores dados de N y k, y luego probar que también se cumple para N-1 y k-1. El disertante demuestra el proceso de manipular las dos fórmulas, fusionando las sumas y reduciéndolas a una sola cantidad usando álgebra o argumentos combinatorios. El objetivo es establecer que la fórmula dada se cumple para todos los valores de N y k, que incluye los valores asumidos previamente, y de ahí, se prueba el teorema.

  • 00:35:00 En esta sección, el orador explica el proceso de probar el límite superior para B de N yk, la función de crecimiento para un conjunto de hipótesis que tiene un punto de ruptura k, usando identidad combinatoria. El polinomio resultante es útil porque el punto de quiebre es un número fijo y no crece con N. Luego, el orador ilustra que el límite superior es un polinomio en N mostrando que la potencia máxima es N elevado a k menos 1, que es un constante. Finalmente, el hablante aplica el límite superior a tres ejemplos de conjuntos de hipótesis y muestra que todos satisfacen el límite.

  • 00:40:00 En esta sección, el disertante analiza el cálculo de la función de crecimiento para rayos positivos e intervalos positivos. Al utilizar el punto de ruptura, que es la única entrada requerida, puede encontrar la función de crecimiento sin considerar la geometría del conjunto de hipótesis. Luego, el disertante aplica este método al perceptrón bidimensional, donde se desconoce la función de crecimiento, pero se sabe que el punto de ruptura es 4. Al usar el punto de ruptura, puede acotar completamente la función de crecimiento, lo cual es importante. en la simplificación de la caracterización de los conjuntos de hipótesis. Luego, el disertante explica cómo se puede usar esta función de crecimiento en la desigualdad de Hoeffding para reemplazar el número de hipótesis usando el límite de unión, que es casi inútil cuando M es significativo o infinito.

  • 00:45:00 En esta sección, el disertante explica la prueba pictórica de la acotación polinomial de la función de crecimiento. El espacio de posibles conjuntos de datos cubre todos los ejes y el área coloreada representa la región defectuosa donde E_in se desvía de E_out debido a ciertos conjuntos de datos. Al pintar esta mala región de rojo y usar la desigualdad de Hoeffding, el disertante muestra que el área coloreada es pequeña, lo que permite que el límite de unión reivindique la posibilidad de múltiples hipótesis. Sin embargo, cuando se agregan más hipótesis, el área coloreada llena el lienzo, lo que lleva al problema con el límite de unión. Luego, el disertante explica los dos aspectos necesarios para establecer la relación entre la función de crecimiento y las superposiciones y el enfoque para que E_out se ajuste al argumento de muestra finita.

  • 00:50:00 En esta sección, el disertante presenta el límite de VC como un nuevo lienzo para caracterizar superposiciones entre hipótesis. Explica que la función de crecimiento es una cantidad abstracta que caracteriza estas superposiciones y te dice la cantidad de dicotomías que se comportan de la misma manera. El disertante explica que la redundancia es capturada por la función de crecimiento y que el punto a colorear no solo depende de la muestra sino de todo el espacio. El disertante supera esto eligiendo dos muestras en lugar de una, que se generan de forma independiente a partir de la misma distribución, para rastrear E_out y E_in sin depender de la hipótesis completa.

  • 00:55:00 En esta sección, el orador discute el concepto de seguimiento entre E_in y E_in dash, que son dos muestras diferentes, y si se rastrean entre sí o no. Si se utilizan varios contenedores, el lazo entre E_out y E_in se vuelve cada vez más flojo. También se separan ligeramente a medida que aumenta el número de contenedores. Las ramificaciones matemáticas de múltiples hipótesis ocurren aquí de la misma manera que para un contenedor. A medida que el hablante analiza los aspectos técnicos de la prueba, el épsilon se convierte en épsilon sobre 2 y luego se convierte en épsilon sobre 4. Cuando se conectan, obtienen épsilon al cuadrado sobre 16, lo que da como resultado un factor de 1/8. El resultado obtenido se denomina desigualdad de Vapnik-Chervonenkis, que es polinomial en N y tiene el orden del polinomio decidido por el punto de quiebre.

  • 01:00:00 En esta sección de la video conferencia, el moderador le pide al profesor que aclare algunos puntos hechos en diapositivas anteriores. El profesor explica que los N puntos elegidos en la diapositiva 5 corresponden a un conjunto particular de puntos en un espacio de entrada en el aprendizaje automático, pero en la abstracción, estos son simplemente etiquetas abstractas. El profesor también aclara que su uso de alfa y beta en la conferencia es simplemente una convención de nomenclatura, y no hay ninguna afirmación sobre los valores relativos de los dos. Finalmente, el profesor explica que el punto de quiebre se calcula visitando el espacio de entrada y el conjunto de hipótesis y averiguando, para un conjunto de hipótesis dado, cuál es el número máximo de puntos que no se pueden separar de todas las formas posibles.

  • 01:05:00 En esta sección, el profesor explica que para la mayoría de los modelos de aprendizaje, ya se han establecido puntos de quiebre exactos o acotados, lo que significa que los recursos necesarios para aprender se pueden estimar antes de iniciar el proceso de aprendizaje. Aunque puede haber casos en los que los límites no sean estrictos, en la mayoría de los casos, la discrepancia entre la estimación exacta de la función de crecimiento y el límite cuadrático será insignificante. La lección enfatiza que el enfoque del aprendizaje no está en el valor real de E_in, sino en su aproximación a E_out, lo que permite al alumno trabajar con cantidades familiares. Finalmente, el profesor asegura a la audiencia que la dimensión VC, que es un componente básico para comprender las teorías del aprendizaje, se tratará en detalle en la próxima lección.

  • 01:10:00 En esta sección, el profesor explica el razonamiento detrás de reemplazar M con la función de crecimiento y las modificaciones necesarias para cumplir con los requisitos técnicos de la declaración. El profesor también aclara la definición de B de N y k, detallando cómo es un límite superior para cualquier hipótesis planteada con un punto de quiebre, y cómo es una cantidad puramente combinatoria. Luego, el profesor aborda una pregunta sobre la prueba de B de N y k, afirmando que k no cambia al reducir x_N a x_N-1 ya que ninguna columna k del conjunto más pequeño puede tener todos los patrones posibles. Finalmente, el profesor señala que el análisis y el análisis VC son aplicables a funciones binarias, aunque pueden extenderse a funciones de valor real.

  • 01:15:00 En esta sección, el profesor analiza cómo, en lugar de entrar en extensiones técnicas sobre la capacidad de aprendizaje, preferiría utilizar un enfoque diferente, el equilibrio entre sesgo y varianza, al analizar las funciones de regresión. También aclara que la capacidad de aprendizaje se prueba en condiciones sobre el conjunto de hipótesis y que es independiente de la función objetivo. Continúa explicando que la cuestión de la generalización no depende de la función objetivo, pero la cuestión de si E_in se puede minimizar para hacer feliz al usuario depende de la función objetivo. Finalmente, el profesor afirma que los mismos principios se aplican independientemente del tipo de función.
 

Conferencia 07 - La Dimensión VC




Curso de aprendizaje automático de Caltech - CS 156. Clase 07 - La dimensión VC

La lección introduce el concepto de dimensión VC, que es el número máximo de puntos que puede romper un conjunto de hipótesis, y explica sus aplicaciones prácticas. La dimensión VC representa los grados de libertad de un modelo, y se analiza su relación con el número de parámetros en un modelo. Se dan ejemplos para demostrar cómo calcular la dimensión VC para diferentes conjuntos de hipótesis. Se explora la relación entre el número de ejemplos necesarios y la dimensión VC, y se observa que existe una relación proporcional entre los dos. También se discuten las implicaciones de aumentar la dimensión VC en el rendimiento de un algoritmo de aprendizaje. En general, la conferencia proporciona información sobre la teoría de VC y sus implicaciones prácticas para el aprendizaje automático.

Además, el video cubre el concepto de generalización y el límite de generalización, que es una declaración positiva que muestra el equilibrio entre el tamaño del conjunto de hipótesis y una buena generalización en el aprendizaje automático. El profesor explica la dimensión VC, que es el valor más grande antes del primer punto de ruptura, y cómo se puede usar para aproximar la cantidad de ejemplos necesarios. Señala la importancia de elegir la medida de error correcta y aclara que la estimación de la dimensión de VC es una estimación imprecisa que se puede utilizar para comparar modelos y aproximar la cantidad de ejemplos necesarios. La conferencia termina destacando los puntos en común entre este material y el tema del diseño de experimentos y cómo los principios del aprendizaje se extienden a otras situaciones más allá de los escenarios de aprendizaje estricto.

  • 00:00:00 En esta sección, el disertante resume el principal resultado de la conferencia anterior en la teoría del aprendizaje, que es la desigualdad VC (Vapnik-Chervonenkis), que caracteriza la generalización en el aprendizaje automático. La función de crecimiento, que caracteriza la redundancia necesaria para pasar de la desigualdad de Hoeffding a la desigualdad de VC, se introdujo y se relacionó con los malos eventos con regiones superpuestas. Se resolvió el problema técnico con E_out y se utilizó la función de crecimiento para reemplazar el número de hipótesis M. La dimensión VC, que está relacionada con el punto de quiebre, se define y calcula exactamente para perceptrones en cualquier espacio dimensional. También se discute la interpretación de la dimensión VC y sus aplicaciones prácticas.

  • 00:05:00 En esta sección, se introduce el concepto de dimensión VC como el número máximo de puntos que puede romper un conjunto de hipótesis. La dimensión VC se denota como d_VC y es el valor más grande de N tal que la función de crecimiento es 2 elevado a N. Es importante tener en cuenta que la dimensión VC no garantiza que todos los N puntos puedan romperse, sino solo que existen N puntos que se pueden romper. La sección proporciona ejemplos, como los rayos positivos y los perceptrones 2D, para demostrar cómo calcular la dimensión VC para un conjunto de hipótesis determinado. La dimensión VC se usa para acotar la función de crecimiento de un conjunto de hipótesis y sirve como el orden del polinomio que acota la función de crecimiento.

  • 00:10:00 En esta sección, la atención se centra en la dimensión VC de los conjuntos convexos y su relación con el aprendizaje. La dimensión VC representa el número máximo de puntos que puede romper un conjunto de hipótesis. Si la dimensión de VC es finita, la hipótesis final se generalizará, independientemente de la distribución de entrada o el algoritmo de aprendizaje utilizado. El diagrama de aprendizaje, que incluye la función objetivo, el algoritmo de aprendizaje y la distribución de entrada, muestra que la teoría de VC es independiente del algoritmo de aprendizaje y la función objetivo, y solo depende del conjunto de hipótesis. En general, hay tres bloques en la teoría VC: la hipótesis, el conjunto de hipótesis y la dimensión VC.

  • 00:15:00 En esta sección, aprendemos sobre la dimensión VC de los perceptrones, que es el conjunto de hipótesis que trata toda la teoría VC, ya que es el conjunto que tiene la dimensión VC y nos dice si podemos generalizar. . Aunque la dimensión VC de los perceptrones en el espacio bidimensional es tres, una fórmula simple establece que en el espacio d-dimensional, la dimensión VC es d más uno. Esto es importante para comprender el significado de la dimensión VC, y lo probaremos mostrando que la dimensión VC es como máximo d más uno y al menos d más uno. Para demostrarlo, construiremos un conjunto específico de N puntos (siendo N d más uno) usando una matriz para romper, siempre que sea posible romperlos.

  • 00:20:00 En esta sección, el profesor muestra un conjunto específico de puntos d más 1 y demuestra que se pueden romper usando una matriz invertible. Luego plantea una pregunta a la audiencia sobre la dimensión de VC y les pide que elijan qué conclusión pueden sacar en función de los resultados de la demostración. La respuesta correcta es b, que establece que la dimensión VC es mayor o igual a d más 1.

  • 00:25:00 En esta sección, el profesor analiza cómo probar que la dimensión VC es como máximo d más 1. Le pregunta a la audiencia cuál de varias afirmaciones establecería la premisa y responden con "d". El profesor luego explica que necesita demostrar que hay un conjunto de d más 2 puntos que no puede romper. Lo hace mostrando que para un conjunto de d más 2 puntos, siempre habrá un punto que es una combinación lineal de los demás. Por lo tanto, construye una dicotomía que demuestra que no se puede implementar con un perceptrón.

  • 00:30:00 En esta sección del video, el orador explica el concepto de dicotomía en un perceptrón, que esencialmente asigna etiquetas de +1 o -1 a puntos específicos. Mediante el uso de propiedades algebraicas, se demuestra que es imposible fragmentar cualquier conjunto de d más 2 puntos, siendo la dimensión VC d más 1. Esto se debe a la cantidad de parámetros en el modelo de perceptrón, que es d más 1 , y la dimensión VC da el número máximo de puntos que se pueden romper.

  • 00:35:00 En esta sección, la conferencia introduce el concepto de dimensión VC y su interpretación. La dimensión VC es una medida de los grados de libertad de un modelo y cómo se relaciona con la cantidad de parámetros que tiene. La conferencia compara estos grados de libertad con las perillas de un sistema de audio, donde más perillas pueden brindarle más control sobre el sonido, pero puede ser un desafío usarlo de manera efectiva. La conferencia explica que la dimensión VC abstrae los detalles de las matemáticas dentro de un modelo y se enfoca en su poder expresivo. La conferencia también discute la correspondencia entre la dimensión VC y los grados de libertad de varios modelos, como rayos positivos, mostrando que la dimensión VC es igual a uno cuando hay un grado de libertad, que corresponde a un modelo con un parámetro.

  • 00:40:00 En esta sección, el disertante analiza los grados de libertad y su relación con la dimensión VC en el contexto de modelos simples. Si bien la dimensión VC cuenta el número de hipótesis que puede lograr un modelo, no es necesariamente igual al número de parámetros. Al construir un ejemplo artificial, el disertante muestra que los parámetros no siempre contribuyen a los grados de libertad. En cambio, los grados de libertad efectivos se pueden medir de manera más confiable mediante la dimensión VC, y el disertante demuestra cómo un modelo con ocho parámetros puede tener la misma dimensión VC que un modelo con solo dos parámetros. Finalmente, el disertante señala que los profesionales pueden estar interesados en la cantidad de puntos de datos necesarios para un sistema y cómo esto puede relacionarse con la dimensión VC del conjunto de hipótesis.

  • 00:45:00 En esta sección, el orador discute la relación entre el número de ejemplos necesarios y el valor de la dimensión VC. La desigualdad de VC tiene dos pequeñas cantidades de rendimiento que quieren que sean lo más pequeñas posible. Uno de ellos es E_in no muy lejos de E_out, mientras que el otro es delta, que tiene un valor pequeño. Después de decidir sobre ciertos valores épsilon y delta, el orador explica cómo determinar la cantidad de ejemplos necesarios para lograrlos observando la función N elevado a la dimensión VC multiplicada por e elevado a -N trazada en un gráfico. La parte interesante de la curva es donde la probabilidad es menor que 1, y luego el orador explora las implicaciones de aumentar la dimensión VC de 4 a 5.

  • 00:50:00 En esta sección, el disertante analiza la relación entre el número de ejemplos en un conjunto de datos y la dimensión VC, que es una medida de la complejidad de un algoritmo de aprendizaje. Utiliza varios gráficos para ilustrar cómo cambia el rendimiento del algoritmo a medida que aumenta la dimensión de VC y enfatiza que la cantidad de ejemplos necesarios para lograr un cierto nivel de rendimiento es proporcional a la dimensión de VC. Sin embargo, también señala que, si bien se garantiza que los límites del desempeño seguirán una cierta monotonicidad, es posible que el desempeño real no siempre lo haga, lo que puede ser una fuente de frustración para los profesionales.

  • 00:55:00 En esta sección, el disertante analiza las observaciones y aplicaciones prácticas de la dimensión VC. La primera lección es que existe una relación proporcional entre la dimensión VC y el número de ejemplos necesarios para lograr un cierto nivel de desempeño. El disertante proporciona una regla general donde se necesita 10 veces la dimensión de VC para llegar a la zona de confort de la desigualdad de VC donde la declaración de probabilidad es significativa. La segunda observación práctica es que para una amplia gama de épsilon y delta razonables, la regla general también es válida. Luego, el disertante simplifica la fórmula de desigualdad de VC y la llama fórmula Capital Omega, afirmando que depende de la función de crecimiento y que a medida que la dimensión de VC aumenta, la fórmula Omega empeora.
  • 01:00:00 En esta sección, el orador discute el concepto de generalización y cómo tener más ejemplos puede afectar la función de crecimiento y el comportamiento polinomial. Introduce la idea del límite de generalización, que es una declaración positiva en lugar de caracterizar malos eventos. Con una probabilidad mayor o igual a 1 menos delta, E_in sigue a E_out, lo que significa que están dentro de Omega, lo que depende del número de ejemplos y de la dimensión VC del conjunto de hipótesis. El hablante simplifica la generalización acotada reorganizándola para mostrar que E_out está acotada por E_in más Omega. Explica cómo este límite ilustra la compensación entre el tamaño del conjunto de hipótesis y una buena generalización, lo que lleva al concepto de regularización en el aprendizaje automático.

  • 01:05:00 En esta sección, el profesor explica que la dimensión VC es el valor más grande justo antes del primer punto de quiebre, lo que significa que cualquier punto más grande que actúe como punto de quiebre también se contará. La noción de un punto de quiebre cubre muchos valores, pero la dimensión VC es la única que se destaca. También aclara que cuando se habla de romper puntos N, las personas pueden elegir los puntos para romper. El profesor explica que épsilon y delta son dos parámetros de rendimiento del aprendizaje, donde épsilon es el parámetro de aproximación que garantiza que E_in rastrea E_out, mientras que delta es la medida de probabilidad que determina la probabilidad de que falle la declaración de probabilidad. Cuando se le pregunta sobre el efecto de la medida de error en la cantidad de puntos a elegir, el profesor explica que cuando se trata de la medida de error en un sentido binario, no hay necesidad de preocuparse por la varianza porque hay un límite superior, pero cuando se usan otras co-dominios o medidas de error, las modificaciones son necesarias.

  • 01:10:00 En esta sección, el profesor explica que es raro obtener exactamente la dimensión VC, pero conocen la dimensión exacta de los perceptrones. Cuando se trata de redes neuronales, la estimación de la dimensión de VC no puede estar por encima de un cierto número debido a redundancias y cancelaciones. El profesor enfatiza que el límite de la dimensión VC es una estimación vaga, pero aún mantiene su significado conceptual y puede usarse como guía para comparar modelos y aproximar la cantidad de ejemplos necesarios. La regla general es usar al menos 10 veces la dimensión de VC para entrar en la región interesante de la desigualdad de VC, que depende del nivel de precisión deseado por el cliente. El profesor señala que existen puntos en común entre este material y el tema del diseño de experimentos, y los principios de aprendizaje se extienden a otras situaciones más allá de los escenarios de aprendizaje estricto.
Lecture 07 - The VC Dimension
Lecture 07 - The VC Dimension
  • 2012.04.26
  • www.youtube.com
The VC Dimension - A measure of what it takes a model to learn. Relationship to the number of parameters and degrees of freedom. Lecture 7 of 18 of Caltech's...
 

Clase 8 - Equilibrio entre sesgo y varianza



Curso de aprendizaje automático de Caltech - CS 156. Clase 08 - Equilibrio entre sesgo y varianza

El profesor analiza el equilibrio entre sesgo y varianza en el aprendizaje automático y explica cómo la complejidad del conjunto de hipótesis afecta el equilibrio entre la generalización y la aproximación. El disertante presenta el concepto de sesgo y varianza, que miden la desviación entre el promedio de hipótesis que produce un algoritmo de aprendizaje automático y la función objetivo real y cuánto varía la distribución de hipótesis de un modelo dado en función de diferentes conjuntos de datos, respectivamente. La compensación da como resultado un conjunto de hipótesis más grande que tiene un sesgo más pequeño pero una varianza más grande, mientras que un conjunto de hipótesis más pequeño tendrá un sesgo más grande pero una varianza más pequeña. El disertante enfatiza la importancia de tener suficientes recursos de datos para navegar de manera efectiva el conjunto de hipótesis y destaca la diferencia de escala entre el análisis de varianza de sesgo y el análisis de VC.

También analiza la compensación entre modelos simples y complejos en términos de su capacidad de aproximación y generalización, con menos ejemplos que requieren modelos simples y mayores recursos de ejemplos que requieren modelos más complejos. El análisis de sesgo-varianza es específico de la regresión lineal y asume el conocimiento de la función objetivo, siendo la validación el estándar de oro para elegir un modelo. El aprendizaje de conjunto se analiza a través de Bagging, que utiliza el arranque para promediar múltiples conjuntos de datos, lo que reduce la varianza. También se explica el equilibrio entre la varianza y la covarianza en el aprendizaje conjunto, y la regresión lineal se clasifica como una técnica de aprendizaje con el ajuste como la primera parte del aprendizaje, mientras que la teoría enfatiza el buen desempeño fuera de la muestra.

  • 00:00:00 En esta sección, el enfoque cambia a la compensación sesgo-varianza, que es otro enfoque para comprender la generalización. En las conferencias anteriores, el análisis VC estableció la capacidad de generalización de una hipótesis elegida, a través de la dimensión VC de un conjunto de hipótesis. El límite de VC se mantiene para cualquier algoritmo de aprendizaje, para cualquier dato de entrada y para cualquier función de destino. Un aspecto del análisis de VC es que proporciona una medida práctica. Al graficar la probabilidad de error frente a la cantidad de ejemplos, descubrimos que la cantidad de ejemplos necesarios es proporcional a la dimensión de VC, o regla general, necesita 10 veces la dimensión de VC para comenzar a obtener propiedades de generalización interesantes. Finalmente, resumimos el análisis de VC en un límite de generalización, que usaremos en técnicas posteriores como la regularización.

  • 00:05:00 En esta sección, el disertante analiza el equilibrio entre la aproximación y la generalización cuando se trata de aprender. El aprendizaje tiene como objetivo lograr un E_out pequeño, lo que significa que la hipótesis se aproxima bien a la función objetivo y que esta aproximación se mantiene fuera de la muestra. Sin embargo, tener un conjunto de hipótesis más complejo aumenta la posibilidad de aproximar f bien, pero presenta un problema para identificar la hipótesis adecuada. Un conjunto de hipótesis ideal para el aprendizaje es una hipótesis singleton que resulta ser la función objetivo. Aún así, dado que no conocemos la función objetivo, necesitamos un conjunto de hipótesis lo suficientemente grande como para tener una posibilidad. Además, el disertante analiza cómo el análisis de varianza de sesgo también descompone E_out, mientras que el análisis de VC enfatiza la cuantificación de la compensación.

  • 00:10:00 En esta sección, el orador presenta la compensación de la varianza del sesgo y cómo se relaciona con las funciones de valor real y la regresión usando el error cuadrático. El objetivo es descomponer el error fuera de muestra en dos componentes conceptuales: aproximación y generalización. Para hacer esto, el hablante usa el valor esperado del error con respecto a un conjunto de datos en particular, ya que la hipótesis final depende del conjunto de datos utilizado, pero tiene como objetivo eliminar la dependencia integrando el conjunto de datos. El resultado es una forma de analizar el comportamiento general del error cuando se le da un número específico de puntos de datos para trabajar.

  • 00:15:00 En esta sección, el disertante explica cómo calcular los valores esperados de un comportamiento con respecto a todas las realizaciones posibles de 100 ejemplos. Al invertir el orden de integración y deshacerse de una expectativa, el disertante llega a una descomposición limpia. El siguiente paso consiste en derivar una hipótesis promedio obteniendo el valor esperado de todas las hipótesis posibles. Aunque esta es ciertamente una tarea imposible, proporciona una herramienta conceptual para el análisis. Comprender la utilidad técnica de g bar se vuelve importante cuando se expande la expresión superior para obtener un término lineal que finalmente requiere que se defina g bar.

  • 00:20:00 En esta sección, el disertante descompone una cantidad en dos pasos que determinan hasta qué punto la hipótesis que un algoritmo de aprendizaje automático deriva de un conjunto de datos dado diverge de la función objetivo. El primer paso evalúa cuánto se desvía esta hipótesis de la mejor hipótesis que el algoritmo puede producir dado el conjunto de datos dado, mientras que el segundo paso evalúa cuánto se desvía esta mejor hipótesis de la función objetivo real. El disertante llega a dos cantidades, el sesgo y la varianza, para denotar estos dos pasos. El sesgo mide la desviación entre el promedio de hipótesis que produce un algoritmo de aprendizaje automático y la función de destino real, que establece finito para el conjunto de hipótesis del algoritmo. Mientras tanto, la varianza mide cuánto varía la distribución de hipótesis de un modelo dado en función de diferentes conjuntos de datos.

  • 00:25:00 En esta sección, el profesor analiza el equilibrio entre sesgo y varianza en el aprendizaje automático. Explica que el sesgo es la limitación del conjunto de hipótesis y la varianza es la diferencia en el resultado cuando se utilizan diferentes conjuntos de datos. Luego muestra cómo existe una compensación entre la generalización y la aproximación cuando se cambia el tamaño del conjunto de hipótesis, e ilustra esta idea con una comparación de un conjunto de hipótesis pequeño y uno grande. Argumenta que un conjunto de hipótesis más grande tendrá un sesgo más pequeño pero una varianza más grande, mientras que un conjunto de hipótesis más pequeño tendrá un sesgo más grande pero una varianza más pequeña.

  • 00:30:00 En esta sección, el orador presenta el concepto de compensación de sesgo-varianza, donde el sesgo disminuye y la varianza aumenta a medida que el conjunto de hipótesis se vuelve más grande. Para entender esto, el ponente establece un ejemplo concreto donde la función objetivo es una sinusoide, y se dan dos conjuntos de hipótesis diferentes: un modelo constante y un modelo lineal. Luego, el hablante muestra que el modelo lineal da una mejor aproximación de la sinusoide, pero con algunos errores. Esta no es una situación de aprendizaje, pero ilustra la compensación entre el sesgo y la varianza en la aproximación de la función objetivo, allanando el camino para problemas de aprendizaje más complejos.

  • 00:35:00 En esta sección, el disertante explica el equilibrio entre sesgo y varianza en el aprendizaje automático. Utiliza el ejemplo de ajustar una línea a dos puntos, primero para aproximar una función objetivo y, en segundo lugar, para aprender de los ejemplos. El análisis de sesgo y varianza es necesario para evaluar el rendimiento de un modelo, independientemente de los dos puntos que se utilicen, y para superar los desafíos de hacer frente a la dependencia del conjunto de datos. Luego, el disertante genera conjuntos de datos de dos puntos de tamaño, les ajusta una línea y muestra que el error esperado fuera de la muestra es principalmente la suma del sesgo y la varianza. La línea verde muy clara, g barra de x, es la hipótesis promedio que obtiene al repetir este juego. Aún así, no es el resultado del proceso de aprendizaje porque diferentes conjuntos de datos darán diferentes estimaciones.

  • 00:40:00 En esta sección del video, se analiza el concepto de compensación de sesgo-varianza en el contexto del aprendizaje automático. La varianza se calcula como la desviación estándar del resultado del proceso de aprendizaje, mientras que el sesgo es el error entre el resultado previsto y la función objetivo. La compensación entre el sesgo y la varianza se demuestra utilizando dos modelos, uno con un pequeño sesgo y una gran varianza y el otro con un gran sesgo y una pequeña varianza. Se entiende que en una situación de aprendizaje, la complejidad del modelo debe coincidir con los recursos de datos disponibles en lugar de la complejidad del objetivo.

  • 00:45:00 En esta sección, el disertante analiza el equilibrio entre sesgo y varianza en el aprendizaje e introduce el concepto de curvas de aprendizaje. Las curvas de aprendizaje trazan los valores esperados de E_out (error fuera de la muestra) y E_in (error dentro de la muestra) como una función de N, el tamaño del conjunto de datos. A medida que N aumenta, el error fuera de la muestra generalmente disminuye, pero esta tendencia puede verse influida por la complejidad del modelo que se utiliza. El orador enfatiza la importancia de tener suficientes recursos de datos para navegar de manera efectiva por el conjunto de hipótesis y señala que los datos ruidosos pueden dificultar aún más esta navegación. Las curvas de aprendizaje proporcionan una representación visual de la compensación sesgo-varianza y cómo cambia con el aumento de N.

  • 00:50:00 En esta sección, el disertante discute la relación entre el análisis de sesgo-varianza y el análisis de VC usando curvas de aprendizaje. Explica que ambas teorías discuten la aproximación y toman en consideración lo que sucede en términos de generalización. El disertante destaca la diferencia de escala entre las dos teorías y menciona que el sesgo depende de la hipótesis planteada. Finalmente, el disertante cubre brevemente el análisis para el caso de regresión lineal y lo recomienda como un buen ejercicio para comprender mejor la regresión lineal.

  • 00:55:00 En esta sección, el instructor describe el patrón de error dentro de la muestra y el patrón de error fuera de la muestra, particularmente usando las curvas de aprendizaje. El instructor usa regresión lineal y ruido para ilustrar una fórmula simple para el error esperado en la muestra: es casi perfecto y lo está haciendo mejor que perfecto por la proporción de d más 1. El instructor enfatiza una curva muy específica, que muestra que cuantos más puntos de datos tenga, menos ruido afectará la tasa de error. Sin embargo, cuando sobreajusta los datos de muestra, termina ajustando el ruido, y esto lo dañará en lugar de ayudarlo a largo plazo.

  • 01:00:00 En esta sección, el profesor habla sobre la compensación entre modelos simples y complejos y su capacidad de aproximación y generalización. Mientras que los modelos complejos pueden aproximarse mejor a la función objetivo y los ejemplos de entrenamiento, los modelos simples son mejores en términos de capacidad de generalización. Esto se debe a que existe una compensación entre los dos, y la suma de ambas cantidades podría ir en cualquier dirección. La clave es hacer coincidir la complejidad del modelo con los recursos de datos disponibles. Menos ejemplos significan que se deben usar modelos simples, mientras que mayores recursos de ejemplos requieren modelos complejos para un mejor rendimiento. El error de generalización esperado se puede encontrar usando la fórmula, que es la dimensión VC dividida por el número de ejemplos.

  • 01:05:00 En esta sección, el profesor analiza cómo el análisis de varianza de sesgo es específico de la regresión lineal y cómo asume que conoce la función objetivo. Si bien es una guía útil y se puede usar para comprender cómo afectar tanto el sesgo como la varianza, no es algo que se pueda conectar para decirle cuál es el modelo. También menciona que el estándar de oro para elegir un modelo es a través de la validación, que incluye métodos de conjunto como el impulso. Luego, el profesor presenta brevemente la idea de g bar como una herramienta teórica para el análisis, pero señala que no es el enfoque de esta lección.

  • 01:10:00 En esta sección, el profesor habla sobre el aprendizaje conjunto a través de Bagging, que es el proceso de usar un conjunto de datos para generar una gran cantidad de conjuntos de datos diferentes a través del arranque y promediarlos. Esto da un dividendo sobre el aprendizaje del conjunto y puede ayudar a reducir la varianza al promediar muchas cosas. Luego, el moderador pregunta si la varianza del sesgo aún aparece a través del enfoque bayesiano. El profesor explica que aunque el enfoque bayesiano hace ciertas suposiciones, la varianza de sesgo aún existe. Finalmente, habla sobre la relación de la aproximación de funciones numéricas con la extrapolación en aprendizaje automático y el dilema sesgo-varianza covarianza.

  • 01:15:00 En esta sección de la conferencia, el profesor analiza el equilibrio entre la varianza y la covarianza en el contexto del aprendizaje conjunto. Explica que en el análisis de sesgo y varianza, tuvo el lujo de elegir conjuntos de datos generados de forma independiente, generar modelos independientes y luego promediarlos. Sin embargo, en la práctica real, cuando se construyen modelos basados en variaciones del conjunto de datos, la covarianza entre los modelos comienza a desempeñar un papel. Más tarde, cuando se le pregunta si la regresión lineal es una técnica de aprendizaje o simplemente una aproximación de funciones, el profesor afirma que la regresión lineal es una técnica de aprendizaje y el ajuste es la primera parte del aprendizaje. El elemento agregado es garantizar que el modelo funcione bien fuera de la muestra, que es de lo que se trata la teoría.
Lecture 08 - Bias-Variance Tradeoff
Lecture 08 - Bias-Variance Tradeoff
  • 2012.04.28
  • www.youtube.com
Bias-Variance Tradeoff - Breaking down the learning performance into competing quantities. The learning curves. Lecture 8 of 18 of Caltech's Machine Learning...
 

Clase 9 - El Modelo Lineal II



Curso de aprendizaje automático de Caltech - CS 156. Clase 09 - El modelo lineal II

Esta lección cubre varios aspectos del modelo lineal, incluida la descomposición de varianza de sesgo, curvas de aprendizaje y técnicas para modelos lineales como perceptrones, regresión lineal y regresión logística. El orador enfatiza la compensación entre la complejidad y el rendimiento de la generalización, advierte contra el sobreajuste y enfatiza la importancia de cargar adecuadamente la dimensión VC del espacio de hipótesis para garantías válidas. También se analiza el uso de transformadas no lineales y su impacto en el comportamiento de generalización. La lección cubre además la función logística y sus aplicaciones en la estimación de probabilidades, e introduce los conceptos de probabilidad y medidas de error de entropía cruzada en el contexto de la regresión logística. Finalmente, se explican métodos iterativos para optimizar la función de error, como el descenso de gradiente.

Además, la conferencia cubre una variedad de temas relacionados con modelos lineales y algoritmos de optimización en el aprendizaje automático. El profesor explica el compromiso entre la tasa de aprendizaje y la velocidad en la optimización del descenso de gradiente, presenta el algoritmo de regresión logística y analiza sus medidas de error y el algoritmo de aprendizaje. También se abordan los desafíos de la terminación en descenso de gradiente y la clasificación multiclase. El papel de la derivación y la selección de funciones en el aprendizaje automático se enfatiza y analiza como un arte en los dominios de aplicación, cargados en términos de dimensión de VC. En general, esta lección proporciona una descripción general completa de los modelos lineales y los algoritmos de optimización para el aprendizaje automático.

  • 00:00:00 En esta sección, Yaser Abu-Mostafa analiza la descomposición de la varianza del sesgo en el error fuera de la muestra e ilustra cómo se compensa con el conjunto de hipótesis. También explica las curvas de aprendizaje, que describen el error de generalización y cómo el número de ejemplos, proporcional a la dimensión VC, determinará las propiedades de generalización. También se discuten técnicas para modelos lineales.

  • 00:05:00 En esta sección de la conferencia, el orador resume brevemente el modelo lineal en términos de clasificación lineal y regresión lineal, que se han tratado en conferencias anteriores, y luego pasa al tercer tipo de modelo lineal: la regresión logística. Antes de comenzar con la regresión logística, el orador ata los cabos sueltos en términos de transformaciones no lineales y problemas de generalización. Las transformaciones no lineales ofrecen una plataforma para aplicar algoritmos de aprendizaje en el espacio Z (espacio de características), con la hipótesis final aún residiendo en el espacio X (espacio de entrada). En el caso de las transformaciones no lineales, el disertante enfatiza que los problemas de generalización quedaron fuera y que proporcionará la pieza faltante en la conferencia.

  • 00:10:00 En esta sección, el disertante discute el precio que uno paga por hacer transformaciones no lineales cuando se trata del comportamiento de generalización en el espacio X. Al usar el modelo lineal en el espacio X, puede obtener un vector de peso de d+1 parámetros libres. Sin embargo, la dimensión VC en el espacio de características puede ser potencialmente mucho mayor que la del espacio X. Si la dimensión de VC es demasiado grande, aunque es posible ajustar el polinomio de orden 17, no hay una posibilidad real de generalización. Se discuten dos casos donde el primer caso es separable casi linealmente y el segundo caso es genuinamente no lineal. Para que E_in sea cero, hay que ir a un espacio de alta dimensión, lo que se convierte en un problema ya que solo hay dos puntos para clasificar.

  • 00:15:00 En esta sección de la lección, el instructor analiza el equilibrio entre aproximación y generalización cuando se trata de modelos lineales. Habla sobre cómo el uso de un modelo más complejo, como una superficie de cuarto orden, puede aproximar mejor los datos pero puede no generalizarse bien. También menciona la idea de usar una transformación a un espacio no lineal, pero advierte contra la búsqueda de un descuento en la cantidad de parámetros. El instructor explica que cargar la dimensión VC de todo el espacio de hipótesis explorado en la mente es importante para que la garantía proporcionada por la desigualdad VC sea válida.

  • 00:20:00 En esta sección, la discusión se centra en los peligros de husmear en los datos al elegir un modelo antes de mirar los datos. Se enfatiza que esta práctica puede conducir a un conjunto de hipótesis contaminadas, lo que significa que los datos ya no son confiables para reflejar el desempeño del mundo real. Se introduce el concepto de regresión logística, junto con su modelo único, medida de error y algoritmo de aprendizaje. Este modelo lineal se considera un complemento significativo de los modelos de regresión lineal y perceptrón discutidos anteriormente, y proporciona un ejemplo útil de las complejidades y variaciones que existen dentro del aprendizaje automático.

  • 00:25:00 En esta sección, el disertante analiza el modelo lineal y las diferentes formas en que se puede utilizar, como perceptrones, regresión lineal y regresión logística. Para la clasificación lineal, la hipótesis es una decisión de +1 o -1, que es un umbral directo de la señal. En el caso de la regresión lineal, la salida es la misma que la entrada, mientras que la regresión logística aplica una no linealidad llamada función logística a la señal, que se interpreta como una probabilidad de que algo suceda. El disertante explica la forma de la función logística y sus aplicaciones en la estimación de probabilidades para varios problemas, como las aplicaciones de tarjetas de crédito.

  • 00:30:00 En esta sección, se introduce el concepto de umbral blando o sigmoide en el contexto de la función logística. Esta función toma una señal lineal como entrada y genera una probabilidad. Es particularmente útil para predecir resultados como el riesgo de un ataque cardíaco, donde múltiples factores contribuyen a la probabilidad de que ocurra un evento. El resultado de la regresión logística se trata como una probabilidad genuina durante el proceso de aprendizaje, aunque los datos de entrada no proporcionen directamente esa información.

  • 00:35:00 En esta sección, discutimos el aprendizaje supervisado en datos médicos y cómo generar un modelo que se aproxime a una función objetivo oculta. Los ejemplos se dan como salida binaria, que se ve afectada por una probabilidad, lo que hace que este sea un caso ruidoso. El objetivo es del espacio euclidiano d-dimensional a 0,1 con una interpretación de probabilidad, f de x. La hipótesis g de x se encuentra encontrando los pesos y produciéndolos con x. El objetivo es elegir los pesos de tal manera que la hipótesis de regresión logística refleje la función objetivo utilizando una medida de error construida por probabilidad que sea plausible y amigable para el optimizador. La medida de error clasifica diferentes hipótesis según la probabilidad de que sean realmente el objetivo que generó los datos.

  • 00:40:00 En esta sección de la conferencia, el orador analiza el uso de la probabilidad y la controversia en torno a su aplicación. Explica que el uso de la probabilidad es encontrar la hipótesis más plausible dados los datos. Sin embargo, no es un proceso completamente limpio ya que la probabilidad no es la probabilidad que se requiere. Luego, el orador presenta una fórmula para la probabilidad y explica cómo se puede usar para derivar una medida de error completa. Luego, la fórmula se usa para encontrar la probabilidad de un conjunto de datos completo, que es un producto de las probabilidades de puntos de datos individuales. Concluye que siempre habrá un compromiso al elegir una hipótesis, ya que favorecer un ejemplo puede estropear los demás.

  • 00:45:00 En esta sección de la conferencia, el orador explica cómo maximizar la probabilidad de una hipótesis bajo un conjunto de datos puede llevar a minimizar la medida del error. Tomar el logaritmo natural permite que la maximización se convierta en una minimización, lo que da como resultado una medida de error en el conjunto de entrenamiento. Después de simplificar la fórmula, el hablante llama a la medida de error error en muestra de regresión logística, y la define como la medida de error entre la hipótesis que depende de w, aplicada a x_n, y el valor dado como etiqueta para ese ejemplo , que es y_n. El orador también analiza la interesante interpretación de la puntuación de riesgo, que identifica a las personas en riesgo de ataques cardíacos en función del signo de w transpuesto x_n.

  • 00:50:00 En esta sección, se presenta la medida del error de entropía cruzada como una forma de medir la precisión de las predicciones binarias. El objetivo es minimizar esta medida de error para mejorar las predicciones del modelo. Sin embargo, a diferencia de la regresión lineal, no existe una solución de forma cerrada para minimizar la medida de error de la regresión logística. En cambio, se necesita una solución iterativa, que se logrará a través del método de descenso de gradiente. Este método implica dar un paso a lo largo de la pendiente más pronunciada de la superficie y repetir hasta alcanzar el mínimo. La convexidad de la medida de error para la regresión logística hace que el gradiente descendente sea una buena opción para la optimización.

  • 00:55:00 En esta sección de la conferencia, el profesor analiza los métodos iterativos utilizados para encontrar el valor mínimo de la función de error en el modelo lineal. Explica que estos métodos implican moverse a lo largo de la superficie en pequeños pasos y hacer aproximaciones locales usando cálculo, específicamente series de Taylor. Luego introduce el concepto de descenso de gradiente, donde el siguiente peso está determinado por el peso actual más el movimiento en una dirección específica, que se determina resolviendo el vector unitario en la dirección del descenso más pronunciado. El profesor continúa explicando cómo se elige como dirección de movimiento la dirección que logra el valor más negativo para el producto interno entre un vector y un vector unitario.

  • 01:00:00 En esta sección, el disertante analiza el compromiso entre el tamaño del paso, o la tasa de aprendizaje, en la optimización del descenso de gradiente. Tomar pasos muy pequeños eventualmente llegará al mínimo, pero tomaría una eternidad, mientras que tomar pasos más grandes sería más rápido pero es posible que no aplique la aproximación lineal. Después de analizar los gráficos, el mejor compromiso es tener inicialmente una gran tasa de aprendizaje para aprovechar las pendientes pronunciadas y volverse más cuidadoso cuando se acerque al mínimo para evitar sobrepasarse. Luego, el disertante presenta la fórmula para una tasa de aprendizaje fija, donde la tasa de aprendizaje es proporcional al tamaño del gradiente. Luego se introduce el algoritmo de regresión logística, donde el gradiente se calcula usando la fórmula de error en la muestra, y el siguiente peso se obtiene restando la tasa de aprendizaje por el gradiente del peso actual. Finalmente, los tres modelos lineales, perceptrón, regresión lineal y regresión logística, se resumen en una diapositiva y se aplican al dominio del crédito.

  • 01:05:00 En esta sección, el profesor analiza los diferentes tipos de modelos lineales que se pueden implementar en el análisis de crédito y las medidas de error correspondientes y los algoritmos de aprendizaje utilizados. Por ejemplo, el perceptrón se usa para la clasificación binaria y la regresión logística se usa para calcular la probabilidad de incumplimiento. Se utilizaron diferentes medidas de error para cada modelo, como el error de clasificación binaria para el perceptrón y el error de entropía cruzada para la regresión logística. El algoritmo de aprendizaje utilizado dependía de la medida de error elegida, como el algoritmo de aprendizaje del perceptrón para el error de clasificación y el descenso del gradiente para el error de entropía cruzada. Por último, el profesor analiza brevemente los criterios de terminación y los problemas que surgen con la terminación en descenso de gradiente, ya que una terminación analizada correctamente es un poco complicada debido a muchas incógnitas en la superficie de error.

  • 01:10:00 En esta sección, el orador explica que el descenso de gradiente es un algoritmo de optimización efectivo pero no infalible. Si la superficie por la que el algoritmo de optimización intenta navegar tiene varios mínimos locales, es posible que el algoritmo solo encuentre un mínimo local en lugar de un mínimo global que proporcione el mejor resultado. El orador sugiere usar una combinación de criterios para terminar el algoritmo de optimización y señala que el gradiente conjugado es una alternativa válida al descenso de gradiente. El orador sugiere que si los mínimos locales se convierten en un problema real en una aplicación, existen muchos enfoques en el campo de la optimización para abordar este problema.

  • 01:15:00 En esta sección, el profesor explica el concepto de entropía cruzada, que es una forma de obtener una relación entre dos distribuciones de probabilidad usando valores logarítmicos y esperados. El profesor también analiza las limitaciones de la búsqueda binaria y los métodos de segundo orden en la optimización, y enfatiza que, si bien los métodos más sofisticados pueden generar mejores resultados, pueden ser demasiado costosos en términos de ciclos de CPU. Finalmente, en respuesta a una pregunta, el profesor confirma que la regresión logística se puede aplicar a un entorno de varias clases, como se demuestra en el ejemplo de reconocimiento de dígitos.

  • 01:20:00 En esta sección de la conferencia, el profesor analiza varios métodos para la clasificación multiclase, incluida la regresión ordinal y las decisiones binarias basadas en árboles. El profesor también introduce el uso de la función tanh, que se utilizará como función neuronal en las redes neuronales. También se analiza el concepto de tasa de aprendizaje, y el profesor menciona que existen heurísticas para tasas de aprendizaje adaptables que se pueden usar, y se presenta una regla general para elegir la tasa de aprendizaje. Además, se hace la distinción entre características significativas y características derivadas de observar el conjunto de datos específico, siendo menos probable que las primeras pierdan la garantía de VC.

  • 01:25:00 En esta sección, el profesor analiza el proceso de obtención de funciones en el aprendizaje automático y enfatiza que es un arte que depende del dominio de la aplicación. Si bien es posible derivar características en función de los datos, el conjunto de hipótesis final aún determinará el comportamiento de generalización. El profesor también señala que la selección de funciones se realiza automáticamente en el aprendizaje automático, pero se convierte en parte del aprendizaje y se cobra en términos de dimensión de VC. El tema de la selección de características se abordará con más detalle en la próxima lección sobre redes neuronales y capas ocultas.
Lecture 09 - The Linear Model II
Lecture 09 - The Linear Model II
  • 2012.05.02
  • www.youtube.com
The Linear Model II - More about linear models. Logistic regression, maximum likelihood, and gradient descent. Lecture 9 of 18 of Caltech's Machine Learning ...
 

Clase 10 - Redes Neuronales



Curso de aprendizaje automático de Caltech - CS 156. Clase 10 - Redes neuronales

Yaser Abu-Mostafa, profesor del Instituto de Tecnología de California, analiza la regresión logística y las redes neuronales en esta conferencia. La regresión logística es un modelo lineal que calcula una interpretación de probabilidad de una función de valor real acotada. No puede optimizar su medida de error directamente, por lo que se introduce el método de descenso de gradiente para minimizar una función no lineal arbitraria que es lo suficientemente suave y dos veces diferenciable. Aunque no existe una solución de forma cerrada, la medida del error es una función convexa, por lo que es relativamente fácil de optimizar mediante el descenso de gradiente.

El descenso de gradiente estocástico es una extensión del descenso de gradiente que se utiliza en redes neuronales. Las redes neuronales son un modelo que implementa una hipótesis motivada por un punto de vista biológico y relacionada con los perceptrones. El algoritmo de retropropagación es un algoritmo eficiente que va con las redes neuronales y hace que el modelo sea particularmente práctico. El modelo tiene un vínculo biológico que entusiasmó a la gente y fue fácil de implementar usando el algoritmo. Aunque no es el modelo de elección en la actualidad, las redes neuronales tuvieron éxito en aplicaciones prácticas y aún se utilizan como estándar en muchas industrias, como la banca y la aprobación de créditos.

Breve resumen:

  • La regresión logística es un modelo lineal que calcula una interpretación de probabilidad de una función de valor real acotada;
  • El método de descenso de gradiente se introduce para optimizar la regresión logística, pero no puede optimizar su medida de error directamente;
  • El descenso de gradiente estocástico es una extensión del descenso de gradiente que se utiliza en redes neuronales;
  • Las redes neuronales son un modelo que implementa una hipótesis motivada por un punto de vista biológico y relacionada con los perceptrones;
  • El algoritmo de retropropagación es un algoritmo eficiente que va con las redes neuronales y hace que el modelo sea particularmente práctico;
  • Aunque las redes neuronales no son el modelo de elección en la actualidad, todavía se utilizan como estándar en muchas industrias, como la banca y la aprobación de créditos.
Lecture 10 - Neural Networks
Lecture 10 - Neural Networks
  • 2012.05.06
  • www.youtube.com
Neural Networks - A biologically inspired model. The efficient backpropagation learning algorithm. Hidden layers. Lecture 10 of 18 of Caltech's Machine Learn...
 

Clase 11 - Sobreajuste



Curso de aprendizaje automático de Caltech - CS 156. Clase 11 - Sobreajuste

Esta lección presenta el concepto y la importancia del sobreajuste en el aprendizaje automático. El sobreajuste ocurre cuando un modelo se entrena con ruido en lugar de con la señal, lo que resulta en un ajuste fuera de muestra deficiente. La conferencia incluye varios experimentos para ilustrar los efectos de diferentes parámetros, como el nivel de ruido y la complejidad del objetivo, sobre el sobreajuste. El ponente destaca la importancia de detectar precozmente el sobreajuste y el uso de técnicas de regularización y validación para prevenirlo. También se analiza el impacto del ruido determinista y estocástico en el sobreajuste, y la lección concluye con la introducción de las siguientes dos lecciones sobre cómo evitar el sobreajuste mediante la regularización y la validación.

Se discute el concepto de sobreajuste y se enfatiza la importancia de la regularización para prevenirlo. El profesor destaca el equilibrio entre el ajuste excesivo y el ajuste insuficiente y explica el papel de la dimensión VC en el ajuste excesivo, donde la discrepancia en la dimensión VC dada la misma cantidad de ejemplos da como resultado discrepancias en el error dentro y fuera de la muestra. También se cubre el tema práctico de validar un modelo y cómo puede afectar el sobreajuste y la selección del modelo. Además, el profesor enfatiza el papel de las funciones lineales por partes en la prevención del sobreajuste y destaca la importancia de considerar el número de grados de libertad en el modelo y restringirlo mediante la regularización.

  • 00:00:00 En esta sección, el disertante presenta el tema del sobreajuste en el aprendizaje automático y su importancia, señalando que la capacidad de lidiar con el sobreajuste separa a los profesionales de los aficionados en el campo. El principal culpable del sobreajuste se identifica como el ruido, y el disertante introduce el concepto de regularización y validación como técnicas para lidiar con el sobreajuste. La sección sirve como introducción a un nuevo tema que se tratará en las próximas tres conferencias.

  • 00:05:00 En esta sección, el disertante explica el concepto de sobreajuste mostrando cómo puede ocurrir cuando se ajusta un polinomio de cuarto orden a una función objetivo de segundo orden con ruido agregado. Esto da como resultado un error de entrenamiento cero y un ajuste fuera de muestra deficiente, que es un ejemplo clásico de sobreajuste, donde el modelo fue más allá de lo necesario. Este punto se enfatiza aún más cuando se analiza el sobreajuste en las redes neuronales, ya que E_in disminuye durante el entrenamiento mientras que E_out permanece alto. El disertante también señala que el sobreajuste es un término comparativo, ya que tiene que haber otra situación que sea mejor, y el sobreajuste puede ocurrir dentro del mismo modelo.

  • 00:10:00 En esta sección, el profesor Abu-Mostafa analiza el sobreajuste, que ocurre cuando se reduce E_in, pero E_out aumenta debido al ajuste del ruido en lugar de la señal. Explica que la dimensión efectiva de VC crece con el tiempo, pero el error de generalización empeora cada vez más a medida que aumenta el número de parámetros. El sobreajuste puede ocurrir cuando se comparan dos modelos o instancias diferentes dentro del mismo modelo. Una forma de solucionar esto es detectar el sobreajuste mediante el uso del algoritmo de detención anticipada, basado en la validación, que actúa como regularización para evitar el sobreajuste. Para evitar ajustar el ruido cuando se produce un sobreajuste, es importante detectarlo desde el principio y detenerlo en lugar de seguir minimizando E_in.

  • 00:15:00 En esta sección, el disertante analiza cómo puede ocurrir un sobreajuste debido a la presencia de ruido en los datos. Se presenta un caso de estudio con dos modelos diferentes: uno con un objetivo ruidoso de orden bajo y otro con un objetivo silencioso de orden alto. Se utilizan un polinomio de segundo orden y un polinomio de décimo orden para ajustar los datos. Para el ajuste de segundo orden, el error dentro de la muestra es 0,05 y el error fuera de la muestra es ligeramente mayor. Por el contrario, el ajuste de décimo orden presenta un problema, ya que el error dentro de la muestra es menor que el del ajuste de segundo orden. Sin embargo, el error fuera de la muestra aumenta drásticamente, lo que indica un caso de sobreajuste en el que el ruido se ha ajustado al modelo.

  • 00:20:00 En esta sección, el disertante analiza el sobreajuste y cómo puede ocurrir incluso en situaciones sin ruido cuando el modelo se ajusta a otro tipo de ruido. Da un ejemplo de cómo ajustar un modelo de décimo orden a un objetivo ruidoso de décimo orden y cómo resultó en un sobreajuste. Luego, muestra que al hacer coincidir la complejidad del modelo con los recursos de datos en lugar de la complejidad del objetivo, puede resultar en un mejor rendimiento a pesar de tener un modelo más simple. El disertante enfatiza que los problemas de generalización dependen del tamaño y la calidad del conjunto de datos, y simplemente hacer coincidir la complejidad del modelo con la función objetivo no siempre es el mejor enfoque.

  • 00:25:00 En esta sección, se explora el concepto de sobreajuste en el aprendizaje automático. La lección utiliza curvas de aprendizaje para demostrar cómo el error dentro de la muestra para un modelo más complejo es menor, pero el error fuera de la muestra es mayor, lo que define el área gris donde se produce el sobreajuste. La conferencia también muestra un experimento con dos estudiantes, uno que elige un orden 10 y el otro que elige un orden 2 para adaptarse a un objetivo de orden 50 sin ruido. A pesar de la ausencia de ruido, ambos estudiantes aún experimentan sobreajuste, lo que lleva a la definición de ruido real y la necesidad de precaución en los problemas de aprendizaje automático del mundo real. La conferencia concluye que el sobreajuste ocurre en la mayoría de los casos, enfatizando la importancia de comprender y abordar este problema.

  • 00:30:00 En esta sección, el disertante analiza los parámetros que afectan el sobreajuste, incluido el nivel de ruido, la complejidad del objetivo y la cantidad de puntos de datos. Para crear funciones objetivo interesantes con alta complejidad, el disertante utiliza un conjunto estándar de polinomios de Legendre con coeficientes específicos que son ortogonales entre sí. Al normalizar la señal a una energía de 1, el disertante puede afirmar que sigma al cuadrado es la cantidad de ruido. Al generar instancias del experimento, el disertante utiliza diferentes combinaciones de ruido, complejidad del objetivo y número de puntos de datos para observar la persistencia del sobreajuste.

  • 00:35:00 En esta sección, el disertante analiza un método de medición de sobreajuste que compara los errores fuera de la muestra de dos modelos diferentes: un polinomio de segundo orden y un polinomio de décimo orden. La medida es la diferencia entre el error fuera de muestra del modelo complejo y el error fuera de muestra del modelo simple. Si el error fuera de la muestra del modelo complejo es mayor, lo que hace que la medida sea positiva, entonces hay sobreajuste. Luego, el disertante muestra cómo cambia la medida de sobreajuste con diferentes niveles de ruido y complejidad del objetivo. A medida que aumenta el nivel de ruido y aumenta la complejidad del objetivo, empeora el sobreajuste. El disertante también señala que el sobreajuste es un problema importante y debe abordarse.

  • 00:40:00 En esta sección, el concepto de ruido en overfitting se amplía más allá del ruido convencional y se divide en ruido estocástico y ruido determinista. Se observa que más datos generalmente conducen a menos sobreajuste, y un aumento en el ruido estocástico o determinista conduce a más sobreajuste. El ruido determinista se define como la parte de la función objetivo que un conjunto de hipótesis no puede capturar y se etiqueta como ruido porque un conjunto de hipótesis no puede manejarlo. El concepto de cómo algo que no se puede capturar es ruido se explora más a fondo utilizando un escenario hipotético que implica explicar números complejos a un hermano pequeño con una comprensión limitada de los números.

  • 00:45:00 En esta sección de la conferencia, se explica la diferencia entre ruido determinista y estocástico, y se analiza el impacto del ruido determinista en el sobreajuste. Se enfatiza que el ruido determinista depende del conjunto de hipótesis utilizado y, a medida que aumenta la complejidad del objetivo, también aumentan el ruido determinista y el sobreajuste. Sin embargo, esto no ocurre hasta que la complejidad del objetivo supera cierto nivel. Para N finito, los mismos problemas con el ruido estocástico se aplican al ruido determinista en el sentido de que puede capturar parte de él debido al tamaño de muestra limitado. También se menciona que usar un conjunto de hipótesis más complejo no siempre es mejor y puede conducir a un sobreajuste.

  • 00:50:00 En esta sección, el disertante discute el tema del sobreajuste cuando se le da una muestra finita. Explica que una vez dada una muestra finita, uno tiene la capacidad de ajustar el ruido, tanto estocástico como determinista, lo que puede conducir a un peor rendimiento. El disertante proporciona un análisis cuantitativo que agrega ruido al objetivo para comprender mejor el papel del ruido estocástico y determinista. Él suma y resta el centroide y épsilon en preparación para obtener términos cuadrados y términos cruzados, lo que conduce a un término de varianza, un término de sesgo y un término agregado. El término agregado es simplemente sigma al cuadrado, la varianza del ruido.

  • 00:55:00 En esta sección de la conferencia, el orador analiza la descomposición del valor esperado en sesgo y varianza, y cómo se relacionan con el ruido determinista y estocástico. Ambos representan la mejor aproximación a la función objetivo y el ruido que no se puede predecir, respectivamente. El aumento en el número de ejemplos disminuye la varianza, pero tanto el sesgo como la varianza son inevitables dada una hipótesis. Tanto el ruido determinista como el ruido estocástico tienen una versión finita en los puntos de datos que afectan la varianza al hacer que el ajuste sea más susceptible al sobreajuste. El orador da una pista de las próximas dos conferencias sobre cómo evitar el sobreajuste discutiendo dos enfoques, la regularización y la validación. La regularización es como poner los frenos para evitar el sobreajuste, mientras que la validación es verificar el resultado final para evitar el sobreajuste.
  • 01:00:00 En esta sección, el profesor analiza el concepto de frenar el sobreajuste mediante el uso de un ajuste restringido o regularización. Utiliza el ejemplo de ajustar puntos a un polinomio de cuarto orden, pero evitando que se ajuste por completo poniendo algo de fricción en él. La cantidad de freno que se aplica es mínima, pero da como resultado una reducción drástica del sobreajuste y, al mismo tiempo, logra un ajuste fantástico. El profesor señala que es importante comprender la regularización y cómo elegirla para evitar el sobreajuste. La sesión de preguntas y respuestas aborda la importancia de la aleatorización en el descenso de gradiente estocástico y cómo dibujar errores fuera de muestra en gráficos de redes neuronales.

  • 01:05:00 En esta sección, el profesor explica que el ruido determinista y estocástico en un escenario de aprendizaje es el mismo porque el ruido determinista es causado por la incapacidad de una hipótesis establecida para acercarse a la función objetivo. En los problemas de aprendizaje del mundo real, la complejidad de la función objetivo generalmente se desconoce y el ruido no se puede identificar. El objetivo de comprender conceptualmente el sobreajuste es evitar el sobreajuste sin las particularidades del ruido. Sobreentrenamiento es sinónimo de sobreajuste, relativo al mismo modelo. Otras fuentes de error, como los números de punto flotante, producen un efecto limitado sobre el sobreajuste, que nunca se menciona. En cuanto al modelo lineal de tercer orden (regresión logística), el profesor aclara que cuando se aplica a datos linealmente separables, se puede lograr un mínimo local y cero error en la muestra.

  • 01:10:00 En esta sección, el profesor analiza el problema del sobreajuste y la versión de muestra finita del mismo, que ocurre debido a la contribución del ruido de factores tanto estocásticos como deterministas en una muestra finita. Esto lleva al algoritmo a adaptarse a ese ruido, lo cual es perjudicial cuando se trata de ajustar modelos más grandes como H_10. Al analizar el uso de funciones lineales por partes para evitar el sobreajuste, el profesor destaca la importancia de considerar el número de grados de libertad en su modelo y tomar medidas para restringir su modelo en términos de ajuste a través de la regularización. Por último, el profesor cubre la cuestión práctica de validar un modelo y cómo puede afectar el sobreajuste y la selección del modelo.

  • 01:15:00 En esta sección, el profesor analiza el equilibrio entre el ajuste excesivo y el ajuste insuficiente y explica que para llegar a una mejor hipótesis, es posible que deba privarse de un recurso que podría haberse utilizado para el entrenamiento. El profesor también profundiza en la dimensión VC (Vapnik-Chervonenkis) y cómo se relaciona con el sobreajuste, afirmando que la discrepancia en la dimensión VC, dado el mismo número de ejemplos, es la razón de las discrepancias en la dimensión fuera de muestra y en -Error de muestra. El profesor también aclara que a pesar de que ilustraron la complejidad del objetivo en los diagramas de color, la complejidad del objetivo no se mide explícitamente y no hay una forma clara de mapearla en la energía del ruido determinista. Finalmente, el profesor analiza cómo la complejidad del objetivo podría traducirse en algo en la descomposición de la varianza del sesgo y tiene un impacto en el sobreajuste y la generalización.
Lecture 11 - Overfitting
Lecture 11 - Overfitting
  • 2012.05.10
  • www.youtube.com
Overfitting - Fitting the data too well; fitting the noise. Deterministic noise versus stochastic noise. Lecture 11 of 18 of Caltech's Machine Learning Cours...
 

Clase 12 - Regularización



Curso de aprendizaje automático de Caltech - CS 156. Clase 12 - Regularización

Esta lección sobre regularización comienza con una explicación del sobreajuste y su impacto negativo en la generalización de los modelos de aprendizaje automático. Se discuten dos enfoques de la regularización: matemático y heurístico. Luego, la conferencia profundiza en el impacto de la regularización en el sesgo y la varianza en los modelos lineales, utilizando el ejemplo de los polinomios de Legendre como componentes de expansión. También se cubre la relación entre C y lambda en la regularización, con una introducción al error aumentado y su papel en la justificación de la regularización para la generalización. También se analizan las técnicas de disminución/crecimiento de peso y la importancia de elegir el regularizador adecuado para evitar el sobreajuste. La conferencia termina con un enfoque en elegir un buen omega como un ejercicio heurístico y espera que lambda sirva como una gracia salvadora para la regularización.

La segunda parte analiza la disminución del peso como una forma de equilibrar la simplicidad de la red con su funcionalidad. El disertante advierte contra la regularización excesiva y el rendimiento no óptimo, enfatizando el uso de la validación para determinar los parámetros de regularización óptimos para diferentes niveles de ruido. La regularización se discute como experimental con una base en la teoría y la práctica. Se introducen tipos comunes de regularización como L1/L2, interrupción anticipada y deserción, además de cómo determinar el método de regularización apropiado para diferentes problemas. También se analizan los hiperparámetros comunes asociados con la implementación de la regularización.

  • 00:00:00 En esta sección, Yaser Abu-Mostafo profundiza en los detalles del sobreajuste, que ocurre cuando un modelo se ajusta demasiado bien a los datos, a costa de una mala generalización. Incluso si los datos no son ruidosos, puede ocurrir ruido determinista debido a las limitaciones del modelo, lo que lleva a un patrón que daña el error fuera de la muestra y provoca un sobreajuste. Sin embargo, Abu-Mostafo presenta la regularización como la primera cura para el sobreajuste, que es una técnica utilizada en casi todas las aplicaciones de aprendizaje automático y es importante comprenderla.

  • 00:05:00 En esta sección, el disertante analiza dos enfoques para la regularización en el aprendizaje automático. El primer enfoque es matemático, donde se imponen restricciones de suavidad para resolver problemas mal planteados, pero las suposiciones hechas en estos desarrollos no siempre son realistas para aplicaciones prácticas. El segundo enfoque es heurístico e implica obstaculizar la minimización del error en la muestra frenando el ajuste, lo que ayuda a combatir el sobreajuste. El disertante da un ejemplo usando una sinusoide y un ajuste de línea, mostrando que al regularizar y controlar el desplazamiento y la pendiente de las líneas, podemos obtener un mejor desempeño fuera de la muestra.

  • 00:10:00 En esta sección, el disertante analiza el impacto de la regularización en el sesgo y la varianza de un modelo lineal. Al usar la regularización, la varianza se reduce mientras que el sesgo aumenta ligeramente debido al ajuste imperfecto. El disertante usa el ejemplo de un modelo polinomial con polinomios de Legendre como componentes de expansión para demostrar el efecto de la regularización en el sesgo y la varianza. Con la regularización, el modelo lineal supera al modelo no regularizado e incluso al modelo constante. La conferencia profundiza en el desarrollo matemático de una de las técnicas de regularización más famosas en el aprendizaje automático con un enfoque en conclusiones y lecciones concretas que se pueden aprender para lidiar con situaciones del mundo real.

  • 00:15:00 En esta sección, el disertante presenta los polinomios de Legendre y explica cómo pueden usarse para construir un conjunto de hipótesis para la regresión de polinomios. Al usar estos polinomios, que son ortogonales y manejan diferentes coordenadas, el parámetro relevante es una combinación de pesos, en lugar de solo un peso individual. El conjunto de hipótesis se puede parametrizar y representar de forma lineal, lo que permite soluciones analíticas sencillas. La función objetivo es desconocida, y el objetivo es obtener una buena aproximación usando un conjunto de entrenamiento finito. El disertante también repasa las soluciones no restringidas y restringidas para minimizar el error dentro de la muestra mediante la regresión lineal.

  • 00:20:00 En esta sección, el disertante analiza el concepto de regularización, que es una restricción aplicada a los pesos de los conjuntos de hipótesis. La regularización implica establecer un presupuesto C para la magnitud total al cuadrado de los pesos, lo que significa que no puede tener todos los pesos demasiado grandes. El problema es minimizar el error dentro de la muestra mientras se está sujeto a esta restricción. La solución se obtiene mediante multiplicadores de Lagrange o KKT, lo que da una nueva solución llamada w_reg. El disertante explica que el objetivo es elegir un punto dentro de un círculo que minimice el error en la muestra, lo que requiere ir tan lejos como pueda sin violar la restricción.

  • 00:25:00 En esta sección, se discute el concepto de regularización, donde el objetivo es derivar un modelo que generalice bien a datos no vistos. La solución de la regresión lineal es el mínimo absoluto, que satisface la restricción. El enfoque principal está en derivar la condición analítica para lograr el mínimo de E_in, sujeto a la restricción, para encontrar un compromiso entre el objetivo y la restricción. El gradiente de la función objetivo debe ser ortogonal a la elipse y el vector w está en la dirección de la superficie roja. La condición analítica para w_reg es que el gradiente debe ser proporcional al negativo de la solución. Minimizando la ecuación de la solución, obtienes el mínimo de E_in, incondicionalmente.

  • 00:30:00 En esta sección, la conferencia analiza la relación entre los parámetros C y lambda en la regularización. Cuanto mayor sea el valor de C, menor será el valor de lambda ya que hay menos énfasis en el término de regularización. Por el contrario, a medida que C disminuye, el término de regularización se vuelve más significativo y el valor de lambda debe aumentar para hacer cumplir la condición. La lección también presenta el error aumentado, que es la suma de la función de error y el término de regularización. Es equivalente a un problema de optimización sin restricciones de minimizar la función de error mientras está sujeto a la restricción. Esta correspondencia justifica la regularización en términos de generalización y es aplicable a cualquier regularizador. Finalmente, la lección brinda la fórmula para minimizar el error aumentado y concluye brindando la solución.

  • 00:35:00 En esta sección, el ponente discute la solución al problema de la regularización. La solución está representada por w_reg, que es una modificación de la solución pseudo-inversa con un término de regularización adicional. Bajo suposiciones claras, tenemos un aprendizaje de un solo paso, incluida la regularización. En otras palabras, podemos tener una solución directa sin hacer una optimización restringida. El término de regularización en la solución se vuelve dominante a medida que aumenta lambda, lo que reduce w_reg a cero, creando una solución cada vez más pequeña. Luego, el orador aplica la regularización a un problema familiar, lo que demuestra que la elección de lambda es crítica y que será necesaria una elección heurística para el tipo de regularizador.

  • 00:40:00 En esta sección, se introduce el concepto de regularización y su método asociado conocido como disminución de peso. El decaimiento del peso es un regularizador famoso en el aprendizaje automático que implica minimizar w transpuesto w y asegurarse de que los pesos sean pequeños para que se dé el nombre de "decaimiento". Cuando se usan redes neuronales, la disminución de peso se puede implementar a través del descenso de gradiente por lotes, donde la adición de este término reduce los pesos antes de cualquier movimiento en el espacio de peso, lo que limita cuánto se puede aprender sobre la función cuando λ es grande. Las variaciones de la disminución del peso incluyen la asignación de factores de importancia a ciertos pesos y el uso de diferentes constantes para experimentar con el tipo de regularizador que se utiliza.

  • 00:45:00 En esta sección, el disertante analiza las técnicas de disminución y aumento de peso, que son restricciones utilizadas en el aprendizaje automático para limitar el rango de pesos utilizados por los modelos. La disminución del peso implica restringir los modelos para que utilicen pesos más pequeños, mientras que el crecimiento del peso restringe los pesos más grandes. El ponente explica que se debe elegir un valor lambda óptimo para ambas técnicas para lograr el mejor rendimiento fuera de muestra. Además, el disertante discute cómo elegir el regularizador correcto, enfatizando la importancia de evitar el sobreajuste mediante el uso de pautas que ayuden a guiar la elección de los regularizadores. En última instancia, el disertante recomienda usar reglas prácticas para ayudar a encontrar los regularizadores óptimos, como evitar el ruido estocástico de alta frecuencia.

  • 00:50:00 En esta sección de la lección, el instructor explica los diferentes tipos de ruido que pueden conducir al sobreajuste y por qué es importante elegir un regularizador que tienda a elegir hipótesis más suaves. Define la forma general de regularización y el error aumentado que se minimiza, que es similar a la ecuación utilizada en el análisis VC. También analiza la correspondencia entre la complejidad de una hipótesis individual y la complejidad del conjunto de objetos, y cómo E_aug es una mejor estimación de E_out que E_in.

  • 00:55:00 En esta sección de la lección sobre regularización, se discute la idea del error aumentado como un mejor indicador del error fuera de la muestra. La regularización tiene como objetivo reducir el sobreajuste, que consiste esencialmente en ajustar el ruido más que la señal. El principio rector para elegir un regularizador es moverse en la dirección de lo más suave, ya que el ruido no es suave y las soluciones más suaves tienden a dañar el ruido más que la señal adecuada. El concepto de simpler también se introduce en un caso en el que smoother no se aplica bien. Elegir un buen omega es un ejercicio heurístico, y las matemáticas involucradas son tan buenas como la suposición en la que se basan. La conferencia termina con la esperanza de que lambda sirva como gracia salvadora para elegir el regularizador.

  • 01:00:00 En esta sección de la conferencia, se explora el concepto de disminución de peso para las redes neuronales, donde los pesos pequeños dan como resultado la simplicidad de la función, y los pesos más grandes dan como resultado una dependencia lógica para permitir que se implemente cualquier funcionalidad. Otra forma de regularizador es la eliminación de peso, donde algunos de los pesos dentro de una red se ven obligados a ser cero, lo que da como resultado una dimensión de VC más pequeña, lo que permite una mejor generalización y una menor posibilidad de sobreajuste. Se introduce la eliminación de peso suave, mediante la cual se aplica una función continua a la red para enfatizar algunos de los pesos sobre otros. Finalmente, se habla de la parada anticipada como una forma de regularización, lo que recomienda detener el entrenamiento antes del final, ya que es una forma indirecta de proporcionar simplicidad a la función.

  • 01:05:00 En esta sección, el profesor explica que la regularización se realiza a través del optimizador y que no cambiamos la función objetivo. En su lugar, entregamos la función objetivo, que es el error en la muestra, al optimizador y le decimos que lo minimice. Luego, el profesor advierte contra simplemente colocar el regularizador en el optimizador, lo que puede conducir a una regularización excesiva y un rendimiento no óptimo si no se hace correctamente. Él enfatiza la importancia de capturar tanto como sea posible en la función objetivo y luego usar la validación para determinar el valor óptimo para el parámetro de regularización, lambda. Luego, el profesor muestra cómo cambia la elección de lambda con diferentes niveles de ruido y cómo el uso de la validación puede ayudar a determinar el mejor resultado posible dado el ruido. Finalmente, discute el uso de diferentes tipos de regularizadores con diferentes parámetros, dependiendo del rendimiento.

  • 01:10:00 En esta sección, el profesor analiza el uso de regularizadores en el aprendizaje automático, que es una actividad experimental en lugar de una actividad completamente basada en principios. El enfoque de aprendizaje automático se encuentra en algún lugar entre la teoría y la práctica, lo que significa que tiene una base sólida en ambos. El profesor utiliza polinomios de Legendre como funciones ortogonales porque aportan un nivel de generalidad interesante y la solución es sencilla. La regularización permite al usuario encontrar un punto ideal para el mejor rendimiento, que podría estar entre dos pasos discretos. El término de regularización agregado no depende explícitamente del conjunto de datos. Sin embargo, el parámetro óptimo, lambda, dependerá del conjunto de entrenamiento, que será determinado por validación.

  • 01:15:00 En esta sección, se introduce el concepto de regularización, que implica agregar un término de penalización a la función de pérdida para evitar el sobreajuste en los modelos de aprendizaje automático. Se discuten los dos tipos de regularización más comunes, L1 y L2, junto con sus respectivas ventajas y desventajas. Adicionalmente, se explica el uso de la detención temprana y la deserción como técnicas alternativas de regularización. La conferencia concluye con una descripción general de cómo determinar el método de regularización adecuado para un problema determinado, así como los hiperparámetros comunes que se deben tener en cuenta al implementar la regularización.
Lecture 12 - Regularization
Lecture 12 - Regularization
  • 2012.05.14
  • www.youtube.com
Regularization - Putting the brakes on fitting the noise. Hard and soft constraints. Augmented error and weight decay. Lecture 12 of 18 of Caltech's Machine ...
 

Clase 13 - Validación




Curso de aprendizaje automático de Caltech - CS 156. Clase 13 - Validación

En la lección 13, el enfoque está en la validación como una técnica importante en el aprendizaje automático para la selección de modelos. La conferencia aborda los detalles de la validación, incluido por qué se llama validación y por qué es importante para la selección de modelos. La validación cruzada también se analiza como un tipo de validación que permite el uso de todos los ejemplos disponibles para capacitación y validación. El profesor explica cómo estimar el error fuera de muestra utilizando la variable aleatoria que toma un punto fuera de muestra y calcula la diferencia entre la hipótesis y el valor objetivo. La conferencia también analiza el sesgo introducido al usar la estimación para elegir un modelo en particular, ya que ya no es confiable porque se seleccionó con base en el conjunto de validación. Se introduce el concepto de validación cruzada como un método para evaluar el error fuera de muestra para diferentes hipótesis.

También cubre el uso de validación cruzada para la selección y validación de modelos para evitar el sobreajuste, con un enfoque en "dejar uno fuera" y validación cruzada de 10 veces. El profesor demuestra la importancia de tener en cuenta las discrepancias fuera de la muestra y el espionaje de datos, y sugiere incluir métodos aleatorios para evitar el sesgo de muestreo. Explica que, aunque la validación cruzada puede agregar complejidad, combinarla con la regularización puede seleccionar el mejor modelo y, dado que la validación no requiere suposiciones, es única. El profesor explica además cómo la validación cruzada puede ayudar a tomar decisiones basadas en principios, incluso cuando se comparan diferentes escenarios y modelos, y cómo los puntos de validación totales determinan la barra de error y el sesgo.

  • 00:00:00 En esta sección, la atención se centra en la validación, otra técnica importante en el aprendizaje automático que se utiliza para la selección de modelos. El proceso implica elegir un tamaño de conjunto de validación y usarlo para validar el proceso de selección del modelo. La conferencia aborda los detalles de la validación, incluido por qué se llama validación y por qué es importante para la selección de modelos. La discusión también cubre la validación cruzada, que es un tipo de validación que permite el uso de todos los ejemplos disponibles para entrenamiento y validación. La conferencia contrasta la validación con la regularización, en cuanto al control.

  • 00:05:00 En esta sección, el disertante discute la validación y regularización en el contexto de la conocida ecuación que trata de la diferencia entre el error en la muestra y el error fuera de la muestra debido a la complejidad del modelo. La regularización estima la penalización por la complejidad del sobreajuste, mientras que la validación intenta estimar directamente el error fuera de la muestra. El profesor explica cómo estimar el error fuera de muestra utilizando la variable aleatoria que toma un punto fuera de muestra y calcula la diferencia entre la hipótesis y el valor objetivo. El disertante enfatiza cómo la varianza afecta la calidad de la estimación y propone usar un conjunto completo de puntos en lugar de uno.

  • 00:10:00 En esta sección, se introduce la noción de un conjunto de validación y el error de validación como una estimación imparcial del error fuera de la muestra. El valor esperado del error de validación es E_out, que es otra forma del valor esperado en un solo punto. La varianza del error de validación se analiza para mostrar que hay una mejora en la estimación basada en E_val en comparación con un solo punto. La varianza termina siendo proporcional a 1/K, lo que significa que aumentar K puede reducir la barra de error y mejorar la confiabilidad de la estimación. Sin embargo, el número de puntos de validación no es gratuito y tiene un impacto directo en el número de puntos disponibles para la formación.

  • 00:15:00 En esta sección, la atención se centra en el proceso de validación, en el que se toman K puntos de N puntos con fines de validación, mientras que el subconjunto restante D_train se utiliza para el entrenamiento. También es importante señalar la utilidad de contar con una estimación confiable de un conjunto de validación para asegurar que la hipótesis final sea confiable. Sin embargo, tener una estimación fiable de una mala cantidad no debería ser el objetivo. A medida que aumenta el valor de K, la estimación se vuelve más confiable, pero la calidad de la hipótesis disminuye. Por lo tanto, es vital encontrar una forma de no tener que pagar el precio que conlleva el aumento de K. Una forma es restaurar el conjunto de datos después de estimar el error y entrenar en el conjunto completo para obtener mejores resultados.

  • 00:20:00 En esta sección, la atención se centra en el compromiso del rendimiento cuando se utiliza un conjunto de validación durante el entrenamiento. El conjunto reducido de D_train tendrá menos ejemplos en comparación con el conjunto de entrenamiento completo D, mediante el cual obtenemos la hipótesis final g menos. Para obtener una estimación, evaluamos g menos en un conjunto de validación D_val, y luego agregamos el resto de los ejemplos nuevamente al bote e informamos g. Sin embargo, una K grande significa que la diferencia entre g menos y g es mayor, y esto afecta la confiabilidad de la estimación que informamos. Por lo tanto, existe una regla general para usar un quinto para la validación para obtener lo mejor de ambos mundos. Lo llamamos validación porque afecta el proceso de aprendizaje y ayuda a tomar decisiones.

  • 00:25:00 En esta sección, la atención se centra en comprender la diferencia entre error de prueba y error de validación. Cuando el conjunto de prueba es imparcial y se usa para estimar E_out, habrá fluctuaciones en la estimación. Si se utiliza la detención anticipada, el sesgo de la estimación cambia. En un escenario de miniaprendizaje, es fácil ver que el valor esperado del mínimo es inferior a 0,5, lo que lo convierte en un sesgo optimista. Lo mismo sucede cuando se elige un punto para la parada temprana: el punto elegido es mínimo en la realización y se introduce un sesgo optimista.

  • 00:30:00 En esta sección, la conferencia analiza el uso del conjunto de validación para la selección de modelos en el aprendizaje automático. El proceso implica entrenar modelos M utilizando un conjunto de datos dividido en conjuntos de entrenamiento y validación, y luego evaluar el rendimiento de cada modelo en el conjunto de validación para obtener estimaciones del error fuera de la muestra. Se elige el modelo con el menor error de validación, pero existe un riesgo de sesgo introducido debido a este proceso de selección. Sin embargo, el sesgo es generalmente menor en la práctica y puede aceptarse para obtener una estimación confiable del error fuera de la muestra.

  • 00:35:00 En esta sección, el disertante discute el sesgo introducido al usar la estimación para elegir un modelo en particular, ya que ya no es confiable ya que fue seleccionado en base al conjunto de validación. El valor esperado del estimador se convierte en una estimación sesgada del error fuera de la muestra. Un experimento con dos modelos generó una curva que indicaba un sesgo sistemático hacia uno u otro modelo. Las curvas en el gráfico indican la curva de aprendizaje hacia atrás y cómo el error fuera de muestra disminuye con más ejemplos para el entrenamiento. A medida que aumenta el tamaño del conjunto de validación, la estimación se vuelve más confiable y las curvas que indican los errores de los modelos convergen.

  • 00:40:00 En esta sección, la conferencia explica cómo estimar la discrepancia o el sesgo entre entrenar en un conjunto de hipótesis especiales y encontrar la hipótesis final usando un conjunto de validación. El conjunto de validación se ve como el error de entrenamiento para el conjunto de hipótesis final y, con un poco de matemática relacionada con la dimensión VC y la complejidad efectiva, se puede obtener una estimación del error fuera de la muestra. Aunque más ejemplos mejorarán la estimación, las contribuciones logarítmicas deben tenerse en cuenta al seleccionar entre un mayor número de hipótesis. Sin embargo, cuando se trata de un solo parámetro, la complejidad efectiva va con una dimensión VC de 1, que no es demasiado difícil de manejar. Por lo tanto, si tiene un conjunto adecuado, la estimación del error fuera de la muestra no diferirá demasiado del valor real.

  • 00:45:00 En esta sección, el orador discute la idea de contaminación de datos cuando se usan estimaciones de error para tomar decisiones, particularmente en el contexto de la validación. El conjunto de entrenamiento se considera completamente contaminado, mientras que el conjunto de prueba está completamente limpio y proporciona una estimación imparcial. Sin embargo, el conjunto de validación está ligeramente contaminado porque se usa para tomar algunas decisiones, por lo que es importante no dejarse llevar y pasar a otro conjunto de validación cuando sea necesario. Luego, el orador presenta la validación cruzada como un régimen de validación que puede obtener una mejor estimación con una barra de error más pequeña, siempre que no esté sesgada en el proceso.

  • 00:50:00 En esta sección, el profesor introduce el concepto de validación a través de la validación cruzada, específicamente el método "dejar uno fuera". En este método, el conjunto de datos se divide en dos, con un punto que se usa para la validación y el resto para el entrenamiento. El proceso se repite para diferentes puntos, lo que da como resultado múltiples estimaciones no sesgadas e imperfectas. Dado que todas las estimaciones se basan en el entrenamiento con N menos 1 puntos de datos, tienen un hilo común. A pesar de ser imperfectas, las estimaciones repetidas dan una idea del comportamiento del modelo y ayudan a optimizarlo para obtener el mejor rendimiento fuera de la muestra.

  • 00:55:00 En esta sección, se introduce el concepto de validación cruzada como un método para evaluar el error fuera de muestra para diferentes hipótesis. Al dividir el conjunto de datos en conjuntos de entrenamiento y validación, es posible estimar el rendimiento del modelo en datos no vistos. El método de "dejar uno fuera" se utiliza para ilustrar el proceso. Se discute la efectividad de la validación cruzada, y se demuestra que usar N menos 1 puntos para entrenar y N puntos para validar es notablemente eficiente para obtener resultados precisos.

  • 01:00:00 En esta sección, el profesor analiza el uso de la validación cruzada para la selección de modelos. Demuestra esto comparando los modelos lineal y constante con tres puntos, y muestra cómo gana el modelo constante. Luego aplica validación cruzada al problema de encontrar una superficie de separación para dígitos escritos a mano usando una transformación no lineal de quinto orden con 20 características. Utiliza la validación cruzada "dejar uno fuera" para comparar 20 modelos y elige dónde dejar de agregar funciones. Él muestra que el error de validación cruzada sigue de cerca el error fuera de la muestra, y que usarlo como criterio para la elección del modelo conduce a mínimos en 6 características con un rendimiento mejorado en comparación con el uso del modelo completo sin validación.

  • 01:05:00 En esta sección, el profesor analiza el uso de la validación para prevenir el sobreajuste y cómo se considera similar a la regularización. Él explica cómo la validación de "dejar uno fuera" no es práctica para la mayoría de los problemas reales, y sugiere usar una validación cruzada de 10 veces en su lugar. También brinda orientación sobre la cantidad de parámetros que se deben usar en función del tamaño del conjunto de datos y aclara por qué la elección del modelo por validación no cuenta como indagación de datos.

  • 01:10:00 En esta sección, el profesor analiza la importancia de tener en cuenta las discrepancias fuera de la muestra y la indagación de datos al usar el conjunto de validación para elegir el modelo. Enfatiza la necesidad de utilizar métodos de aleatorización como lanzar monedas al aire para evitar el sesgo de muestreo y utilizar técnicas de validación cruzada para elegir el parámetro de regularización en muchos casos prácticos. Si bien la validación cruzada puede agregar complejidad computacional, también se puede combinar con la regularización para seleccionar la mejor hipótesis para un modelo. El profesor señala que aunque existen otros métodos para la selección de modelos, la validación es única en el sentido de que no requiere suposiciones.

  • 01:15:00 En esta sección, el profesor analiza cómo la validación puede ayudar a tomar decisiones basadas en principios al seleccionar modelos, independientemente de la naturaleza de la elección, y cómo también se puede usar para actualizar el modelo en caso de evolución temporal o sistema de seguimiento. evolución. Al comparar la validación y la validación cruzada, explica que ambos métodos tienen sesgo, pero la validación cruzada permite que se usen más ejemplos tanto para el entrenamiento como para la validación, lo que da como resultado una barra de error más pequeña y menos vulnerabilidad al sesgo. Si bien es posible tener conjuntos de datos tan grandes que no se necesita la validación cruzada, el profesor proporciona un ejemplo en el que, incluso con 100 millones de puntos, la validación cruzada sigue siendo beneficiosa debido a la naturaleza de los datos.

  • 01:20:00 En esta sección, el profesor analiza escenarios en los que la validación cruzada es útil y aborda posibles problemas con ella. Explica que la validación cruzada se vuelve relevante cuando la parte más relevante de un gran conjunto de datos es más pequeña que el conjunto completo. Al decidir entre modelos en competencia, se necesita evidencia estadística para determinar la importancia del error fuera de la muestra. El profesor afirma que con un conjunto de datos más pequeño, no hay una respuesta definitiva sobre si es mejor volver a muestrear o dividir el conjunto en partes para la validación cruzada. El profesor también analiza el papel del equilibrio entre las clases y cómo se comporta el sesgo al aumentar el número de puntos dejados de lado. Finalmente, el profesor explica que el número total de puntos de validación determina la barra de error y el sesgo es una función de cómo se utiliza la validación cruzada.

  • 01:25:00 En esta sección, el profesor analiza la barra de error y cómo puede proporcionar una indicación de vulnerabilidad al sesgo en una estimación. Si dos escenarios tienen barras de error comparables, no hay razón para creer que uno es más vulnerable al sesgo. Sin embargo, se necesita un análisis detallado para ver la diferencia entre tomar un escenario a la vez y considerar las correlaciones. El profesor concluye que siempre que se realicen varios pliegues y cada ejemplo aparezca en la estimación de validación cruzada exactamente una vez, no hay preferencia entre escenarios en términos de sesgo.
 

Clase 14 - Máquinas de vectores de soporte



Curso de aprendizaje automático de Caltech - CS 156. Clase 14 - Máquinas de vectores de soporte

La conferencia cubre la importancia de la validación y su uso en el aprendizaje automático, así como las ventajas de la validación cruzada sobre la validación. El enfoque de la conferencia está en las máquinas de vectores de soporte (SVM) como el modelo de aprendizaje más efectivo para la clasificación, con un esquema detallado de la sección que involucra la maximización del margen, la formulación y las soluciones analíticas a través de la optimización restringida presentada. La conferencia cubre una variedad de tecnicismos, que incluyen cómo calcular la distancia entre un punto y un hiperplano en SVM, cómo resolver el problema de optimización para SVM y cómo formular el problema de optimización de SVM en su formulación dual. El disertante también discute los aspectos prácticos del uso de la programación cuadrática para resolver el problema de optimización y la importancia de identificar los vectores de soporte. La conferencia concluye con una breve discusión sobre el uso de transformaciones no lineales en SVM.

En la segunda parte de esta lección sobre máquinas de vectores de soporte (SVM), el disertante explica cómo el número de vectores de soporte dividido por el número de ejemplos da un límite superior en la probabilidad de error al clasificar un punto fuera de la muestra, haciendo que el uso de vectores de soporte con transformación no lineal factible. El profesor también analiza la normalización de w transpuesto x más b para ser 1 y su necesidad de optimización, así como la versión de margen suave de SVM, que permite errores y los penaliza. Además, se explica la relación entre el número de vectores de soporte y la dimensión VC, y se menciona la resistencia al ruido del método, siendo utilizada la versión blanda del método en casos de datos ruidosos.

  • 00:00:00 En esta sección, el disertante analiza la importancia de la validación, particularmente en términos de su uso en el aprendizaje automático. También se explica el concepto de sesgo imparcial y optimista como resultado del error de validación y su efecto en la selección del modelo. La ventaja de la validación cruzada sobre la validación se destaca más en la sección. Además, el disertante presenta las máquinas de vectores de soporte como el modelo de aprendizaje más efectivo para la clasificación, citando su interpretación intuitiva, una derivación basada en principios y el paquete de optimización como ventajas significativas para el modelo de aprendizaje. También se presenta un esquema detallado de la sección, que involucra la maximización del margen, la formulación y las soluciones analíticas a través de la optimización restringida.

  • 00:05:00 En esta sección, se explicó el concepto de maximizar el margen en la separación lineal. Si bien todas las líneas que separan datos linealmente separables tienen cero errores en la muestra, algunas pueden tener mejores márgenes que permiten una mayor generalización. Se explica que un mayor margen es mejor porque, en situaciones ruidosas, la probabilidad de que el nuevo punto se clasifique correctamente es mayor. Esto está relacionado con la función de crecimiento y cómo una función de crecimiento más grande es desventajosa para la generalización en el aprendizaje automático. Se muestra que maximizar el margen puede ayudar con la generalización al buscar líneas que no solo separen los datos correctamente sino que también tengan el margen máximo posible para esos puntos de datos.

  • 00:10:00 En esta sección, el disertante analiza los márgenes gruesos y cómo pueden mejorar el rendimiento de un clasificador. Al exigir que un clasificador tenga un margen de cierto tamaño, se reduce el número de posibles dicotomías, lo que conduce a una función de crecimiento más pequeña y una dimensión de VC más pequeña. Cuanto mayor sea el margen, mejor será el rendimiento fuera de muestra del clasificador. Luego, el disertante explica cómo resolver el mayor margen posible, encontrando la distancia entre el hiperplano y el punto de datos más cercano, y normalizando el vector w para simplificar el análisis. La señal, o la distancia entre el hiperplano y los puntos de datos, no es la distancia euclidiana, sino el orden de los puntos más cercanos y más lejanos, y debe convertirse para obtener la distancia euclidiana.

  • 00:15:00 En esta sección, el disertante explica algunos aspectos técnicos relevantes para el análisis de máquinas de vectores de soporte. En primer lugar, para comparar el rendimiento de diferentes planos, se utiliza como criterio la distancia euclidiana. En segundo lugar, se extrae w del vector X para analizar las máquinas de vectores de soporte de manera más conveniente, y se extrae w₀ para que no se confunda con el vector w que ahora tiene un nuevo rol. El objetivo es calcular la distancia entre xₙ (el punto más cercano) y el plano. El disertante muestra que el vector w es ortogonal al plano ya todos los vectores del plano, lo que significa que es ortogonal a todos los vectores normales del plano, así que ahora podemos obtener la distancia entre xₙ y el plano.

  • 00:20:00 En esta sección, el orador analiza cómo calcular la distancia entre un punto y un hiperplano en SVM. Esto se puede hacer proyectando el vector que va desde el punto a un punto genérico en el hiperplano en la dirección que es ortogonal al hiperplano. El vector unitario en esta dirección se calcula normalizando la longitud del vector. Al usar algo de álgebra, el hablante obtiene una fórmula para la distancia que se simplifica agregando un término faltante. Esta fórmula se puede utilizar para elegir la combinación de w que dé el mejor margen posible. El problema de optimización que resulta de esto no es muy fácil de usar debido al mínimo en las restricciones. Sin embargo, haciendo algunas observaciones simples, este problema puede reformularse en uno cuadrático más amigable.

  • 00:25:00 En esta sección, el disertante explica cómo resolver el problema de optimización para máquinas de vectores de soporte (SVM). Comienzan mostrando cómo se pueden formular las SVM como un problema de optimización con restricciones en el que deben minimizar una función objetivo sujeta a restricciones de desigualdad lineal. Demuestran que es posible usar multiplicadores de Lagrange para transformar las restricciones de desigualdad en restricciones de igualdad y luego resolver el nuevo Lagrangiano. Señalan que este enfoque fue descubierto de forma independiente por Karush y Kuhn-Tucker y se conoce como KKT Lagrangian. El disertante destaca que el proceso es similar al procedimiento de regularización, y recuerdan la condición de gradiente para la solución.

  • 00:30:00 En esta sección, el disertante explica la relación entre la SVM y la regularización y la formulación de Lagrange. Es esencial tener en cuenta que las restricciones conducen a un gradiente distinto de cero, a diferencia del problema sin restricciones donde el gradiente es igual a 0. La formulación de Lagrange depende de variables como w y b, y hay nuevas variables, multiplicadores de Lagrange como el vector alfa . El problema en cuestión es minimizar la función objetivo sujeta a las restricciones de la forma, y luego le damos un nombre lagrangiano. La parte interesante es que en realidad estamos maximizando con respecto al alfa, aunque los alfas tienen que ser no negativos y, por lo tanto, debemos prestar atención a esto. La sección concluye con una breve explicación de la parte no restringida, donde necesitamos minimizar el gradiente del Lagrangiano con respecto a w y b.

  • 00:35:00 En esta sección de la conferencia, el orador explica cómo formular el problema de optimización SVM en su formulación dual. Primero optimiza el problema con respecto a w y b, lo que da como resultado dos condiciones que sustituye en el Lagrangiano original, lo que lleva a la formulación dual del problema, que es una buena fórmula en términos de los multiplicadores alfa de Lagrange únicamente. Luego establece la restricción para que los alfas no sean negativos y resuelve el problema de maximización sujeto a estas restricciones, lo que da como resultado los valores óptimos de alfa que determinan los vectores de soporte.

  • 00:40:00 En esta sección, el orador analiza los aspectos prácticos del uso de la programación cuadrática para resolver el problema de optimización presentado anteriormente para las máquinas de vectores de soporte. El objetivo y las restricciones se traducen en coeficientes que se pasan al paquete de programación cuadrática para su minimización. La dimensión de la matriz depende del número de ejemplos y esto se convierte en una consideración práctica para grandes conjuntos de datos. El orador advierte que cuando el número de ejemplos es grande, la programación cuadrática tiene dificultades para encontrar la solución y puede requerir el uso de heurísticas.

  • 00:45:00 En esta sección, la conferencia profundiza en las soluciones que trae la programación cuadrática, específicamente alfa, y cómo se relaciona con el problema original de determinar los pesos, la superficie, el margen y b. La conferencia destaca la importancia de identificar los vectores de apoyo, que son los puntos que definen el plano y el margen. Las matemáticas detrás de lambdas positivas (alfas en este caso) brindan una forma de identificar vectores de soporte, ya que solo considera puntos con valores positivos. Esto significa que estos valores alfa son cruciales para definir el límite entre las dos clasificaciones, y la identificación de su ubicación es fundamental para optimizar los pesos y crear el margen máximo.

  • 00:50:00 En esta sección, el concepto de vectores de soporte se presenta y analiza en el contexto del algoritmo de la máquina de vectores de soporte (SVM). Los vectores de soporte se definen como los puntos de datos que están más cerca del límite de decisión o hiperplano que separa las clases de datos. El algoritmo SVM optimiza un problema de programación cuadrática para determinar los vectores de soporte y los parámetros de la función de decisión. Los valores de los parámetros dependen únicamente de los vectores de soporte, que son los puntos críticos, lo que permite generalizar bien el modelo. Las transformaciones no lineales también se analizan brevemente como una forma de manejar datos no separables. La transformación de los datos en un espacio de mayor dimensión no complica el problema de optimización y se puede utilizar la misma técnica para encontrar los vectores de soporte y la función de decisión.

  • 00:55:00 En esta sección del video, el disertante analiza el uso de transformaciones no lineales en SVM. Las transformaciones no lineales se utilizan cuando los datos no son linealmente separables, como es el caso en el espacio X. El disertante demuestra cómo usar una transformación no lineal y trabajar en el espacio Z para lograr un resultado linealmente separable. Él explica que la solución es fácil y que la cantidad de alfas depende de la cantidad de puntos de datos, no de la dimensionalidad del espacio en el que está trabajando. La idea clave es que puede ir a un espacio enorme sin pagar un precio. en cuanto a la optimización. Los vectores de soporte se identifican en el espacio Z, pero en el espacio X se ven como puntos de datos.

  • 01:00:00 En esta sección, el disertante analiza el resultado de la generalización que hace factible el uso de vectores de soporte con transformación no lineal. El número de vectores de soporte, que representa el número de parámetros efectivos, dividido por el número de ejemplos da un límite superior a la probabilidad de error al clasificar un punto fuera de la muestra. Si el valor esperado de varias ejecuciones de esta maquinaria se mantiene, entonces el E_out real que obtendrá en un caso particular estará limitado por un tipo familiar de límite (por ejemplo, el número de parámetros, grados de libertad y dimensión VC dividido por el número de ejemplos). Este resultado hace que las personas usen vectores de soporte y vectores de soporte con la transformación no lineal, ya que no paga por el cálculo de ir a una dimensión superior o la generalización que lo acompaña.

  • 01:05:00 En esta sección, el profesor explica por qué elige normalizar w traspuesto x más b para que sea 1, y por qué esta normalización es necesaria para la optimización. También responde una pregunta sobre cómo SVM trata los puntos separables no lineales a través de transformaciones no lineales, y cómo la versión de margen suave de SVM permite errores y los penaliza. Además, el profesor aborda brevemente la relación entre el número de vectores de soporte y la dimensión VC, y cómo los alfas representan los parámetros en SVM.

  • 01:10:00 En esta sección, el disertante analiza la relación entre el número de parámetros distintos de cero y la dimensión VC, que es equivalente al número de vectores de soporte por definición. La medida del margen puede variar según la norma utilizada, pero no existe una razón de peso para preferir una sobre la otra en términos de rendimiento. Si bien no existe un método directo para podar los vectores de soporte, tomar subconjuntos y obtener los vectores de soporte de los vectores de soporte son posibles consideraciones computacionales. El método SVM no es particularmente susceptible al ruido, y en casos de datos con ruido, se utiliza la versión blanda del método, que es notablemente similar al caso sin ruido.
Lecture 14 - Support Vector Machines
Lecture 14 - Support Vector Machines
  • 2012.05.18
  • www.youtube.com
Support Vector Machines - One of the most successful learning algorithms; getting a complex model at the price of a simple one. Lecture 14 of 18 of Caltech's...
 

Clase 15 - Métodos Kernel



Curso de aprendizaje automático de Caltech - CS 156. Clase 15 - Métodos del kernel

Esta lección sobre los métodos del núcleo presenta las máquinas de vectores de soporte (SVM) como un modelo lineal que se basa más en el rendimiento que los modelos de regresión lineal tradicionales debido al concepto de maximizar el margen. Si los datos no son linealmente separables, se pueden usar transformaciones no lineales para crear superficies onduladas que aún permiten hipótesis complejas sin pagar un alto precio en complejidad. El video explica los métodos del núcleo que van al espacio Z de alta dimensión y explica cómo calcular el producto interno sin calcular los vectores individuales. El video también describe los diferentes enfoques para obtener un kernel válido para problemas de clasificación y explica cómo aplicar SVM a datos no separables. Finalmente, el video explica el concepto de holgura y cuantifica la violación de margen en SVM, introduciendo una variable xi para penalizar la violación de margen y revisando la formulación de Lagrange para resolver alfa.

La segunda parte cubre aspectos prácticos del uso de máquinas de vectores de soporte (SVM) y métodos kernel. Explica el concepto de máquinas de vector de soporte de margen suave y cómo permiten cierta clasificación errónea mientras mantienen un margen amplio. Habla sobre la importancia del parámetro C, que determina cuánta violación puede ocurrir, y sugiere usar la validación cruzada para determinar su valor. También aborda las preocupaciones sobre la coordenada constante en los datos transformados y asegura a los usuarios que desempeña el mismo papel que el término de sesgo. Además, analiza la posibilidad de combinar núcleos para producir nuevos núcleos y sugiere métodos heurísticos que se pueden usar cuando la programación cuadrática falla al resolver SVM con demasiados puntos de datos.

  • 00:00:00 En esta sección de la conferencia sobre Métodos Kernel, Yaser Abu-Mostafa presenta el concepto de máquinas de vectores de soporte (SVM), señalando que no son más que un modelo lineal en la forma más simple, pero están más orientadas al rendimiento. debido a la idea de maximizar el margen. Mediante el uso de un paquete de programación cuadrática, podemos resolver el problema SVM y recuperar los alfas, lo que nos ayuda a identificar los vectores de soporte. Si los datos no son linealmente separables, podemos usar la transformación no lineal, pero la superficie ondulada resultante aún nos permite obtener una hipótesis compleja sin pagar un alto precio en complejidad. Podemos predecir el error fuera de la muestra en función de la cantidad de vectores de soporte, que es una cantidad dentro de la muestra.

  • 00:05:00 En esta sección, el video explica el concepto de los métodos kernel y su papel en la extensión de las máquinas de vectores de soporte más allá del caso separable linealmente. La idea detrás de los métodos del kernel es ir a un espacio Z de alta dimensión sin pagar el precio de la complejidad. El video explica que la clave para lograr esto es poder calcular el producto interno en el espacio Z sin tener que calcular los vectores individuales en ese espacio. Aquí es donde entran los núcleos, ya que permiten el cálculo de productos internos utilizando solo entradas explícitas. El video continúa explicando las implicaciones de estos métodos para manejar transformaciones no lineales y márgenes suaves, y cómo se pueden usar en la práctica para manejar problemas complejos.

  • 00:10:00 En esta sección, la lección explica el uso del producto interno en el espacio Z y cómo se relaciona con los métodos del kernel. El producto interno es necesario para formar el Lagrangiano y pasar las restricciones a la programación cuadrática, pero se puede calcular usando solo productos internos para realizar la maquinaria de vectores de soporte. Mediante el uso de un producto interno generalizado o kernel que corresponde a un espacio Z, uno puede transformar dos puntos x y x dash en una función que está determinada por x y x dash, que se llama kernel. Se da un ejemplo de un espacio euclidiano bidimensional usando una transformación polinomial de segundo orden.

  • 00:15:00 En esta sección, el disertante analiza el concepto de métodos kernel y cómo calcular kernels sin transformar x y x dash. El disertante improvisa un núcleo que no transforma las cosas al espacio Z y convence a la audiencia de que el núcleo corresponde a una transformación a algún espacio Z, tomando allí un producto interno. Al elevar al cuadrado un kernel con 1 + x_xdash elevado a la potencia Q, el disertante explica cómo esto se convierte en un producto interno en algún espacio, convirtiéndolo en un kernel válido. Además, el disertante compara cuántos cálculos se necesitarían para hacer esto con otras dimensiones, independientemente de la complejidad de Q, que sigue siendo la misma.

  • 00:20:00 En esta sección, el disertante explica un método kernel para la transformación de polinomios que se puede llevar a cabo sin expandir el polinomio. Al tomar el logaritmo y exponenciarlo, el polinomio se convierte en una operación simple que no requiere una gran expansión. Este es un polinomio fácil que se puede visualizar en 2D y extrapolar para otros casos. Se puede obtener un núcleo que se asigna a un espacio dimensional superior tomando un producto interno en ese espacio. El disertante presenta un ejemplo de un kernel que no tiene un término de producto interno en el espacio X o Z pero corresponde a un producto interno en un espacio de dimensión infinita. A pesar de los desafíos de ir a un espacio de dimensión infinita, el método kernel sigue siendo útil y la cantidad de vectores de soporte se puede usar para determinar la generalización de un modelo.

  • 00:25:00 En esta sección, el disertante demuestra el kernel de función de base radial, un kernel sofisticado que corresponde a un espacio de dimensión infinita, y muestra cómo funciona en acción tomando un caso ligeramente no separable. El profesor genera 100 puntos al azar y demuestra que no hay línea que los separe. Luego, el disertante transforma X en un espacio de dimensión infinita y calcula el núcleo, que es un exponencial simple. El profesor pasa esto a la programación cuadrática, que devuelve los vectores de soporte. Cuando el disertante oscurece los vectores de soporte, se vuelve más fácil ver las dos clases.

  • 00:30:00 En esta sección, el orador analiza la idea de los métodos del kernel y cómo se pueden usar para la clasificación. Presenta un ejemplo del uso de un kernel en un conjunto de datos de puntos para transformarlos en un espacio de dimensión infinita donde pueden estar separados por un plano lineal. El margen resultante y los vectores de soporte se utilizan para determinar la cantidad en la muestra que guía la propiedad de generalización. Luego, el orador continúa explicando cómo se puede usar un núcleo válido correspondiente a un producto interno en algún espacio Z para formular el problema y construir la hipótesis. En general, enfatiza la utilidad de los métodos kernel y cómo se pueden aplicar para resolver problemas de clasificación.

  • 00:35:00 En esta sección, aprendemos cómo traducir el modelo lineal a una forma de kernel, donde las máquinas de vectores de soporte se convierten en un modelo que permite elegir el kernel. El kernel toma el lugar del producto interno después de que los productos internos se toman con el espacio Z. El modelo resultante depende de la elección del kernel, y también podemos resolver b insertando un vector de soporte. Sin embargo, el núcleo es difícil de determinar ya que no puede verificar su validez sin visitar el espacio Z. No obstante, ilustramos cómo podemos comparar enfoques observando la forma funcional de diferentes núcleos.

  • 00:40:00 En esta sección, el disertante explica las condiciones para obtener un kernel válido en los métodos kernel. Hay tres enfoques: construcción, donde se construye un kernel a partir de un conjunto conceptual o explícito de transformaciones; la condición de Mercer, que requiere que un kernel dado sea simétrico y que una matriz construida a partir de los valores del kernel sea semidefinida positiva; y finalmente, un enfoque de improvisación, donde la viabilidad del núcleo es una preocupación muy práctica, y se deben cumplir dos condiciones simultáneamente. Estos son que el núcleo es simétrico y que la matriz construida a partir de los valores del núcleo debe ser semidefinida positiva para cualquier elección de puntos, como lo requiere la condición de Mercer.

  • 00:45:00 En esta sección, el disertante describe situaciones en las que los datos no son linealmente separables y cómo aplicar el algoritmo de máquinas de vectores de soporte en tales casos. Podría haber dos escenarios de datos no separables, uno donde la no separabilidad es leve y otro donde la no separabilidad es significativa. Para manejar datos separables no lineales, uno puede cometer errores y aprender con la generalización en lugar de tratar de usar espacios complejos de dimensiones excesivamente altas que contienen todos los puntos de datos, manteniendo así el error bajo. En el caso de una no separabilidad grave, se debe optar por una transformación no lineal y utilizar núcleos o máquinas de vectores de soporte de margen suave. Luego, el disertante habla sobre la idea de la violación del margen y cómo cuantificarla para tener en cuenta los errores de clasificación.

  • 00:50:00 En esta sección, el disertante introduce el concepto de holgura y la cuantificación de la violación del margen en SVM. Explica que introducirá un slack por cada punto que mida la violación de margen, y penalizará la violación total sumando estos slacks. Elige esta medida de error, que es razonable y mide la violación del margen, en lugar de otras. Luego presenta la nueva optimización, que minimiza el término de error de violación del margen, junto con maximizar el margen. La constante C da la importancia relativa de este término de violación del margen frente al término anterior que maximiza el margen. Según el valor de C, el resultado final podría ser un dato linealmente separable o un compromiso, ya que representa el equilibrio entre el margen y la holgura. Finalmente, revisa la formulación lagrangiana con la adición de los nuevos términos.

  • 00:55:00 En esta sección, el disertante explica el nuevo problema de programación cuadrática introducido al agregar la variable xi para penalizar las violaciones de margen. El Lagrangiano incluye nuevas restricciones sobre xi que deben ser resueltas mediante el uso de multiplicadores de Lagrange, beta. Luego, el disertante muestra cómo la minimización de w y b permanece sin cambios y encuentra que resolver para xi da como resultado una cantidad que siempre es cero. Este hallazgo lleva a que beta abandone el Lagrangiano, dejando la misma solución que antes, con la única ramificación de que alfa ahora no solo es mayor o igual a cero, sino que también es menor o igual a C.

  • 01:00:00 En esta sección del video, el disertante repasa el concepto de máquinas de vector de soporte de margen suave, que permiten cierta clasificación errónea mientras mantienen un amplio margen. La solución implica una restricción adicional que requiere que alfa sea como máximo C, junto con la restricción de igualdad ya existente. Las máquinas de vectores de soporte de margen suave incluyen vectores de soporte de margen y no margen, siendo estos últimos los puntos que violan el margen, causando una holgura que está representada por el valor xi. El valor de C es un parámetro importante que determina cuánta violación puede ocurrir, y esto generalmente se determina a través de la validación cruzada.

  • 01:05:00 En esta sección, el disertante analiza puntos prácticos sobre el uso de máquinas de vectores de soporte (SVM) y métodos kernel. Explica que si los datos no son linealmente separables, es posible que la programación cuadrática no converja, lo que lleva a una situación en la que no hay una solución factible. Sin embargo, alienta a los usuarios a ser perezosos y aún así pasar alfas de la programación cuadrática a la solución para evaluar si separa o no los datos. Además, aborda las preocupaciones sobre la coordenada constante, 1, que se transforma con los datos, y explica que efectivamente desempeña el mismo papel que el término de sesgo, b, y que los usuarios no deben preocuparse por tener múltiples coordenadas con el mismo papel.

  • 01:10:00 En esta sección, el profesor explica que la linealidad de las máquinas de vectores de soporte (SVM) depende de ciertos supuestos, y puede ser mejor que lineal en algunos casos. La dimensión de los datos puede afectar la efectividad de SVM, pero el núcleo RBF puede manejar dimensiones infinitas si los términos de orden superior decaen rápidamente. Un núcleo válido necesita tener un producto interno bien definido, que depende de la convergencia. El profesor no toca las SVM generalizadas para casos de regresión, ya que requieren más detalles técnicos, y el mayor éxito de las SVM está en la clasificación. Por último, puede haber quejas de los paquetes de programación cuadrática por no ser definitivos positivos, pero las soluciones aún pueden estar bien con cierta confiabilidad.

  • 01:15:00 En esta sección, el profesor analiza la posibilidad de combinar núcleos para producir nuevos núcleos y el requisito de que la combinación mantenga un producto interno en un espacio Z. También menciona que el problema de programación cuadrática es el cuello de botella en la resolución de problemas con SVM y da una estimación de la cantidad de puntos que puede manejar la programación cuadrática. Además, sugiere métodos heurísticos que se pueden usar cuando la programación cuadrática falla al resolver SVM con demasiados puntos de datos.
Lecture 15 - Kernel Methods
Lecture 15 - Kernel Methods
  • 2012.05.24
  • www.youtube.com
Kernel Methods - Extending SVM to infinite-dimensional spaces using the kernel trick, and to non-separable data using soft margins. Lecture 15 of 18 of Calte...