Está perdiendo oportunidades comerciales:
- Aplicaciones de trading gratuitas
- 8 000+ señales para copiar
- Noticias económicas para analizar los mercados financieros
Registro
Entrada
Usted acepta la política del sitio web y las condiciones de uso
Si no tiene cuenta de usuario, regístrese
Clase 6 - Teoría de la Generalización
Curso de aprendizaje automático de Caltech - CS 156. Clase 06 - Teoría de la generalización
La conferencia discute la teoría de la generalización y la función de crecimiento como el número de dicotomías que pueden ser generadas por una hipótesis establecida en un conjunto de N puntos, con el objetivo de caracterizar toda la función de crecimiento y generalizar para cada N caracterizando la ruptura. punto. El orador demuestra el proceso de calcular la función de crecimiento para diferentes conjuntos de hipótesis y probar el límite superior de la función de crecimiento mediante la identidad combinatoria. La discusión también toca el uso de la función de crecimiento en la desigualdad de Hoeffding, el VC destinado a caracterizar superposiciones entre hipótesis y la desigualdad de Vapnik-Chervonenkis, que es polinomial en N con el orden del polinomio decidido por el punto de ruptura.
El profesor discute la teoría de la generalización, aclarando puntos anteriores y explicando el concepto de punto de quiebre, que se utiliza para calcular los recursos necesarios para el aprendizaje. El enfoque del aprendizaje está en la aproximación a E_out, no a E_in, lo que permite al alumno trabajar con cantidades familiares. El profesor también explica el razonamiento detrás de reemplazar M con la función de crecimiento y cómo esto se relaciona con la cantidad combinatoria B de N y k. Mientras analiza las funciones de regresión, el profesor enfatiza la compensación de sesgo-varianza y cómo la capacidad de aprendizaje es independiente de la función objetivo. Finalmente, el profesor señala que los mismos principios se aplican a todo tipo de funciones.
Conferencia 07 - La Dimensión VC
Curso de aprendizaje automático de Caltech - CS 156. Clase 07 - La dimensión VC
La lección introduce el concepto de dimensión VC, que es el número máximo de puntos que puede romper un conjunto de hipótesis, y explica sus aplicaciones prácticas. La dimensión VC representa los grados de libertad de un modelo, y se analiza su relación con el número de parámetros en un modelo. Se dan ejemplos para demostrar cómo calcular la dimensión VC para diferentes conjuntos de hipótesis. Se explora la relación entre el número de ejemplos necesarios y la dimensión VC, y se observa que existe una relación proporcional entre los dos. También se discuten las implicaciones de aumentar la dimensión VC en el rendimiento de un algoritmo de aprendizaje. En general, la conferencia proporciona información sobre la teoría de VC y sus implicaciones prácticas para el aprendizaje automático.
Además, el video cubre el concepto de generalización y el límite de generalización, que es una declaración positiva que muestra el equilibrio entre el tamaño del conjunto de hipótesis y una buena generalización en el aprendizaje automático. El profesor explica la dimensión VC, que es el valor más grande antes del primer punto de ruptura, y cómo se puede usar para aproximar la cantidad de ejemplos necesarios. Señala la importancia de elegir la medida de error correcta y aclara que la estimación de la dimensión de VC es una estimación imprecisa que se puede utilizar para comparar modelos y aproximar la cantidad de ejemplos necesarios. La conferencia termina destacando los puntos en común entre este material y el tema del diseño de experimentos y cómo los principios del aprendizaje se extienden a otras situaciones más allá de los escenarios de aprendizaje estricto.
Clase 8 - Equilibrio entre sesgo y varianza
Curso de aprendizaje automático de Caltech - CS 156. Clase 08 - Equilibrio entre sesgo y varianza
El profesor analiza el equilibrio entre sesgo y varianza en el aprendizaje automático y explica cómo la complejidad del conjunto de hipótesis afecta el equilibrio entre la generalización y la aproximación. El disertante presenta el concepto de sesgo y varianza, que miden la desviación entre el promedio de hipótesis que produce un algoritmo de aprendizaje automático y la función objetivo real y cuánto varía la distribución de hipótesis de un modelo dado en función de diferentes conjuntos de datos, respectivamente. La compensación da como resultado un conjunto de hipótesis más grande que tiene un sesgo más pequeño pero una varianza más grande, mientras que un conjunto de hipótesis más pequeño tendrá un sesgo más grande pero una varianza más pequeña. El disertante enfatiza la importancia de tener suficientes recursos de datos para navegar de manera efectiva el conjunto de hipótesis y destaca la diferencia de escala entre el análisis de varianza de sesgo y el análisis de VC.
También analiza la compensación entre modelos simples y complejos en términos de su capacidad de aproximación y generalización, con menos ejemplos que requieren modelos simples y mayores recursos de ejemplos que requieren modelos más complejos. El análisis de sesgo-varianza es específico de la regresión lineal y asume el conocimiento de la función objetivo, siendo la validación el estándar de oro para elegir un modelo. El aprendizaje de conjunto se analiza a través de Bagging, que utiliza el arranque para promediar múltiples conjuntos de datos, lo que reduce la varianza. También se explica el equilibrio entre la varianza y la covarianza en el aprendizaje conjunto, y la regresión lineal se clasifica como una técnica de aprendizaje con el ajuste como la primera parte del aprendizaje, mientras que la teoría enfatiza el buen desempeño fuera de la muestra.
Clase 9 - El Modelo Lineal II
Curso de aprendizaje automático de Caltech - CS 156. Clase 09 - El modelo lineal II
Esta lección cubre varios aspectos del modelo lineal, incluida la descomposición de varianza de sesgo, curvas de aprendizaje y técnicas para modelos lineales como perceptrones, regresión lineal y regresión logística. El orador enfatiza la compensación entre la complejidad y el rendimiento de la generalización, advierte contra el sobreajuste y enfatiza la importancia de cargar adecuadamente la dimensión VC del espacio de hipótesis para garantías válidas. También se analiza el uso de transformadas no lineales y su impacto en el comportamiento de generalización. La lección cubre además la función logística y sus aplicaciones en la estimación de probabilidades, e introduce los conceptos de probabilidad y medidas de error de entropía cruzada en el contexto de la regresión logística. Finalmente, se explican métodos iterativos para optimizar la función de error, como el descenso de gradiente.
Además, la conferencia cubre una variedad de temas relacionados con modelos lineales y algoritmos de optimización en el aprendizaje automático. El profesor explica el compromiso entre la tasa de aprendizaje y la velocidad en la optimización del descenso de gradiente, presenta el algoritmo de regresión logística y analiza sus medidas de error y el algoritmo de aprendizaje. También se abordan los desafíos de la terminación en descenso de gradiente y la clasificación multiclase. El papel de la derivación y la selección de funciones en el aprendizaje automático se enfatiza y analiza como un arte en los dominios de aplicación, cargados en términos de dimensión de VC. En general, esta lección proporciona una descripción general completa de los modelos lineales y los algoritmos de optimización para el aprendizaje automático.
Clase 10 - Redes Neuronales
Curso de aprendizaje automático de Caltech - CS 156. Clase 10 - Redes neuronales
Yaser Abu-Mostafa, profesor del Instituto de Tecnología de California, analiza la regresión logística y las redes neuronales en esta conferencia. La regresión logística es un modelo lineal que calcula una interpretación de probabilidad de una función de valor real acotada. No puede optimizar su medida de error directamente, por lo que se introduce el método de descenso de gradiente para minimizar una función no lineal arbitraria que es lo suficientemente suave y dos veces diferenciable. Aunque no existe una solución de forma cerrada, la medida del error es una función convexa, por lo que es relativamente fácil de optimizar mediante el descenso de gradiente.
El descenso de gradiente estocástico es una extensión del descenso de gradiente que se utiliza en redes neuronales. Las redes neuronales son un modelo que implementa una hipótesis motivada por un punto de vista biológico y relacionada con los perceptrones. El algoritmo de retropropagación es un algoritmo eficiente que va con las redes neuronales y hace que el modelo sea particularmente práctico. El modelo tiene un vínculo biológico que entusiasmó a la gente y fue fácil de implementar usando el algoritmo. Aunque no es el modelo de elección en la actualidad, las redes neuronales tuvieron éxito en aplicaciones prácticas y aún se utilizan como estándar en muchas industrias, como la banca y la aprobación de créditos.
Breve resumen:
Clase 11 - Sobreajuste
Curso de aprendizaje automático de Caltech - CS 156. Clase 11 - Sobreajuste
Esta lección presenta el concepto y la importancia del sobreajuste en el aprendizaje automático. El sobreajuste ocurre cuando un modelo se entrena con ruido en lugar de con la señal, lo que resulta en un ajuste fuera de muestra deficiente. La conferencia incluye varios experimentos para ilustrar los efectos de diferentes parámetros, como el nivel de ruido y la complejidad del objetivo, sobre el sobreajuste. El ponente destaca la importancia de detectar precozmente el sobreajuste y el uso de técnicas de regularización y validación para prevenirlo. También se analiza el impacto del ruido determinista y estocástico en el sobreajuste, y la lección concluye con la introducción de las siguientes dos lecciones sobre cómo evitar el sobreajuste mediante la regularización y la validación.
Se discute el concepto de sobreajuste y se enfatiza la importancia de la regularización para prevenirlo. El profesor destaca el equilibrio entre el ajuste excesivo y el ajuste insuficiente y explica el papel de la dimensión VC en el ajuste excesivo, donde la discrepancia en la dimensión VC dada la misma cantidad de ejemplos da como resultado discrepancias en el error dentro y fuera de la muestra. También se cubre el tema práctico de validar un modelo y cómo puede afectar el sobreajuste y la selección del modelo. Además, el profesor enfatiza el papel de las funciones lineales por partes en la prevención del sobreajuste y destaca la importancia de considerar el número de grados de libertad en el modelo y restringirlo mediante la regularización.
Clase 12 - Regularización
Curso de aprendizaje automático de Caltech - CS 156. Clase 12 - Regularización
Esta lección sobre regularización comienza con una explicación del sobreajuste y su impacto negativo en la generalización de los modelos de aprendizaje automático. Se discuten dos enfoques de la regularización: matemático y heurístico. Luego, la conferencia profundiza en el impacto de la regularización en el sesgo y la varianza en los modelos lineales, utilizando el ejemplo de los polinomios de Legendre como componentes de expansión. También se cubre la relación entre C y lambda en la regularización, con una introducción al error aumentado y su papel en la justificación de la regularización para la generalización. También se analizan las técnicas de disminución/crecimiento de peso y la importancia de elegir el regularizador adecuado para evitar el sobreajuste. La conferencia termina con un enfoque en elegir un buen omega como un ejercicio heurístico y espera que lambda sirva como una gracia salvadora para la regularización.
La segunda parte analiza la disminución del peso como una forma de equilibrar la simplicidad de la red con su funcionalidad. El disertante advierte contra la regularización excesiva y el rendimiento no óptimo, enfatizando el uso de la validación para determinar los parámetros de regularización óptimos para diferentes niveles de ruido. La regularización se discute como experimental con una base en la teoría y la práctica. Se introducen tipos comunes de regularización como L1/L2, interrupción anticipada y deserción, además de cómo determinar el método de regularización apropiado para diferentes problemas. También se analizan los hiperparámetros comunes asociados con la implementación de la regularización.
Clase 13 - Validación
Curso de aprendizaje automático de Caltech - CS 156. Clase 13 - Validación
En la lección 13, el enfoque está en la validación como una técnica importante en el aprendizaje automático para la selección de modelos. La conferencia aborda los detalles de la validación, incluido por qué se llama validación y por qué es importante para la selección de modelos. La validación cruzada también se analiza como un tipo de validación que permite el uso de todos los ejemplos disponibles para capacitación y validación. El profesor explica cómo estimar el error fuera de muestra utilizando la variable aleatoria que toma un punto fuera de muestra y calcula la diferencia entre la hipótesis y el valor objetivo. La conferencia también analiza el sesgo introducido al usar la estimación para elegir un modelo en particular, ya que ya no es confiable porque se seleccionó con base en el conjunto de validación. Se introduce el concepto de validación cruzada como un método para evaluar el error fuera de muestra para diferentes hipótesis.
También cubre el uso de validación cruzada para la selección y validación de modelos para evitar el sobreajuste, con un enfoque en "dejar uno fuera" y validación cruzada de 10 veces. El profesor demuestra la importancia de tener en cuenta las discrepancias fuera de la muestra y el espionaje de datos, y sugiere incluir métodos aleatorios para evitar el sesgo de muestreo. Explica que, aunque la validación cruzada puede agregar complejidad, combinarla con la regularización puede seleccionar el mejor modelo y, dado que la validación no requiere suposiciones, es única. El profesor explica además cómo la validación cruzada puede ayudar a tomar decisiones basadas en principios, incluso cuando se comparan diferentes escenarios y modelos, y cómo los puntos de validación totales determinan la barra de error y el sesgo.
Clase 14 - Máquinas de vectores de soporte
Curso de aprendizaje automático de Caltech - CS 156. Clase 14 - Máquinas de vectores de soporte
La conferencia cubre la importancia de la validación y su uso en el aprendizaje automático, así como las ventajas de la validación cruzada sobre la validación. El enfoque de la conferencia está en las máquinas de vectores de soporte (SVM) como el modelo de aprendizaje más efectivo para la clasificación, con un esquema detallado de la sección que involucra la maximización del margen, la formulación y las soluciones analíticas a través de la optimización restringida presentada. La conferencia cubre una variedad de tecnicismos, que incluyen cómo calcular la distancia entre un punto y un hiperplano en SVM, cómo resolver el problema de optimización para SVM y cómo formular el problema de optimización de SVM en su formulación dual. El disertante también discute los aspectos prácticos del uso de la programación cuadrática para resolver el problema de optimización y la importancia de identificar los vectores de soporte. La conferencia concluye con una breve discusión sobre el uso de transformaciones no lineales en SVM.
En la segunda parte de esta lección sobre máquinas de vectores de soporte (SVM), el disertante explica cómo el número de vectores de soporte dividido por el número de ejemplos da un límite superior en la probabilidad de error al clasificar un punto fuera de la muestra, haciendo que el uso de vectores de soporte con transformación no lineal factible. El profesor también analiza la normalización de w transpuesto x más b para ser 1 y su necesidad de optimización, así como la versión de margen suave de SVM, que permite errores y los penaliza. Además, se explica la relación entre el número de vectores de soporte y la dimensión VC, y se menciona la resistencia al ruido del método, siendo utilizada la versión blanda del método en casos de datos ruidosos.
Clase 15 - Métodos Kernel
Curso de aprendizaje automático de Caltech - CS 156. Clase 15 - Métodos del kernel
Esta lección sobre los métodos del núcleo presenta las máquinas de vectores de soporte (SVM) como un modelo lineal que se basa más en el rendimiento que los modelos de regresión lineal tradicionales debido al concepto de maximizar el margen. Si los datos no son linealmente separables, se pueden usar transformaciones no lineales para crear superficies onduladas que aún permiten hipótesis complejas sin pagar un alto precio en complejidad. El video explica los métodos del núcleo que van al espacio Z de alta dimensión y explica cómo calcular el producto interno sin calcular los vectores individuales. El video también describe los diferentes enfoques para obtener un kernel válido para problemas de clasificación y explica cómo aplicar SVM a datos no separables. Finalmente, el video explica el concepto de holgura y cuantifica la violación de margen en SVM, introduciendo una variable xi para penalizar la violación de margen y revisando la formulación de Lagrange para resolver alfa.
La segunda parte cubre aspectos prácticos del uso de máquinas de vectores de soporte (SVM) y métodos kernel. Explica el concepto de máquinas de vector de soporte de margen suave y cómo permiten cierta clasificación errónea mientras mantienen un margen amplio. Habla sobre la importancia del parámetro C, que determina cuánta violación puede ocurrir, y sugiere usar la validación cruzada para determinar su valor. También aborda las preocupaciones sobre la coordenada constante en los datos transformados y asegura a los usuarios que desempeña el mismo papel que el término de sesgo. Además, analiza la posibilidad de combinar núcleos para producir nuevos núcleos y sugiere métodos heurísticos que se pueden usar cuando la programación cuadrática falla al resolver SVM con demasiados puntos de datos.