Está perdiendo oportunidades comerciales:
- Aplicaciones de trading gratuitas
- 8 000+ señales para copiar
- Noticias económicas para analizar los mercados financieros
Registro
Entrada
Usted acepta la política del sitio web y las condiciones de uso
Si no tiene cuenta de usuario, regístrese
CS480/680 Clase 6: Modelo de compresión para PNL (Ashutosh Adhikari)
CS480/680 Clase 6: Modelo de compresión para PNL (Ashutosh Adhikari)
En este video, el presentador analiza el concepto de compresión de modelos para NLP y los desafíos del tiempo de procesamiento y los requisitos de memoria a medida que aumenta el número y la profundidad de las redes neuronales profundas. Las técnicas de compresión de modelos se clasifican y se presenta el método más antiguo, la poda y el uso compartido de parámetros. El orador profundiza en el concepto de un sistema estudiante-maestro para la compresión de modelos en PNL y cómo se usa la función objetivo para comprimir un modelo más grande en un modelo de estudiante más pequeño manteniendo la precisión. Finalmente, se destaca la importancia potencial de comprimir modelos en el contexto del trabajo reciente sobre el desarrollo de modelos NLP a gran escala.
CS480/680 Clase 7: Mezcla de gaussianas
CS480/680 Clase 7: Mezcla de gaussianas
En esta conferencia sobre mezcla de gaussianas, el disertante explica cómo se puede usar el modelo para la clasificación mediante la construcción de una distribución previa para cada clase, lo que permite la construcción de un modelo probabilístico utilizando el teorema de Bayes para estimar la probabilidad de una clase para un dado. punto de datos. La lección también cubre el proceso de cálculo de la probabilidad de que un punto de datos pertenezca a una determinada clase y cómo se utiliza para determinar la predicción de la clase. Las notas de clase exploran la relación entre la función softmax y la distribución arc max y cómo la matriz de covarianza determina la forma y los límites de la Gaussiana. Finalmente, la lección detalla el proceso de aprendizaje de máxima verosimilitud y cómo se puede utilizar para estimar la media y la matriz de covarianza para una mezcla de modelo de Gaussianas.
CS480/680 Clase 8: Regresión logística y modelos lineales generalizados
CS480/680 Clase 8: Regresión logística y modelos lineales generalizados
Esta primera parte de la lección sobre "CS480/680: Regresión logística y modelos lineales generalizados" introduce la idea de la familia exponencial de distribuciones y su relación con la regresión logística, una poderosa técnica utilizada para problemas de clasificación. La lección explica que la regresión logística tiene como objetivo ajustar la mejor función logística que modela el posterior para un conjunto de datos dado, y para problemas con algunas dimensiones y pesos, el método de Newton se puede usar para encontrar el mínimo de la función objetivo, que es una función convexa. función. El instructor también destaca la importancia de la regresión logística en los sistemas de recomendación y ubicación de anuncios, donde la simplicidad y eficiencia de la técnica la hacen ideal para hacer recomendaciones personalizadas basadas en las características y comportamientos de los usuarios.
La conferencia también cubre el tema de la regresión logística y los modelos lineales generalizados. El instructor analiza las limitaciones del método de Newton para la regresión logística, como el problema del sobreajuste causado por pesos grandes arbitrarios y problemas de singularidad en la matriz hessiana. Para evitar el sobreajuste, se sugiere la regularización. El instructor presenta modelos lineales generalizados (GLM) que se pueden usar para trabajar con separadores no lineales de manera eficiente. Los GLM implican mapear las entradas a un nuevo espacio donde la regresión lineal y la clasificación se pueden realizar de forma no lineal siempre que el mapeo no sea lineal. La lección también cubre funciones básicas y sus tipos que se pueden usar para realizar regresión y clasificación no lineal.
CS480/680 Clase 9: Perceptrones y redes neuronales de una sola capa
CS480/680 Clase 9: Perceptrones y redes neuronales de una sola capa
Esta lección presenta las redes neuronales con un enfoque en el tipo elemental, el perceptrón, que produce un separador lineal para la clasificación. La lección explora cómo se usan los pesos para calcular una combinación lineal de entradas que pasan a través de una función de activación para producir salidas, y cómo se pueden usar diferentes pesos para aproximar puertas lógicas como las puertas AND, OR y NOT. El disertante analiza la red neuronal feedforward y cómo se usa el algoritmo de aprendizaje del perceptrón para la clasificación binaria y cómo el descenso de gradiente puede optimizar los pesos. Se analizan las limitaciones del uso de una línea para separar datos y se presenta la función de activación sigmoidea logística como una posible solución, centrándose en cómo se pueden entrenar los pesos mediante la función de activación sigmoidea logística.
Esta lección sobre perceptrones y redes neuronales de una sola capa cubre el uso de funciones logísticas de activación sigmoidea para minimizar el error cuadrático y la introducción de la tasa de aprendizaje como un parámetro crucial en el descenso de gradiente secuencial. El disertante también demuestra cómo se pueden componer redes neuronales con múltiples capas para aproximar cualquier función arbitrariamente utilizando funciones de retención de basura, y cómo se puede usar la retropropagación para entrenar una red para aprender funciones arbitrarias. El instructor enfatiza la versatilidad y eficiencia de las redes neuronales, citando su uso generalizado para resolver varios problemas, como el reconocimiento de voz, la visión por computadora, la traducción automática y la incrustación de palabras.
CS480/680 Clase 10: Redes neuronales multicapa y retropropagación
CS480/680 Clase 10: Redes neuronales multicapa y retropropagación
Esta lección sobre redes neuronales multicapa y retropropagación explica las limitaciones de los modelos lineales y la necesidad de modelos no lineales como las redes neuronales multicapa. El disertante analiza las diferentes funciones de activación que se pueden utilizar en las redes neuronales y cómo permiten funciones de base no lineales. La lección continúa explicando cómo se usa el algoritmo de retropropagación para calcular el gradiente del error con respecto a cada peso en una red neuronal. Las herramientas de diferenciación automática también se analizan como una forma de calcular de manera eficiente los deltas y gradientes en una red neuronal. En general, la conferencia enfatiza la flexibilidad y el poder de las redes neuronales para aproximarse a una amplia gama de funciones.
El disertante en este video analiza problemas relacionados con la optimización de redes neuronales, como la convergencia lenta, la optimización local, la optimización no convexa y el sobreajuste. Para superar la convergencia lenta, se pueden utilizar técnicas como la regularización y el abandono. Además, el ponente explica el comportamiento del descenso de gradiente para la optimización, destacando la necesidad de optimizar el tamaño del paso para mejorar su eficiencia. Se propone como solución el algoritmo DES grant, que ajusta la tasa de aprendizaje de cada dimensión por separado. El orador también presenta RMSProp, un promedio móvil ponderado de gradientes anteriores. Finalmente, el orador habla sobre Adam, que implica tomar un promedio móvil ponderado del gradiente en sí mismo, y muestra que supera a otras técnicas como SGD Nesterov.
CS480/680 Clase 11: Métodos del kernel
CS480/680 Clase 11: Métodos del núcleo
En esta lección, se presenta el concepto de métodos kernel como una forma de escalar modelos lineales generalizados mediante el mapeo de datos de un espacio a un nuevo espacio usando una función no lineal. El truco dual o truco del núcleo se explica como una técnica que permite trabajar en espacios de alta dimensión sin pagar costos adicionales, lo que lleva al uso de una función del núcleo que calcula el producto escalar de pares de puntos en el nuevo espacio. Se analizan varios métodos para construir núcleos, incluidos los núcleos polinómicos y gaussianos, que se pueden usar para medir la similitud entre puntos de datos y son útiles en tareas de clasificación. También se introducen reglas para componer núcleos para construir nuevos núcleos que puedan controlar su complejidad. La conferencia enfatiza la importancia de elegir funciones que tengan una correspondencia con Phi transpuesta Phi, ya que la matriz de Gram debe ser semidefinida positiva y tener valores propios mayores o iguales a cero.
En esta lección sobre métodos kernel, el disertante define kernels como funciones semidefinidas positivas que se pueden descomponer en una matriz multiplicada por su transposición. Se analizan varios tipos de núcleos, como polinómicos y gaussianos, y sus aplicaciones para comparar diferentes tipos de datos, como cadenas, conjuntos y gráficos. El orador también explica cómo los kernels de subcadenas pueden calcular rápidamente la similitud entre palabras al aumentar la longitud de las subcadenas y usar programación dinámica. Además, se ha demostrado que las máquinas de vectores de soporte son eficaces para realizar la clasificación de documentos utilizando artículos de noticias de Reuters.
CS480/680 Clase 13: Máquinas de vectores de soporte
CS480/680 Clase 13: Máquinas de vectores de soporte
Esta lección es una introducción a las máquinas de vectores de soporte (SVM) como un tipo de método kernel utilizado para la clasificación. Las SVM siguen siendo populares para problemas con datos bajos y se consideran escasas, ya que pueden trabajar con un subconjunto de los datos e ignorar el resto. El orador explica el concepto de vectores de soporte, que son los puntos de datos más cercanos al límite de decisión y el ejemplo visual de las SVM que encuentran un separador lineal para separar clases mientras maximizan el margen. Se analizan las diferencias entre las SVM y los perceptrones, ya que las SVM emplean un separador lineal de margen máximo único y son menos propensas al sobreajuste. El problema de optimización para SVM se puede reescribir utilizando el Lagrangiano, lo que da como resultado un problema equivalente sin restricciones. La solución obtenida del Lagrangiano se puede sustituir para obtener una expresión que involucre la función kernel, lo que lleva a una optimización del problema dual. También se explican los beneficios de trabajar en el espacio dual con una función kernel que calcula la similitud entre pares de puntos de datos. Las SVM calculan el grado de similitud entre un punto de consulta y todos los vectores de soporte para determinar los más similares, y la discusión también gira en torno a la cantidad de vectores de soporte y cómo afecta la clasificación de los puntos.
Este video analiza el concepto de máquinas de vectores de soporte (SVM) en la categorización de texto, donde los documentos se representan como vectores de conteo de palabras. Los SVM son efectivos para minimizar la pérdida en el peor de los casos, lo que hace que el clasificador sea adecuado para cualquier muestra posible, incluso para diferentes conjuntos de datos. Los investigadores utilizaron SVM con representación dual y mapeo de kernel para mapear datos en un espacio dimensional aún mayor, sin perder precisión ni sacrificar la escalabilidad. La conferencia también cubre el uso de SVM para recuperar documentos relevantes de un conjunto de datos y equilibrar la precisión y la recuperación. El video concluye con una discusión sobre la capacidad de las SVM para proporcionar separadores lineales o no lineales de datos y los desafíos asociados con la clasificación de clases múltiples y los datos separables no lineales.
CS480/680 Clase 14: Máquinas de vectores de soporte (continuación)
CS480/680 Clase 14: Máquinas de vectores de soporte (continuación)
Esta sección de la lección se enfoca en el manejo de datos separables no lineales y clases superpuestas cuando se usan máquinas de vectores de soporte (SVM) mediante la introducción de variables de holgura y la consideración de un margen suave. El ponente explica cómo las variables de holgura permiten clasificar los puntos dentro del margen sin introducir un error de clasificación. Se agrega un término de penalización al problema de optimización para regular el uso de variables de holgura, controladas por el peso C, que ajusta el compromiso entre la minimización de errores y la complejidad del modelo. El orador también analiza diferentes enfoques para usar SVM para problemas de clasificación de clases múltiples, que incluyen uno contra todos, comparación por pares y clasificación continua, siendo este último el enfoque de facto para SVM con clases múltiples. Además, se introduce el concepto de margen multiclase, que implica un búfer alrededor del separador lineal, definido por la diferencia de vectores de peso para cada par de clases.
CS480/680 Clase 15: Redes neuronales profundas
CS480/680 Clase 15: Redes neuronales profundas
Este video cubre los conceptos básicos del aprendizaje profundo, incluidos los conceptos de redes neuronales profundas, el problema del gradiente de fuga y la evolución de las redes neuronales profundas en tareas de reconocimiento de imágenes. El disertante explica cómo se pueden usar las redes neuronales profundas para representar funciones de manera más sucinta y cómo calculan características que se vuelven cada vez más de alto nivel a medida que la red se vuelve más profunda. Se abordan las soluciones al problema del gradiente de fuga, incluido el uso de unidades lineales rectificadas (ReLU) y la normalización por lotes. La conferencia también cubre las unidades de máximo rendimiento y sus ventajas como una generalización de ReLU que permite múltiples partes lineales.
La conferencia sobre redes neuronales profundas analiza dos problemas que requieren resolución para un aprendizaje profundo efectivo: el problema del sobreajuste debido a la expresividad de la red de múltiples capas y el requisito de una alta potencia computacional para entrenar redes complejas. El disertante propone soluciones como la regularización y la deserción durante el entrenamiento, así como el cómputo paralelo durante el cómputo. La lección también detalla cómo se puede usar el abandono durante las pruebas al escalar las magnitudes de las unidades ocultas y de entrada. Por último, la conferencia concluye presentando algunas aplicaciones innovadoras de redes neuronales profundas en reconocimiento de voz, reconocimiento de imágenes y traducción automática.
CS480/680 Lecture 16: Convolutional neural networks
CS480/680 Lecture 16: Convolutional neural networks
This video introduces convolutional neural networks (CNNs) and explains their importance in image processing as a specific type of neural network with key properties. The lecturer discusses how convolution can be used for image processing, such as in edge detection, and how CNNs can detect features in a similar way. The concept of convolutional layers and their parameters is explained, along with the process of training CNNs using backpropagation and gradient descent with shared weights. The lecturer also provides design principles for creating effective CNN architectures, such as using smaller filters and nonlinear activation after every convolution.
In this lecture on Convolutional Neural Networks (CNNs), the speaker discusses the concept of residual connections as a solution to the vanishing gradient problem faced by deep neural networks. These skip connections allow for shortening of network paths and ignoring of useless layers while still being able to use them if needed to avoid producing outputs close to zero. The use of batch normalization techniques is also introduced to mitigate the problem of vanishing gradients. Furthermore, the speaker notes that CNNs can be applied to sequential data and tensors with more than two dimensions, such as in video sequences, and that 3D CNNs are also a possibility for certain applications. The TensorFlow framework is highlighted as being designed for computation with multi-dimensional arrays.