Está perdiendo oportunidades comerciales:
- Aplicaciones de trading gratuitas
- 8 000+ señales para copiar
- Noticias económicas para analizar los mercados financieros
Registro
Entrada
Usted acepta la política del sitio web y las condiciones de uso
Si no tiene cuenta de usuario, regístrese
CS 198-126: Clase 13 - Introducción al modelado de secuencias
CS 198-126: Clase 13 - Introducción al modelado de secuencias
En esta lección sobre modelado de secuencias, el orador presenta la importancia de representar datos de secuencias y lograr una cantidad razonable de pasos de tiempo sin perder demasiada información. Las redes neuronales recurrentes (RNN) se analizan como un primer intento de resolver estos desafíos, que tienen la capacidad de manejar diferentes longitudes de entradas y salidas. Sin embargo, los problemas con los RNN les impiden funcionar de manera óptima. La incrustación de texto se presenta como una forma más eficiente de representar datos de texto, en lugar de utilizar un vector caliente de alta dimensión. Además, el concepto de codificación posicional se analiza como una forma de representar el orden de los elementos en una secuencia utilizando valores continuos, en lugar de binarios.
CS 198-126: Clase 14 - Transformadores y Atención
CS 198-126: Clase 14 - Transformadores y Atención
Esta videolección sobre Transformers y Atención cubre el concepto y la motivación detrás de la atención, su relación con Transformers y su aplicación en PNL y visión. El disertante analiza la atención suave y dura, la autoatención, la atención local y la atención de múltiples cabezas, y cómo se utilizan en la arquitectura de Transformer. También explican el sistema de consulta de clave-valor, la importancia de las conexiones residuales y la normalización de capas, y el proceso de aplicar una capa lineal para obtener kqv de incrustaciones de entrada. Por último, la conferencia cubre el uso de incrustaciones de posición y el token CLS en ejemplos de secuencia a vector al tiempo que destaca la eficiencia computacional y la escalabilidad del mecanismo de atención.
CS 198-126: Clase 15 - Transformadores de visión
CS 198-126: Clase 15 - Transformadores de visión
En esta conferencia, el orador analiza el uso de Vision Transformers (ViTs) para tareas de procesamiento de imágenes. La arquitectura ViT implica reducir la resolución de imágenes en parches discretos, que luego se proyectan en incrustaciones de entrada utilizando una salida de capa lineal antes de pasar a través de un transformador. El modelo se entrena previamente en un gran conjunto de datos etiquetados antes de ajustar el conjunto de datos real, lo que da como resultado un rendimiento excelente con menos cómputo que los métodos de vanguardia anteriores. Se analizan las diferencias entre las ViT y las redes neuronales convolucionales (CNN), ya que las ViT tienen un campo receptivo global y más flexibilidad que las CNN. También se destaca el uso del aprendizaje autosupervisado y no supervisado con Transformers para tareas de visión.
CS 198-126: Clase 16 - Detección avanzada de objetos y segmentación semántica
CS 198-126: Clase 16 - Detección avanzada de objetos y segmentación semántica
En esta lección de detección avanzada de objetos y segmentación semántica, el disertante analiza las ventajas y desventajas de las redes neuronales convolucionales (CNN) y los transformadores, particularmente en el procesamiento del lenguaje natural (NLP) y la visión por computadora. Mientras que las CNN sobresalen en el sesgo textural, los Transformers manejan las tareas de NLP y de visión por computadora de manera eficiente mediante el uso de capas de autoatención para vincular conceptos importantes y enfocarse en entradas específicas. Luego, la conferencia profundiza en Vision Transformers, que priorizan la forma sobre la textura, haciéndolos resistentes a la distorsión. Explica además las ventajas y limitaciones del Swin Transformer, una versión mejorada del Vision Transformer, que se destaca en la clasificación de imágenes, la segmentación semántica y la detección de objetos. La conferencia enfatiza la importancia de la generalización en modelos que pueden manejar cualquier tipo de datos y las aplicaciones potenciales en campos como los autos sin conductor.
CS 198-126: Clase 17 - Encuesta de visión 3-D, Parte 1
CS 198-126: Clase 17 - Encuesta de visión 3-D, Parte 1
El video analiza diferentes representaciones visuales en 3D y sus ventajas y desventajas, incluidas nubes de puntos, mallas, vóxeles y campos de radiación. La conferencia también cubre el raycasting, hacia adelante y hacia atrás, así como la coloración y renderización de imágenes para objetos que se cruzan entre sí, con diferentes enfoques para sólidos y transparencias. El disertante aborda las limitaciones de la representación diferenciable y cómo Radiance Fields puede crear una función para cada punto XYZ con una densidad y color físico, haciéndolo más fácil de aprender.
CS 198-126: Clase 18 - Encuesta de visión tridimensional, Parte 2
CS 198-126: Clase 18 - Encuesta de visión tridimensional, Parte 2
En esta lección sobre visión 3D, el instructor analiza los campos de radiación, específicamente los campos de radiación neuronal (Neural Radiance Fields, NeRF), que toman una posición en el espacio y emiten color y densidad. El orador explica el proceso de renderizado, que implica consultar desde la perspectiva de la cámara y usar la función de caja negra para averiguar cómo se verá la imagen. Las conferencias discuten los desafíos en la representación de perspectivas consistentes de objetos en visión 3D y el uso de MLP para tomar los datos XYZ de un objeto y ver la dirección para generar densidad e información RGB. La conferencia también cubre los desafíos de la representación volumétrica y el uso de derivados de Nerf para mejorar la visión por computadora. El instructor termina demostrando el uso de la contracción espacial para generar imágenes 3D realistas utilizando una red neuronal.
CS 198-126: Clase 19 - Preentrenamiento de visión avanzada
CS 198-126: Clase 19 - Preentrenamiento de visión avanzada
Este video cubre varias técnicas utilizadas para el entrenamiento previo autosupervisado en visión avanzada, incluido el aprendizaje contrastivo, los codificadores automáticos de eliminación de ruido, los codificadores de contexto y la red Mae. El orador brinda una descripción general de cada método, analiza sus fortalezas y debilidades, y destaca los beneficios de combinar pérdidas contrastivas y de reconstrucción en el método BYOL, que supera a ambos individualmente. El video proporciona información útil sobre las últimas tendencias de investigación en aprendizaje autosupervisado y su potencial para mejorar el rendimiento de los modelos de visión artificial.
CS 198-126: Clase 20 - Estilización de imágenes
CS 198-126: Clase 20 - Estilización de imágenes
El video analiza varias técnicas para la estilización de imágenes, incluida la transferencia de estilo neuronal, GAN y Pix2Pix, que requieren datos emparejados, y CycleGAN, que usa datos no emparejados para la traducción de imagen a imagen. StarGAN puede abordar las limitaciones de CycleGAN, que puede tomar información de múltiples dominios para entrenar generadores para tareas de transición de imágenes de múltiples dominios. El orador también analiza la traducción multimodal no supervisada de imagen a imagen utilizando información de dominio y códigos latentes de baja dimensión para producir diversos resultados, ejemplificados por el modelo BicycleGAN. Por último, se mencionan los beneficios potenciales de usar Vision Transformers con GAN para tareas de traducción de imágenes, y la conferencia concluye con ejemplos divertidos de imágenes y una oportunidad para preguntas y debates.
CS 198-126: Clase 21 - Audio generativo
CS 198-126: Clase 21 - Audio generativo
En esta conferencia sobre audio generativo, el presentador cubre varios temas, como la cuantificación, el aliasing, el procesamiento de señales, las proyecciones, el aprendizaje profundo y los transformadores. El disertante analiza cómo muestrear y cuantificar señales continuas y el equilibrio entre la precisión de las profundidades de bits y la potencia de cálculo. También se explica el teorema de muestreo de Shannon-Nequist y sus efectos en la reconstrucción de señales y la importancia de las proyecciones y su uso para la reconstrucción de señales. Se explora el aprendizaje profundo para la reconstrucción de audio, y el presentador presenta el audio generativo y cómo puede reconstruir música a partir de grabaciones perdidas o dañadas. Se analiza el uso de Transformers para la generación de audio y se explica el proceso de representar la música como una serie de fichas. El orador también enfatiza la importancia de tener un conjunto de datos grande y variado y analiza el funcionamiento del modelo de transformador para las predicciones musicales. La conferencia concluye con una demostración de la música generada, que muestra la capacidad del modelo para predecir notas futuras con precisión.
CS 198-126: Clase 22 - Aprendizaje multimodal
CS 198-126: Clase 22 - Aprendizaje multimodal
El aprendizaje multimodal implica representar objetos de diferentes maneras, como a través de texto, imágenes, videos o audio, sin dejar de reconocer que son el mismo objeto. Las conferencias explican la importancia del aprendizaje multimodal para capturar diversos conjuntos de datos y resolver el problema del cambio de distribución. El video se enfoca en CLIP, un método de preentrenamiento de imágenes de lenguaje contrastivo, que utiliza codificadores de texto e imágenes para crear incrustaciones para pares de imágenes y subtítulos similares. Las incrustaciones se pueden usar para clasificación, robótica, generación de texto a imagen y visión 3D. El ponente destaca que la universalidad de las latentes CLIP muestra la importancia del aprendizaje de representación y su utilidad en el aprendizaje automático. El método CLIP ha llevado a la evolución del campo del aprendizaje multimodal.