Redes Neurais em IA e Deep Learning - página 34

 

CS 198-126: Clase 13 - Introducción al modelado de secuencias



CS 198-126: Clase 13 - Introducción al modelado de secuencias

En esta lección sobre modelado de secuencias, el orador presenta la importancia de representar datos de secuencias y lograr una cantidad razonable de pasos de tiempo sin perder demasiada información. Las redes neuronales recurrentes (RNN) se analizan como un primer intento de resolver estos desafíos, que tienen la capacidad de manejar diferentes longitudes de entradas y salidas. Sin embargo, los problemas con los RNN les impiden funcionar de manera óptima. La incrustación de texto se presenta como una forma más eficiente de representar datos de texto, en lugar de utilizar un vector caliente de alta dimensión. Además, el concepto de codificación posicional se analiza como una forma de representar el orden de los elementos en una secuencia utilizando valores continuos, en lugar de binarios.

  • 00:00:00 En esta sección, el orador presenta modelos de secuencia y explica la motivación detrás de por qué son importantes. En particular, mencionan varios tipos de datos de secuencia, como datos de series temporales, audio y texto, y cómo se usan comúnmente en la visión artificial y los modelos de procesamiento de lenguaje natural. El orador también analiza la importancia de representar datos de secuencias y lograr un número razonable de pasos de tiempo sin perder demasiada información. En última instancia, el objetivo es crear modelos de lenguaje que puedan entrenarse con cantidades masivas de datos de texto extraídos de Internet, que se representa como una secuencia tokenizada de vectores one-hot.

  • 00:05:00 En esta sección, el instructor analiza los desafíos de representar datos de texto como vectores únicos y la ineficiencia de tener uno para cada palabra en un diccionario. El objetivo del modelado de secuencias es manejar datos arbitrariamente largos y longitudes variables de entradas y salidas. El instructor proporciona ejemplos de diferentes paradigmas, incluido el análisis de sentimientos y la traducción, que necesitan manejar longitudes variables de resultados. Además, las relaciones de larga distancia entre las palabras de una oración deben tenerse en cuenta al analizar datos de texto.

  • 00:10:00 En esta sección, el video analiza los desafíos del modelado de secuencias, que requieren conectar ideas de varias partes de una oración y manejar relaciones de larga distancia entre secuencias. Las redes neuronales recurrentes (RNN) se presentan como un primer intento de resolver estos desafíos, y funcionan, pero no particularmente bien debido a problemas que les impiden funcionar de manera óptima. El video explica que los RNN usan un valor de celda compartido en cada elemento de secuencia, y cada celda tiene exactamente los mismos pesos que procesan la secuencia de entrada. Además, la salida generada por RNN se puede interpretar como cualquier cosa, desde una probabilidad hasta una traducción.

  • 00:15:00 En esta sección, aprendemos sobre la forma básica de una red neuronal recurrente (RNN) donde tomamos un elemento de secuencia de la misma longitud, hacemos una capa lineal sobre él, tomamos la salida del paso de tiempo anterior y la entrada en este paso de tiempo para hacer una multiplicación de matrices. Luego, los apilamos uno encima del otro o los agregamos para obtener la salida. La función tahn se usa para asegurarse de que las salidas estén dentro del rango y para evitar que los valores exploten o se vuelvan demasiado pequeños durante la propagación hacia adelante o hacia atrás. Al apilar varias capas, podemos comenzar a aprender funciones más complejas.

  • 00:20:00 En esta sección de la lección, el instructor analiza los desafíos y las soluciones de crear un modelo de secuencia. Mediante el uso de una función tanh en la salida de cada celda, los valores se mantienen entre -1 y 1, lo que evita valores grandes que pueden causar problemas durante las multiplicaciones repetidas de matrices. El modelo puede manejar tamaños de entrada arbitrarios, longitudes de salida variables y relaciones de larga distancia. Luego, el instructor presenta las incrustaciones como una forma más eficiente de representar datos de texto, en lugar de usar un vector caliente de 100 000 dimensiones. Se exploran ideas como la codificación binaria y trinaria como una posible solución.

  • 00:25:00 En esta sección, el orador presenta el concepto de incrustación de texto y cómo se puede utilizar en el modelado de secuencias. En lugar de utilizar vectores one-hot para cada palabra del diccionario, se aprende un vector más pequeño que representa la palabra y se introduce en el modelo. Esta compresión de la representación permite una reducción de la dimensionalidad y crea un vector incrustado que se asemeja a un libro de códigos. La esperanza es que estas incrustaciones permitan una representación inteligente de las palabras, con palabras similares como "gato" y "perro" relativamente cerca, mientras que palabras con poca correlación como "gato" y "hierba" están más separadas. Aunque no hay garantía de que exista esta relación de proximidad, se puede utilizar para facilitar la comprensión de cómo el análisis de sentimientos y otros modelos se ven afectados por la elección de palabras específicas.

  • 00:30:00 En esta sección, el disertante analiza el uso del gradiente descendente en un libro de códigos de vectores incrustados para agrupar palabras semánticamente similares. También menciona el concepto de codificación posicional, donde el tiempo transcurrido o la posición en una secuencia pueden ser importantes para ciertos dominios, y analiza algunos métodos para representar un vector caliente para la posición antes de pasar a lo que funciona bien, conocido como codificación posicional.

  • 00:35:00 En esta sección de la lección, el instructor analiza la idea de usar una marca de tiempo en el modelado de secuencias para indicar qué tan avanzados estamos en la secuencia. Sin embargo, el uso de una codificación binaria como marca de tiempo puede verse limitado para longitudes de secuencia más grandes, ya que solo puede representar un número limitado de pasos de tiempo únicos. Para abordar este problema, el instructor sugiere usar un análogo continuo reemplazando la codificación binaria con ondas seno y coseno de diferentes frecuencias. De esta manera, aún podemos usar un vector más pequeño para representar una mayor cantidad de pasos de tiempo únicos.

  • 00:40:00 En esta sección, se analiza el concepto de codificación posicional, que es una forma de representar el orden de los elementos en una secuencia utilizando valores continuos en lugar de valores binarios. El proceso implica evaluar funciones de seno y coseno a diferentes frecuencias para cada elemento de secuencia y luego graficarlas para crear un análogo continuo de codificación posicional binaria. El gráfico resultante alterna entre valores altos y bajos, similar a la versión binaria, y se puede agregar a cada elemento de la secuencia. La codificación posicional puede ser un poco confusa, pero la conferencia sugiere revisar las diapositivas y experimentar con el concepto para una mejor comprensión.
 

CS 198-126: Clase 14 - Transformadores y Atención



CS 198-126: Clase 14 - Transformadores y Atención

Esta videolección sobre Transformers y Atención cubre el concepto y la motivación detrás de la atención, su relación con Transformers y su aplicación en PNL y visión. El disertante analiza la atención suave y dura, la autoatención, la atención local y la atención de múltiples cabezas, y cómo se utilizan en la arquitectura de Transformer. También explican el sistema de consulta de clave-valor, la importancia de las conexiones residuales y la normalización de capas, y el proceso de aplicar una capa lineal para obtener kqv de incrustaciones de entrada. Por último, la conferencia cubre el uso de incrustaciones de posición y el token CLS en ejemplos de secuencia a vector al tiempo que destaca la eficiencia computacional y la escalabilidad del mecanismo de atención.

  • 00:00:00 En esta sección de la video conferencia, el objetivo es explicar la motivación detrás de la atención y cómo se relaciona con los modelos de Transformer. La atención es la piedra angular de los Vision Transformers modernos y es necesaria para centrar los esfuerzos y la atención en un lugar determinado. El disertante explica que la atención utiliza un sistema de valor clave de consulta para tomar decisiones más informadas sobre a qué cosas prestar atención. El sistema de atención moderno se basa en cómo leen los humanos, donde se enfocan en palabras secuenciales específicas y borran todo lo demás.

  • 00:05:00 En esta sección, el disertante analiza el concepto de atención en los modelos de aprendizaje automático, específicamente en el contexto de NLP y RNN. La atención permite que los modelos se centren en las partes importantes de una entrada, haciendo inferencias utilizando un subconjunto específico de datos en lugar de considerar todo como un todo. Hay dos tipos de atención: atención dura, que predice qué índices son relevantes en un determinado paso de tiempo, y atención suave, que crea un conjunto de pesos suaves con la función softmax para crear una distribución de probabilidad basada en los tokens de entrada que indican su importancia. Generalmente se utiliza la atención suave y combina las representaciones de diferentes características. La conferencia también analiza el proceso de traducción del francés al inglés como un ejemplo del uso de la atención.

  • 00:10:00 En esta sección, el orador explica el proceso de codificación de cada palabra y la creación de una representación latente de las palabras utilizando una red codificadora-descodificadora tradicional que implica el procesamiento secuencial de las entradas y un vector de contexto para la decodificación. Luego introducen el concepto de atención blanda, que utiliza un vector de contexto que toma información de cada representación latente para decodificar en función de la información previamente decodificada. El proceso implica la creación de una función de puntuación para determinar las similitudes entre la decodificación y la codificación anteriores, y el uso de diferentes métricas para llegar a una importancia relativa, proporcionando una representación probabilística de la relación de una consulta con un conjunto de claves.

  • 00:15:00 En esta sección, el disertante explica el concepto de atención local, que permite que el modelo de atención consulte solo una determinada ventana de tokens de entrada, en lugar de todos ellos, para ahorrar recursos computacionales. La conferencia también profundiza en el uso de la atención para la visión, incluido el uso de redes de compresión y excitación para la atención por canales y la atención espacial para las imágenes. Además, la conferencia aborda brevemente el uso de la atención para generar oraciones que describen imágenes, como el uso de circunvoluciones para extraer características clave y redes de memoria a corto plazo para mantener conexiones entre palabras.

  • 00:20:00 En esta sección, el disertante analiza el uso de la atención en varias arquitecturas, incluida la espacial y la autoatención. La atención propia implica buscar tokens de la misma entrada mientras se presta atención a las relaciones entre las palabras en una oración, lo que permite una mejor predicción de la siguiente palabra en función de las palabras anteriores. El disertante también presenta el concepto de Transformers, que utilizan el sistema de atención de consulta de valor clave para esperar diferentes cantidades de similitud al seleccionar las características del kernel.

  • 00:25:00 En esta sección del video, el disertante introduce el concepto de autoatención y atención blanda, que se utilizan en el modelo Transformer. La idea es crear una distribución de probabilidad que se centre en ciertas características e ignore otras, para predecir ciertas relaciones. Luego, el disertante explica cómo se usan las matrices en lugar de la comparación uno a uno de consultas y claves en los modelos de Transformer. La conferencia también analiza las limitaciones de las RNN, como su incapacidad para paralelizar y capturar secuencias largas, y cómo la atención puede ayudar a resolver estos problemas.

  • 00:30:00 En esta sección de la conferencia, el presentador analiza la arquitectura de Transformer y cómo utiliza la atención propia para modelar secuencias o grupos de tokens. Las entradas incluyen una secuencia de incrustaciones de tokens e incrustaciones posicionales, y el objetivo es llegar a una representación que se pueda pasar al modelo de Transformador. La atención de múltiples cabezas se utiliza para calcular la importancia de cada token en función de la consulta y la clave, y el paso de avance se realiza en paralelo para resaltar los méritos del Transformador. La arquitectura combina conexiones residuales y normas de capas para aliviar los gradientes que se desvanecen y proporcionar una representación precisa. Finalmente, se agrega una capa lineal al final para calcular la salida en función de las señales, claves y valores de las diferentes representaciones.

  • 00:35:00 En esta sección, el orador explica el proceso de aplicar una capa lineal para obtener kqv de las incrustaciones de entrada para cada palabra en el texto. Esto implica el uso de diferentes ponderaciones para claves, consultas y valores unidos a través de la multiplicación de matrices. Después de esto, se encuentra un producto escalar entre las consultas y los valores y cada token atiende directamente a todos los demás tokens, lo que hace que las conexiones entre las entradas sean infinitamente escalables. Se aplica una distribución SoftMax basada en los valores del producto punto, y luego los valores se vuelven a ponderar en función de esta distribución para obtener un valor final token por token. Escalar la atención dividiendo por uno sobre la raíz cuadrada de D se usa para estandarizar las cosas y garantizar que no haya pequeños gradientes, y se emplea la atención de múltiples cabezas para proyectar cada clave, consulta y valor correspondiente a un token H veces. Por último, se utiliza el abandono para evitar el sobreajuste y se aplica una transformación a los vectores resultantes antes de enviarlos a una red neuronal feedforward.

  • 00:40:00 En esta sección del video, el disertante explica el mecanismo de atención en los transformadores y la importancia de agregar conexiones residuales para manejar gradientes que desaparecen en redes profundas. También analizan las diferencias entre la normalización por lotes y la normalización de capas, y la normalización de capas se usa en el mecanismo de atención para normalizar cada dimensión de entidad. El disertante también explica cómo la suma ponderada de los valores produce múltiples vectores que luego se pasan a través de una matriz ponderada para obtener un valor singular que pasa a la red de avance. En general, la conferencia brinda una explicación detallada del mecanismo de atención y sus diversos componentes en los transformadores.

  • 00:45:00 En esta sección de la conferencia sobre Transformadores y atención, el disertante explica la implementación de la arquitectura Transformador de la red neuronal, que consiste en operaciones de normas residuales y de capa, así como una convolución uno por uno. Cada perceptrón multicapa se paraleliza y las incrustaciones de posición de entrada se utilizan para centrarse en ventanas específicas en función de la información de posición. Un token ficticio también se usa en ciertas tareas de NLP para transformar una secuencia en una medida vectorial.

  • 00:50:00 En esta sección, la conferencia analiza ejemplos de secuencia a vector y el uso de tokens CLS. La conferencia explica las matemáticas detrás del mecanismo de atención, que implica la multiplicación de matrices entre las entradas de consulta, clave y valor. El resultado es una suma ponderada que representa la atención. Este método es computacionalmente eficiente, lo que lo hace adecuado para la paralelización en GPU y escalable incluso para grandes entradas. La conferencia concluye discutiendo la arquitectura del transformador, las incrustaciones de posición y la introducción de un sesgo inductivo que es diferente de los modelos secuenciales.
 

CS 198-126: Clase 15 - Transformadores de visión



CS 198-126: Clase 15 - Transformadores de visión

En esta conferencia, el orador analiza el uso de Vision Transformers (ViTs) para tareas de procesamiento de imágenes. La arquitectura ViT implica reducir la resolución de imágenes en parches discretos, que luego se proyectan en incrustaciones de entrada utilizando una salida de capa lineal antes de pasar a través de un transformador. El modelo se entrena previamente en un gran conjunto de datos etiquetados antes de ajustar el conjunto de datos real, lo que da como resultado un rendimiento excelente con menos cómputo que los métodos de vanguardia anteriores. Se analizan las diferencias entre las ViT y las redes neuronales convolucionales (CNN), ya que las ViT tienen un campo receptivo global y más flexibilidad que las CNN. También se destaca el uso del aprendizaje autosupervisado y no supervisado con Transformers para tareas de visión.

  • 00:00:00 En esta sección, el orador analiza el uso de Vision Transformers y cómo se pueden aplicar a las imágenes. Explican el concepto de tokens, incrustaciones y transformadores, brindando un ejemplo concreto de cómo se pueden usar para tareas de procesamiento de lenguaje natural. Luego explican cómo se puede aplicar la misma arquitectura a las tareas de visión por computadora preprocesando la imagen como una cadena de tokens y usando la escalabilidad, la eficiencia computacional y los campos receptivos globales de Transformer para procesarla de manera efectiva. El orador también aborda el preprocesamiento del texto a través de la tokenización y el mapeo de cada palabra en un vocabulario.

  • 00:05:00 En esta sección de la conferencia, el disertante analiza cómo convertir los métodos de tokenización e incrustación utilizados en el procesamiento del lenguaje natural (NLP) al procesamiento de imágenes. La tokenización implica convertir palabras o frases en un formato numérico, que se utiliza para generar vectores de incrustación. Sin embargo, este proceso no es sencillo para las imágenes, ya que los valores de color son continuos, lo que dificulta la creación de una tabla para buscarlos. Este desafío se puede abordar simulando que los valores son discretos, ya que esto permite tratar cada píxel como un token. Además, el problema de la complejidad del tiempo se aborda utilizando imágenes más pequeñas y entrenándolas de manera similar a los modelos de lenguaje.

  • 00:10:00 En esta sección, el orador analiza la medición del éxito del modelo Vision Transformer a través de una clasificación semisupervisada utilizando un conjunto limitado de muestras etiquetadas. El modelo se entrena previamente en muestras sin etiquetar y luego se pasa a través de un clasificador lineal con las representaciones de la imagen de salida como entrada. Las incrustaciones de salida deben ser lo suficientemente buenas para que el clasificador funcione bien. Esta técnica resultó en una precisión competitiva sin usar etiquetas, y también se usó para la generación de imágenes. Si bien el modelo es exitoso, requiere una cantidad significativa de cómputo y solo puede funcionar en imágenes de resolución 64 por 64. El atractivo del modelo Transformer es su escalabilidad en relación con la computación, pero se necesitarán medios de implementación más eficientes para las aplicaciones posteriores.

  • 00:15:00 En esta sección, el orador analiza la arquitectura de Vision Transformers, que es un enfoque más eficiente y general para la clasificación de imágenes. En lugar de cuantificar los píxeles, las imágenes se reducen en parches y luego se proyectan en incrustaciones de entrada directamente utilizando una salida de capa lineal. Las incorporaciones de posición y el token CLS se agregan en la parte superior del transformador. El entrenamiento previo se realiza en un gran conjunto de datos etiquetados antes de realizar un ajuste fino en el conjunto de datos real, lo que da como resultado un rendimiento excelente con mucho menos cómputo que el estado del arte anterior. El enfoque es más general porque tiene menos sesgos inductivos.

  • 00:20:00 En esta sección, se analizan las diferencias entre las redes neuronales convolucionales (CNN) y los transformadores de visión (ViT). Las dos diferencias principales entre las CNN y las ViT son la localidad y la estructura de vecindad bidimensional. Las CNN tienden a estar sesgadas hacia las funciones que se encuentran cerca unas de otras debido a las limitaciones en el tamaño del núcleo utilizado para las interacciones entre píxeles. Por otro lado, los ViT proyectan cada píxel en una incrustación y permiten que cada token atienda a todos los demás, independientemente de su posición en la imagen, lo que los hace menos sesgados hacia las características locales. Los ViT también tienen representaciones únicas para cada token e incrustaciones posicionales, que afectan las representaciones resultantes, haciéndolas más flexibles y capaces de interpolar durante el ajuste fino.

  • 00:25:00 En esta sección, aprendemos sobre algunas de las ventajas de Vision Transformers (ViT) sobre las redes neuronales convolucionales tradicionales (CNN). Los ViT pueden aprender mejores representaciones de imágenes con conjuntos de datos más grandes porque no tienen sesgos hacia el procesamiento de imágenes al principio, lo que significa que no asumen un modo de datos, a diferencia de los sesgos de ingeniería en las CNN. Esta es también la razón por la cual los ViT tienen una compensación con los datos, funcionan peor cuando hay menos datos y mejor con más datos. Además, las ViT tienen un campo receptivo global, lo que permite interacciones en toda la imagen, lo que no es posible con las CNN. Algunas características de ViT, como las incrustaciones de posición y las representaciones de atención, lo hacen más interpretable en algunos aspectos.

  • 00:30:00 En esta sección, se explican las diferencias entre las redes neuronales convolucionales (CNN) y los transformadores de visión. Las CNN utilizan una o dos capas convolucionales que limitan su capacidad para procesar información más allá de un área pequeña. Por lo tanto, las interacciones entre tokens en CNN ocurren solo al final. Por el contrario, los transformadores de visión utilizan un campo receptivo global en el que cada ficha interactúa con todas las demás fichas desde el principio, lo que les permite atender todo. Sin embargo, los transformadores de visión tienen desventajas, como que su salida es menos detallada debido al uso de parches, lo que genera problemas en la clasificación y segmentación de imágenes de grano fino. Se enfatiza el objetivo de tener modelos más generales, donde los modelos aprenden de los datos en lugar de ser diseñados a mano para dominios específicos, lo que permite una combinación de dominio más fácil.

  • 00:35:00 En esta sección, el orador analiza las ventajas de usar el aprendizaje autosupervisado y no supervisado con Transformers, particularmente en el contexto de las tareas de visión. Con acceso a grandes cantidades de datos sin etiquetar de Internet, los objetivos autosupervisados y no supervisados permiten un entrenamiento eficiente sin necesidad de anotaciones. El modelo resultante puede producir representaciones que conservan el diseño de la escena y la información de los límites de los objetos, y se puede utilizar para tareas de clasificación de imágenes y segmentación de videos. El orador también destaca el uso exitoso de Vision Transformers en varias tareas de clasificación de imágenes, demostrando su capacidad para escalar bien con grandes cantidades de datos.

  • 00:40:00 En esta sección, el disertante analiza cómo pasar de las arquitecturas iniciales de los modelos de Transformer a los primeros en la tabla de clasificación. Descubrieron que una mejor representación se escala con el tiempo de cómputo, el tamaño del modelo y el tamaño del conjunto de datos, y que los modelos grandes son más eficientes en las muestras, lo que significa que necesitan menos muestras de entrenamiento para obtener el mismo rendimiento. El disertante también habla de Vision Transformers y CNN, que son una arquitectura híbrida entre ambos. Agregan sesgos inductivos en Visual Transformers utilizando valores de ponderación que dependen de la posición relativa para abordar la equivalencia de traducción faltante en Transformers cuando no hay suficientes datos.

  • 00:45:00 En esta sección, el disertante analiza el uso de un vector de peso aprendido en los modelos de Transformer para imágenes. Este vector de peso aprendido permite una codificación más fácil de características que dependen solo del posicionamiento relativo en lugar del posicionamiento absoluto. Además, el disertante presenta soluciones al problema del tiempo cuadrático con respecto al tamaño espacial en Transformers, como la agrupación y combinación de bloques convolucionales con bloques de Transformer. El modelo Vision Transformer con sus esquemas de entrenamiento autosupervisados se considera el siguiente paso en la transición de funciones diseñadas a mano a modelos más generales, y requiere una gran cantidad de datos, como suelen hacer los Transformers. El modelo BTS es escalable y funciona bien en hardware informático. El profesor confirma que se trata de un algoritmo de aprendizaje supervisado.
 

CS 198-126: Clase 16 - Detección avanzada de objetos y segmentación semántica



CS 198-126: Clase 16 - Detección avanzada de objetos y segmentación semántica

En esta lección de detección avanzada de objetos y segmentación semántica, el disertante analiza las ventajas y desventajas de las redes neuronales convolucionales (CNN) y los transformadores, particularmente en el procesamiento del lenguaje natural (NLP) y la visión por computadora. Mientras que las CNN sobresalen en el sesgo textural, los Transformers manejan las tareas de NLP y de visión por computadora de manera eficiente mediante el uso de capas de autoatención para vincular conceptos importantes y enfocarse en entradas específicas. Luego, la conferencia profundiza en Vision Transformers, que priorizan la forma sobre la textura, haciéndolos resistentes a la distorsión. Explica además las ventajas y limitaciones del Swin Transformer, una versión mejorada del Vision Transformer, que se destaca en la clasificación de imágenes, la segmentación semántica y la detección de objetos. La conferencia enfatiza la importancia de la generalización en modelos que pueden manejar cualquier tipo de datos y las aplicaciones potenciales en campos como los autos sin conductor.

  • 00:00:00 En esta sección, el disertante describe el plan para la conferencia del día, que incluye una revisión de las CNN y los transformadores y sus ventajas y desventajas. La conferencia también cubrirá los contextos de NLP, como BERT, y cómo se generan las incrustaciones, luego pasará a Vision Transformers y compararlos con CNN. Se analizará el transformador oscilante, una mejora de los transformadores de visión para aplicaciones de visión por computadora, incluida la fusión de parches de atención de ventana y la atención de ventana desplazada con incrustaciones posicionales. La conferencia también puede cubrir métodos avanzados de segmentación, si el tiempo lo permite.

  • 00:05:00 En esta sección de la conferencia, el orador analiza el concepto de las CNN y su equivalencia de traducción, lo que significa que se adhieren a una estructura de vecindario bidimensional y capturan información en diferentes puntos según la distancia de paso. El orador también señala que los cnns han mostrado una propensión al sesgo de textura sobre la forma y que el aumento de textura puede afectar su desempeño. Luego, el orador pasa al contexto de Transformers para tareas de PNL y cómo la atención nos permite unir cosas importantes en una oración y enfocarnos en ciertas partes de la entrada. La autoatención en Transformers nos permite hacer esto dentro de una oración, enfatizando la importancia de las palabras anteriores encontradas.

  • 00:10:00 En esta sección, el video analiza cómo las capas de autoatención utilizan consultas, claves y valores para calcular la información de atención y ponderación según la similitud o la diferencia. La sección también presenta Vision Transformers, que utiliza el modelo Transformer para manejar tareas de visión artificial y NLP al aplanar imágenes en parches de 16x16 y pasarlas a través de una capa lineal para generar incrustaciones. El modelo aprende la información posicional y utiliza un perceptrón multicapa para clasificar la salida. La sección compara Vision Transformers con CNNS y señala que las capas de autoatención son globales, mientras que solo el MLP compara los píxeles vecinos. El modelo de Transformador en el Transformador de Visión no diferencia entre entradas de imágenes y palabras y es generalizable para una variedad de tareas.

  • 00:15:00 En esta sección de la conferencia, se analiza el concepto de sesgo inductivo en los modelos de aprendizaje automático. El sesgo inductivo se refiere a las suposiciones que hace un modelo sobre los datos con los que se ha entrenado y la reducción de este sesgo permite que un modelo sea más generalizable. Es importante tener modelos que se puedan aplicar a múltiples tareas sin asumir conocimientos previos. Si bien las CNN superan a los transformadores en conjuntos de datos más pequeños, el modelo Vision Transformer (ViT) funciona mejor en conjuntos de datos más grandes y complejos, ya que modela mejor la vista humana al priorizar la forma sobre la textura. La robustez contradictoria también se presenta como una métrica donde las imágenes se distorsionan al introducir ruido para que ciertos clasificadores ya no puedan clasificarlas.

  • 00:20:00 En esta sección, se analizan las limitaciones de Vision Transformers en la restauración de imágenes y la segmentación semántica. Cuando los parches se pasan y procesan uno a la vez, la información de los bordes se puede perder y el análisis detallado de píxeles dentro de un parche es débil, ya que la información que pertenece a un parche se trata como la misma. Sin embargo, a diferencia de las CNN que priorizan la textura sobre la forma, los Vision Transformers priorizan la forma sobre la textura, haciéndolos naturalmente resistentes contra las distorsiones visuales, incluso cuando se agrega ruido específico a una imagen. La extracción de parches es un problema exclusivo de las imágenes y, para imágenes más grandes, la cantidad de tokens de imagen generados aumentará rápidamente.

  • 00:25:00 En esta sección, el disertante analiza los problemas con el uso de los típicos transformadores de visión para la detección y segmentación de objetos, particularmente cuando se procesan imágenes más grandes, ya que requiere mucha potencia de procesamiento. Sin embargo, se introdujo una solución con el Transformador de ventana desplazada, que utiliza ventanas que no se superponen para realizar la autoatención dentro de los grupos y luego las combina para realizar la atención cruzada. Esto permite conexiones de atención entre ventanas, lo que da como resultado una complejidad computacional lineal en lugar de N-cuadrado, ya que el tamaño de los parches sigue siendo el mismo mientras se combinan. Este método de segmentación de imágenes se usa comúnmente en tecnologías de conducción autónoma.

  • 00:30:00 En esta sección, se presenta el concepto de Swin Transformer, un modelo que sobresale en la clasificación de imágenes, detección de objetos y segmentación semántica. El modelo de parche grande de Swin tiene un tamaño de parche de 4, una capacidad de 192, un tamaño de ventana de 7 y está entrenado en ImageNet 22k y ajustado en ImageNet 1k. El modelo utiliza una capa de atención múltiple de ventana y una capa de atención de ventana desplazada, y un MLP con capas ocultas que utilizan una función de activación de GELU. La salida de la ventana MSA se pasa a través de una norma de capa para normalizar las distribuciones de las capas intermedias antes de ingresar al MLP.

  • 00:35:00 En esta sección, el orador analiza los beneficios de usar Layer Norm en modelos de entrenamiento para la detección de objetos y la segmentación semántica. Layer Norm aplica una operación de suavizado a la superficie degradada, lo que da como resultado un entrenamiento más rápido y una mejor precisión de generalización. El orador compara Layer Norm con otras técnicas de suavizado como Batch Norm y explica cómo se enfoca en las capas intermedias del proceso. Luego, la discusión cambia a los bloques de autoatención de múltiples cabezales con ventanas (WMSA), que realizan la autoatención dentro de cada ventana de una imagen. La cantidad de vectores de parche en cada ventana está garantizada, lo que da como resultado una complejidad lineal en el tamaño de la imagen, a diferencia de la complejidad cuadrática en Vit (una técnica de la competencia). La etapa dos de WMSA implica un proceso de fusión de parches donde los bloques de píxeles vecinos se concatenan en una ventana más pequeña, creando nuevos bordes de parches y ventanas rehechas.

  • 00:40:00 En esta sección de la conferencia, el presentador explica la solución de Swin Transformer para manejar el aumento en la cantidad de ventanas generadas después de avanzar los parches. Swin Transformer combina hábilmente estas ventanas al reorganizar los bloques para que solo tengan cuatro ventanas, lo que reduce la cantidad total de elementos de 64 a 16 y mantiene constante la cantidad total de información. La técnica de optimización implica un cambio cíclico y se utiliza una capa lineal para aumentar la profundidad o la dimensión "C" del tamaño de incrustación después de reducir la descomposición de los parches. Esta técnica proporciona ahorros en el poder de cómputo y evita la solución ingenua de relleno cero antes de realizar la atención.

  • 00:45:00 En esta sección, el ponente analiza dos optimizaciones propuestas por los autores para mejorar la eficiencia del procesamiento de imágenes. La primera optimización consiste en desplazar una imagen a una parte determinada antes de calcular la atención, y luego moverla hacia atrás mientras se marca que ya se ha calculado. Esto optimiza la potencia de cómputo al evitar la necesidad de realizar una operación completamente nueva para obtener los valores deseados. La segunda optimización es a través de incrustaciones posicionales que aprenden la información de la posición del parche en lugar de proporcionarla explícitamente, lo que limita el alcance de la atención que debe calcularse. Estas optimizaciones, junto con el uso de vectores de sesgo y manipulaciones de tamaño de canal, ayudan en la realización de cálculos de autoatención en el procesamiento de imágenes.

  • 00:50:00 En esta sección, la conferencia analiza el proceso de fusión de parches en las etapas dos, tres y cuatro del modelo de transformador Swin. Al reducir la dimensionalidad de los parches, se reducen en un cuarto para llegar a 3136 parches, y el tamaño de codificación se duplica para obtener 384 codificaciones. El proceso se repite en las etapas tres y cuatro y el último componente del proceso es una capa de agrupación promedio, seguida de una cabeza de clasificación. La conferencia plantea inquietudes sobre la reintroducción del sesgo inductivo mediante el uso de enfoques similares a las CNN, pero los estudios han demostrado que los modelos Swin funcionan bien en términos de robustez frente a la corrupción y tienen un sesgo de forma más bajo que Vision Transformers. El carácter genérico de la arquitectura de Transformer permite capturar patrones con precisión, independientemente del tipo de datos o el dominio, y más datos dan como resultado un mejor rendimiento.

  • 00:55:00 En esta sección, el disertante explica los beneficios y las desventajas de tener un modelo que puede recibir cualquier tipo de datos, procesarlos y extraer patrones, lo que se conoce como generalización. Se discute la idea de un modelo general de inteligencia artificial que pueda manejar cualquier entrada/salida, y se exploran las posibles aplicaciones en campos como los automóviles autónomos. El disertante también señala que el campo de la robustez contradictoria aún se está desarrollando y que se necesitan más pruebas para determinar la eficacia de modelos como Swin contra ataques contradictorios más avanzados.
 

CS 198-126: Clase 17 - Encuesta de visión 3-D, Parte 1



CS 198-126: Clase 17 - Encuesta de visión 3-D, Parte 1

El video analiza diferentes representaciones visuales en 3D y sus ventajas y desventajas, incluidas nubes de puntos, mallas, vóxeles y campos de radiación. La conferencia también cubre el raycasting, hacia adelante y hacia atrás, así como la coloración y renderización de imágenes para objetos que se cruzan entre sí, con diferentes enfoques para sólidos y transparencias. El disertante aborda las limitaciones de la representación diferenciable y cómo Radiance Fields puede crear una función para cada punto XYZ con una densidad y color físico, haciéndolo más fácil de aprender.

  • 00:00:00 En esta sección, el disertante discute la necesidad de extender la visión artificial a 3D, ya que el mundo real es tridimensional. Hay aplicaciones ilimitadas para 3D, como conducción autónoma, optimización de formas, entornos virtuales, generación de avatares y más. Luego se presentan diferentes métodos para la representación 3D, incluidos 2.5D, nubes de puntos, mallas, cuadrículas de vóxeles y campos de regiones. Luego, la conferencia profundiza en el modelo de cámara estenopeica, que es importante para comprender cómo funcionan las imágenes y, posteriormente, cómo representar objetos 3D en el espacio para la simulación.

  • 00:05:00 En esta sección de la conferencia, se introduce el concepto de rastreo hacia adelante y rastreo hacia atrás como un medio para determinar la posición de una cámara en una escena. El disertante también analiza las imágenes RGB-D (2.5D) y cómo contienen información de profundidad que se puede usar para generar nubes de puntos, que luego se pueden usar para crear mallas de una superficie. También se exploran los beneficios y las limitaciones del uso de nubes de puntos para la creación de mallas.

  • 00:10:00 En esta sección, el disertante describe diferentes representaciones para objetos 3D. Comienzan discutiendo las estructuras de malla y cómo es difícil trabajar con ellas en entornos de aprendizaje automático debido a la falta de técnicas para trabajar con gráficos. Luego, la conferencia presenta los vóxeles como una estructura espacial 3D discreta compuesta de pequeños cubos o "Legos" que pueden representar objetos de forma binaria o translúcida. Sin embargo, el uso de vóxeles a altas resoluciones puede resultar prohibitivo debido a la complejidad computacional. La conferencia concluye presentando campos de radiación, una función que genera colores RGB y densidad en coordenadas XYZ específicas, como una solución para representar detalles de alta frecuencia en objetos 3D.

  • 00:15:00 En esta sección, el disertante analiza diferentes representaciones 3D, incluidas nubes de puntos, mallas, vóxeles y campos de radiación. Cada tipo tiene sus pros y sus contras, y es esencial elegir la representación adecuada para una tarea en particular. Después de discutir las representaciones 3D, la conferencia pasa a la transmisión de rayos y los dos tipos de transmisión de rayos: hacia adelante y hacia atrás. El raycasting directo es útil para representar nubes de puntos, ya que nos permite ver todos los puntos de la escena. Por el contrario, el raycasting hacia atrás es más adecuado para renderizar mallas o cuadrículas de vóxeles, ya que nos permite ver primero la superficie que intersecta el rayo.

  • 00:20:00 En esta sección del video, el orador analiza el proceso de colorear y renderizar imágenes para diferentes objetos que se cruzan entre sí. Esto se hace calculando tres intersecciones de triángulos para cada matriz, lo que puede ser eficiente. Si los objetos son translúcidos, el proceso implica considerar no solo el color del primer punto intersectado, sino también la densidad del primer y segundo punto. Para las regiones sin superficies, como el humo, el muestreo de rayos se usa para muestrear diferentes puntos en la recta y usar el campo de radiación para crear una función que genera RGB y D para cada punto. Estos conjuntos de colores y densidades luego se agregan mediante renderizado volumétrico para crear un volumen de un píxel.

  • 00:25:00 En esta sección, el disertante analiza la representación diferenciable y sus limitaciones. Si bien todo lo discutido en el renderizado es diferenciable, solo es diferenciable para las superficies visibles que vemos en la imagen renderizada. Los campos de radiación resuelven un problema con esto, ya que cada punto que se muestrea tendrá un impacto en el color final y, por lo tanto, tendrá un gradiente de salida. El disertante también menciona que los Campos de Radiación han existido por un tiempo y funcionan como una forma de crear una función para cada punto XYZ con una densidad y un color físico. A continuación, el disertante discutirá el modelado de f como una red neuronal para hacer que Radiance Fields se pueda aprender.

  • 00:30:00 En esta sección, el orador menciona brevemente un retraso de una semana en la tarea de Transformers, pero no proporciona ningún contexto ni explicación.
 

CS 198-126: Clase 18 - Encuesta de visión tridimensional, Parte 2



CS 198-126: Clase 18 - Encuesta de visión tridimensional, Parte 2

En esta lección sobre visión 3D, el instructor analiza los campos de radiación, específicamente los campos de radiación neuronal (Neural Radiance Fields, NeRF), que toman una posición en el espacio y emiten color y densidad. El orador explica el proceso de renderizado, que implica consultar desde la perspectiva de la cámara y usar la función de caja negra para averiguar cómo se verá la imagen. Las conferencias discuten los desafíos en la representación de perspectivas consistentes de objetos en visión 3D y el uso de MLP para tomar los datos XYZ de un objeto y ver la dirección para generar densidad e información RGB. La conferencia también cubre los desafíos de la representación volumétrica y el uso de derivados de Nerf para mejorar la visión por computadora. El instructor termina demostrando el uso de la contracción espacial para generar imágenes 3D realistas utilizando una red neuronal.

  • 00:00:00 En esta sección de la conferencia, los instructores analizan los campos de radiación, específicamente los NeRF (Campos de radiación neuronal), que toman una posición en el espacio y emiten color y densidad. El proceso de renderizado implica consultar desde la perspectiva de la cámara y usar la función de cuadro negro para averiguar cómo se verá la imagen. El color es un promedio ponderado de todas las muestras, y la visibilidad es proporcional a la densidad e inversamente proporcional a la cantidad de objetos frente a la cámara. Los instructores dan ejemplos para explicar la intuición detrás de los campos de radiación, incluido cómo el objeto más cercano a la cámara contribuye más al color y el efecto de la densidad en el peso.

  • 00:05:00 En esta sección, el orador explica cómo crear un campo Radiance neural para generar nuevas vistas de un objeto basado en múltiples imágenes de ese objeto. El objetivo es crear un campo Radiance neuronal que se pueda consultar en puntos de la escena para crear nuevas imágenes. Sin embargo, obtener las posiciones de las tropas terrestres y las direcciones requeridas para esto puede ser una tarea difícil y que requiere mucho tiempo. Hay programas disponibles que pueden ayudar con este proceso, pero el orador señala que puede considerarse una trampa confiar únicamente en estas herramientas.

  • 00:10:00 En esta sección, el disertante analiza el uso de la visión 3D para generar nuevas vistas de una escena. Explican que el aprendizaje de un campo Radiance neuronal permite la consistencia de la forma en diferentes vistas, lo cual es importante para generar nuevas vistas de un objeto con aprendizaje profundo. Sin este cuello de botella, es difícil garantizar la coherencia, como se muestra en un ejemplo con StyleGAN que produjo formas inconsistentes en diferentes vistas. El disertante argumenta que aprender una representación 3D de un objeto es necesario para generar nuevas vistas del objeto con forma consistente.

  • 00:15:00 En esta sección, el orador analiza los desafíos en la representación de perspectivas consistentes de objetos en visión 3D. El uso de Radiance Fields se explica como una forma de representar detalles finos en la apariencia del objeto, como el deslumbramiento y los reflejos desde diferentes ángulos, que de otro modo serían difíciles de capturar. El orador entra en detalles sobre cómo este proceso implica tomar la posición y ver los datos de dirección para crear una representación más precisa del objeto que se observa. También se explica el concepto de usar MLP de densidad y color para representar los diferentes aspectos del objeto.

  • 00:20:00 En esta sección, el orador analiza el uso de MLP (redes neuronales densas) para tomar los datos XYZ de un objeto y su dirección de visualización para generar información de densidad y RGB. La red utiliza codificación posicional para crear límites de decisión nítidos, lo que mejora la nitidez de la imagen que se recrea. El uso de compuertas lógicas y representación binaria permite cambios bruscos y detalles de alta frecuencia en la imagen recreada. El orador señala que pueden proporcionar una explicación más detallada de la codificación posicional si es necesario.

  • 00:25:00 En esta sección, el orador entra en más detalles sobre los diferentes aspectos de la implementación de un modelo Nerf (campos de radiación neuronal) para la visión 3D, incluido el uso de codificación posicional para límites nítidos y dependencia de la vista para efectos como el deslumbramiento y la reflexión. El orador también analiza la optimización del proceso de muestreo en dos rondas y el uso de un MLP separado para aprender los detalles más finos de los bordes. Además, el orador explica la función de pérdida que se usa para entrenar la red, lo que implica comparar los valores RGB de las imágenes reales y generar una cantidad limitada de rayos debido a las limitaciones de la GPU. No hay pérdida directa de densidad, pero la red aún aprende la densidad correcta a través de la relación indirecta entre la densidad y la corrección del color.

  • 00:30:00 En esta sección de la conferencia, el orador habla sobre el proceso de representación volumétrica y cómo requiere el color y la densidad correctos para producir predicciones precisas. El orador explica que el uso de suficientes cámaras permite la triangulación de diferentes puntos en el objeto y la forma más fácil para que la red produzca pérdidas bajas es generar el color correcto y la alta densidad para el punto de intersección. El orador también muestra un proyecto en el que están trabajando que usa scripts de preprocesamiento y una biblioteca llamada nerfacto para entrenamiento de renderizado en tiempo real. El orador señala que el procesamiento previo es difícil y, a veces, puede dar lugar a direcciones incorrectas.

  • 00:35:00 En esta sección, el orador analiza la visión 3D y los desafíos asociados con la captura de imágenes en todas las direcciones. El video se enfoca en el uso de derivados de Nerf para mejorar la visión por computadora y cómo esta técnica se puede usar para contraer el espacio alrededor de una escena, lo que facilita que la red aprenda buenos valores. El orador explica que el cuadro delimitador alrededor de la imagen ayuda a restringir el espacio, por lo que la red solo recibe valores entre -1 y 1. El video ilustra cómo funciona la contracción del espacio con una fórmula que toma un punto en el espacio y lo mapea en una bola unitaria, lo que hace que el punto y los valores de la escena sean más fáciles de aprender para la red.

  • 00:40:00 En esta sección del video, el orador demuestra el uso de la contracción espacial para generar imágenes 3D realistas usando una red neuronal. Muestra una imagen de una Campanilla y explica que la red empeora progresivamente cuando llega al borde de los datos de entrenamiento. El orador también menciona algunos avances en la generación de imágenes 3D que tardan segundos en lugar de días. Aunque no tuvo suficiente tiempo para discutir por qué se puede aprender la función de densidad, se ofrece a conversar con la audiencia después de la conferencia.
 

CS 198-126: Clase 19 - Preentrenamiento de visión avanzada



CS 198-126: Clase 19 - Preentrenamiento de visión avanzada

Este video cubre varias técnicas utilizadas para el entrenamiento previo autosupervisado en visión avanzada, incluido el aprendizaje contrastivo, los codificadores automáticos de eliminación de ruido, los codificadores de contexto y la red Mae. El orador brinda una descripción general de cada método, analiza sus fortalezas y debilidades, y destaca los beneficios de combinar pérdidas contrastivas y de reconstrucción en el método BYOL, que supera a ambos individualmente. El video proporciona información útil sobre las últimas tendencias de investigación en aprendizaje autosupervisado y su potencial para mejorar el rendimiento de los modelos de visión artificial.

  • 00:00:00 En esta sección, el instructor presenta el concepto de aprendizaje autosupervisado (SSL), que es una rama del aprendizaje no supervisado que crea etiquetas a partir de conjuntos de datos sin ninguna etiqueta asociada con ellos. Este enfoque es útil cuando se trabaja con conjuntos de datos pequeños o cuando se entrenan previamente modelos en conjuntos de datos grandes y diversos para extraer representaciones que se pueden transferir a tareas posteriores. El instructor también brinda una analogía de John McCune para explicar cómo SSL brinda más supervisión que aprendizaje no supervisado y menos que aprendizaje supervisado, lo que lo convierte en un enfoque valioso para varias tareas en visión artificial.

  • 00:05:00 En esta sección, se introdujo el concepto de aprendizaje no supervisado como base para la inteligencia en el contexto de la visión artificial. El aprendizaje autosupervisado se discutió como una forma de crear etiquetas desde cero como la principal forma de aprendizaje, mientras que el aprendizaje supervisado y el aprendizaje por refuerzo eran solo pequeñas partes del proceso. El concepto de aprendizaje contrastivo se introdujo como un enfoque popular no supervisado que se enfoca en la similitud como un objetivo de optimización, y el objetivo de la función de pérdida se explicó como empujar la incrustación de la muestra positiva lo más cerca posible de la incrustación de la entrada, mientras que empujando simultáneamente la incrustación de la muestra negativa más lejos de la incrustación de entrada.

  • 00:10:00 En esta sección, el video explica el concepto de pérdida de triplete utilizado para entrenar redes de reconocimiento facial y cómo se puede mejorar usando una función de pérdida contrastiva. La función de pérdida contrastiva aborda el problema de alejar la entrada de todas las muestras negativas posibles, lo que no es factible debido a la gran cantidad de muestras negativas. La implementación de esta función de pérdida es similar a un problema de clasificación, donde la muestra positiva sirve como etiqueta correcta y todas las muestras negativas sirven como etiquetas incorrectas. Luego, el video presenta el algoritmo MOCO, que define el aprendizaje contrastivo como un ingreso de diccionario diferenciable, lo que permite la recopilación de todos los períodos y consultas en un solo lugar.

  • 00:15:00 En esta sección, el presentador explica el proceso de aprendizaje contrastivo y cómo definir la similitud a través de redes neuronales. El autor define lo que significa similar y destaca que se está pasando por la misma muestra utilizando la misma red, lo que se conoce como discriminación de instancias. Para crear una buena representación para las tareas posteriores, la clave y la consulta provienen de la misma red, por lo que el uso de varias redes no es muy útil y, en su lugar, se necesita una gran cantidad de elementos negativos para fomentar mejores representaciones. Sin embargo, puede ser un desafío computacional y poco práctico seleccionar un solo positivo de un gran grupo de negativos, lo que limita el tamaño del lote. Luego, el presentador analiza la idea de calcular previamente todas las claves y consultas a partir de un solo modelo.

  • 00:20:00 En esta sección de la conferencia, el orador analiza la idea de incrustaciones precomputadas y almacenarlas en una cola mientras entrena un modelo en una sola red que se actualiza con el tiempo. Este enfoque ayuda a mantener la coherencia a lo largo del tiempo y evita el almacenamiento de incrustaciones desde muy atrás en el proceso de capacitación. Sin embargo, este método solo resuelve el problema de calcular las incrustaciones en el paso hacia adelante, no en el paso hacia atrás. El orador sugiere actualizar el codificador clave con un promedio móvil de las tasas de consultas y codificadores clave para evitar cambiar los pesos del codificador clave demasiado rápido y mantener la consistencia.

  • 00:25:00 En esta sección del video, el presentador analiza los modelos Moco y SimCLR, que son métodos de aprendizaje contrastivos para producir buenas representaciones de imágenes sin etiquetas. El modelo Moco involucra codificadores clave que se actualizan con el tiempo a medida que avanza el entrenamiento para producir buenas representaciones, que se pueden usar para tareas posteriores. El modelo SimCLR simplifica este proceso mediante el uso de un solo codificador y el paso de las incrustaciones a través de un pequeño MLP para obtener resultados aún mejores. Este método elimina la necesidad de mantener promedios móviles o diferentes redes y se ha convertido en un método de aprendizaje contrastivo popular en la investigación de aprendizaje profundo.

  • 00:30:00 En esta sección, aprendemos sobre el modelo SimCLR, un método autosupervisado para entrenar representaciones de imágenes. El modelo utiliza la pérdida de contraste y la escala de temperatura para calcular las incrustaciones e introduce la noción de similitud de que la misma imagen es similar y las diferentes no lo son. Se muestran las técnicas de aumento de datos utilizadas en el modelo y, sorprendentemente, los aumentos basados en colores producen los mejores resultados. Las sesiones de entrenamiento más largas y los lotes más grandes también muestran mejores resultados. SimCLR fue el primer método modelo que superó una línea de base totalmente supervisada en la clasificación de imágenes y logra los mejores resultados cuando se ajusta con solo el 1 % y el 10 % de las etiquetas de ImageNet.

  • 00:35:00 En esta sección, se cubre el método byol para el preentrenamiento de la visión avanzada. El método consiste en aplicar diferentes aumentos de datos a una imagen de entrada, generar diferentes vistas, pasarlas a través de redes codificadoras y tomar las representaciones de ellas, que luego se proyectan en una pequeña red para obtener la proyección C y C prime. El método no es estrictamente un método de aprendizaje contrastivo como simclr, sino una combinación de elementos de simclr y moco en una sola función objetivo. El enfoque utiliza el arranque, el mantenimiento de dos redes diferentes y el ajuste de un modelo en función de las métricas estimadas de otro, en lugar de utilizar métricas reales del conjunto de datos.

  • 00:40:00 En esta sección, aprendemos sobre Deep Key Learning en heavy, que es lo mismo que sucede en Deep Free Learning. Este enfoque fue la inspiración para BYOL, donde la segunda red impulsa la supervisión de la primera red y viceversa. Con este proceso de arranque, la red aprende más representaciones para construir representaciones y, dado que no es un aprendizaje contrastivo, es resistente a los cambios en el tamaño del lote y los tipos de organización. BYOL funciona bien incluso con tamaños de lote más pequeños y supera a MCLR en los mismos puntos de referencia. Luego pasamos a la segunda clase de métodos, donde la entrada se destruye y tenemos que reconstruir la imagen original, y estos métodos funcionan bien con una estructura basada en autocodificador. La presentación presenta Denoising Model Encoder, donde se agrega ruido a una imagen y el objetivo es predecir la imagen sin ruido. El codificador del modelo Stack Denoising fue muy popular porque funciona muy bien y la red aprende algo significativo incluso con imágenes destruidas.

  • 00:45:00 En esta sección, el orador analiza las dificultades de entrenar redes neuronales en el pasado y cómo se usaron los codificadores automáticos de eliminación de ruido (DAE) como solución. Luego, la conferencia pasa al concepto de enmascarar partes de una imagen para predecir la región oculta, que se denomina codificador de contexto. El método, introducido en 2016 en el laboratorio de Berkeley, pudo obtener buenos resultados en detección y segmentación, pero no en clasificación. El orador revisa la implementación del codificador de contexto y cómo agregar un discriminador a la función objetivo condujo a mejores representaciones.

  • 00:50:00 En esta sección, se analiza la red Mae, que utiliza una red troncal de transformador, en contraste con las redes troncales de CNN utilizadas en otros métodos. La red reemplaza con un vit y usa el mismo objetivo que un decodificador de contexto al enmascarar parches de una imagen y pasar la región desenmascarada a un codificador. Las incrustaciones codificadas luego se pasan a un decodificador con el objetivo de reconstruir la imagen original. Este proceso aprende características significativas en ese formato, y la red se ilustra con varios ejemplos del artículo de Mae. El token de clase, que captura información sobre la secuencia completa, se puede utilizar para la clasificación.

  • 00:55:00 se centra en el preentrenamiento autosupervisado utilizando la combinación de aprendizaje contrastivo y reconstrucción basada en autocodificador, y supera ambas estrategias individualmente. Combinan los métodos utilizando una nueva función de pérdida que equilibra las pérdidas contrastivas y de reconstrucción. Es un enfoque prometedor que demuestra el potencial para mejorar el rendimiento de los métodos autosupervisados, y es un área actual de investigación para comprender las razones subyacentes de estos resultados.

  • 01:00:00 En esta sección, el orador habla sobre el recién lanzado MaS, un modelo que combina la reconstrucción de imágenes y el aprendizaje contrastivo al mismo tiempo a través de un solo modelo. MaS genera dos vistas de la misma imagen, enmascara las dos vistas diferentes y les agrega ruido, combinando así el objetivo de eliminación de ruido. La función de pérdida que usa MaS es una mejor combinación de los puntos finales, la pérdida de reconstrucción y la pérdida de eliminación de ruido, lo que da como resultado un mejor rendimiento que los modelos anteriores. El orador señala que hay muchos otros modelos en el área del aprendizaje de la representación que funcionan bien, y que el campo está actualmente en auge para la investigación.
 

CS 198-126: Clase 20 - Estilización de imágenes



CS 198-126: Clase 20 - Estilización de imágenes

El video analiza varias técnicas para la estilización de imágenes, incluida la transferencia de estilo neuronal, GAN y Pix2Pix, que requieren datos emparejados, y CycleGAN, que usa datos no emparejados para la traducción de imagen a imagen. StarGAN puede abordar las limitaciones de CycleGAN, que puede tomar información de múltiples dominios para entrenar generadores para tareas de transición de imágenes de múltiples dominios. El orador también analiza la traducción multimodal no supervisada de imagen a imagen utilizando información de dominio y códigos latentes de baja dimensión para producir diversos resultados, ejemplificados por el modelo BicycleGAN. Por último, se mencionan los beneficios potenciales de usar Vision Transformers con GAN para tareas de traducción de imágenes, y la conferencia concluye con ejemplos divertidos de imágenes y una oportunidad para preguntas y debates.

  • 00:00:00 En esta sección, el orador analiza la traducción de imagen a imagen y específicamente la transferencia de estilo neuronal. La tarea consiste en transformar imágenes del dominio de origen en la imagen correspondiente en el dominio de destino conservando el contenido de la imagen original. La transferencia de estilo neuronal es una técnica utilizada para combinar dos imágenes mediante la optimización de la imagen de salida para que coincida con el contenido de una imagen y la referencia de estilo de otra. Las redes convolucionales se utilizan para extraer información relevante de ambas imágenes y crear una nueva imagen con el estilo deseado. El orador entra en detalles sobre las entradas requeridas y la arquitectura utilizada para esta técnica.

  • 00:05:00 En esta sección, la conferencia analiza el concepto de usar CNN profundas para representar el contenido y el estilo de las imágenes. Comenzando con características de bajo nivel como bordes y texturas, la CNN abstrae características de alto nivel antes de producir representaciones de objetos. Luego, la conferencia explora cómo medir la similitud de estilo en diferentes mapas de características mediante el uso de un cálculo de matriz de gramo. La conferencia explica cómo obtener contenido y estilo de las CNN, y el método de cálculo de pérdidas para cada una de ellas que ajusta el modelo para producir el resultado deseado.

  • 00:10:00 En esta sección de la conferencia, el orador analiza un par de técnicas diferentes para el procesamiento de imágenes. En primer lugar, analizan el proceso de generación de una imagen de salida mediante la adición de pérdida de contenido y estilo en un optimizador. Muestran un ejemplo de una imagen de contenido y una imagen de estilo que se combinan para crear la imagen final, con funciones de nivel inferior de la imagen de contenido y funciones de nivel superior de la imagen de estilo. A continuación, revisan brevemente las GAN, centrándose en las partes del discriminador y del generador. También mencionan StyleGAN y su capacidad para separar atributos de nivel superior e inferior en la imagen. Finalmente, analizan un modelo llamado Pix2Pix, que utiliza una GAN condicional para generar imágenes de salida basadas en información adicional proporcionada por el usuario.

  • 00:15:00 En esta sección, el video analiza varias técnicas para la estilización de imágenes, incluidas GAN y pix2pix, que requieren datos emparejados, y CycleGAN, que usa datos no emparejados para la traducción de imagen a imagen. Sin embargo, CycleGAN tiene limitaciones, que pueden ser abordadas por StarGAN, un modelo que puede tomar información de múltiples dominios para entrenar generadores, lo que permite tareas de transición de imágenes de múltiples dominios. La idea clave detrás de StarGAN es aprender un método de traducción flexible que utilice tanto la imagen como la información del dominio como entrada.

  • 00:20:00 En esta sección de la conferencia, el orador analiza el concepto de traducción multimodal no supervisada de imagen a imagen y cómo se puede utilizar para producir múltiples salidas realistas y diversas a partir de una imagen de entrada. El documento que se analiza incorpora información de dominio y códigos latentes de baja dimensión para producir resultados más precisos y fieles. El modelo BicycleGAN se presentó como un ejemplo de cómo este enfoque puede funcionar para minimizar el colapso del modo y lograr diversos resultados. Además, el documento intenta aprender un codificador para mapear la salida de vuelta al espacio latente y minimizar la probabilidad de que dos códigos diferentes generen el mismo estilo o salida.

  • 00:25:00 En esta sección de la conferencia, el orador analiza los desafíos de usar Vision Transformers para tareas como la traducción de imagen a imagen y los beneficios potenciales de usarlos en combinación con GAN. Mencionan técnicas recientes que aprovechan los beneficios de Vision Transformers con GAN para abordar tareas de traducción de imágenes, aunque no es tan sencillo como usar GAN solo para estas tareas. El orador concluye compartiendo algunas imágenes divertidas que muestran las habilidades de estas técnicas y abre el espacio para preguntas y debate.
 

CS 198-126: Clase 21 - Audio generativo



CS 198-126: Clase 21 - Audio generativo

En esta conferencia sobre audio generativo, el presentador cubre varios temas, como la cuantificación, el aliasing, el procesamiento de señales, las proyecciones, el aprendizaje profundo y los transformadores. El disertante analiza cómo muestrear y cuantificar señales continuas y el equilibrio entre la precisión de las profundidades de bits y la potencia de cálculo. También se explica el teorema de muestreo de Shannon-Nequist y sus efectos en la reconstrucción de señales y la importancia de las proyecciones y su uso para la reconstrucción de señales. Se explora el aprendizaje profundo para la reconstrucción de audio, y el presentador presenta el audio generativo y cómo puede reconstruir música a partir de grabaciones perdidas o dañadas. Se analiza el uso de Transformers para la generación de audio y se explica el proceso de representar la música como una serie de fichas. El orador también enfatiza la importancia de tener un conjunto de datos grande y variado y analiza el funcionamiento del modelo de transformador para las predicciones musicales. La conferencia concluye con una demostración de la música generada, que muestra la capacidad del modelo para predecir notas futuras con precisión.

  • 00:00:00 En esta sección de la conferencia, la atención se centra en el audio generativo y cómo discretizar señales continuas, lo cual es necesario para que las computadoras procesen el audio. El proceso de muestreo y cuantificación de una señal continua se utiliza para generar señales digitales. La lección explica cómo el convertidor de analógico a digital utiliza el circuito de muestreo y retención, y cómo se discretiza la salida, según el nivel de precisión requerido. La conferencia también analiza el convertidor de digital a analógico y cómo se usa un filtro de paso bajo para mantener la banda de paso de la señal, con ciertas frecuencias de corte que determinan la pendiente de la señal. Estos conceptos son esenciales para el audio generativo y sientan una base importante para la comprensión del material posterior de la conferencia.

  • 00:05:00 En esta sección, la lección cubre los niveles de cuantificación y su correlación con el rango dinámico de la señal que se cuantifica. Una mayor profundidad de bits conduce a una aproximación de la señal más precisa, lo que reduce significativamente los errores hasta alcanzar una aproximación casi perfecta a una profundidad de 16 bits. Sin embargo, existe una compensación en lo que respecta a la potencia de cálculo, que puede cuestionar si un tono sin pérdidas o un tono con pérdidas mucho más rápido sería suficiente para el oído del oyente. El teorema de muestreo de Shannon-Nequist afirma que una señal puede reconstruirse a partir de sus muestras sin pérdida de información si y solo si las frecuencias de la señal original se encuentran por debajo de la mitad de la frecuencia de muestreo. El incumplimiento de este criterio dará lugar a aliasing, que produce una aproximación problemática de la señal.

  • 00:10:00 En esta sección, aprendemos sobre el aliasing y sus efectos en el procesamiento de la señal, particularmente en términos de muestreo deficiente que resulta en una señal de salida modificada en comparación con la entrada original. Vemos ejemplos de esto a través de visualizaciones de forma de onda y muestreo de imágenes. Además, escuchamos sobre la teoría de señales geométricas, específicamente el uso de proyecciones para la reconstrucción de señales y el uso de deconvoluciones en la segmentación de imágenes. Por último, el presentador comparte una demostración divertida de cómo generar música de 8 bits usando una línea de código C.

  • 00:15:00 En esta sección, el disertante analiza las proyecciones y cómo se pueden usar para la reconstrucción. La fórmula de proyección es el producto punto de dos vectores, y esta medida de similitud se puede usar para reconstruir una señal usando una combinación lineal de proyecciones en otro conjunto de vectores. Sin embargo, se requiere una base y el conjunto de vectores utilizados debe ser ortogonal entre sí para garantizar la máxima cantidad de información obtenida. Al llevar la proyección a diferentes bases que son ortogonales entre sí, podemos obtener información sobre el vector que se proyecta y, en última instancia, reconstruir la señal.

  • 00:20:00 En esta sección, el disertante presenta el uso del aprendizaje profundo para la reconstrucción de audio y cómo puede generar audio de alta resolución mediante la reconstrucción de una forma de onda de baja calidad. La arquitectura del modelo se parece a la de una unidad que utiliza una representación unidimensional de una convolución de subpíxeles para el muestreo ascendente. La forma de onda submuestreada pasa a través de ocho bloques de submuestreo utilizando capas convolucionales con un paso de dos, y la normalización por lotes se aplica con una función de activación ReLU. En la capa de cuello de botella, que se construye de manera idéntica a un bloque de muestreo descendente, la forma de onda se conecta a ocho bloques de muestreo ascendente. Estos bloques tienen conexiones residuales con los bloques de reducción de resolución y utilizan una convolución de subpíxeles para reordenar la información a lo largo de una cierta dimensión para expandir la ganancia de información, aumentando la resolución de la forma de onda y preservando las características de la forma de onda de baja resolución. La capa convolucional final tiene una operación de reapilamiento que reordena la información después de la deconvolución de subpíxeles, y el muestreo ascendente de la forma de onda de salida se genera utilizando la función de pérdida de error cuadrática media.

  • 00:25:00 En esta sección, el disertante analiza el uso del audio generativo y cómo se puede usar para reconstruir música de bandas grabadas entre mediados y fines del siglo XX, cuyas grabaciones pueden no haberse conservado en calidad total. Ella habla sobre el espectro reducido y cómo se puede mejorar para que coincida con la forma de onda real al agregarle claridad y color. Luego, el disertante hace la transición a Transformers para la generación de audio y cómo se puede usar la arquitectura de Transformer para predecir notas musicales en una melodía. Esto requiere convertir datos, que son archivos de música, en una secuencia de tokens, un problema único que debe considerarse de manera exhaustiva debido a la serie temporal que debe capturarse, como la firma musical, la clave y los tiempos.

  • 00:30:00 En esta sección, el orador analiza el proceso de representar la música como una serie de tokens que se pueden incorporar a un modelo de transformación para audio generativo. Explican cómo se pueden usar el tono, la duración y otros atributos para capturar información sobre notas musicales, pero también señalan el desafío de tokenizar datos de piano roll 2D en una sola dimensión. Se comparan diferentes enfoques, como notas de uno a muchos o la asignación de muchas notas a un solo token, y se introduce el uso de tokens separadores y un tamaño de vocabulario reducido. El orador concluye mencionando el aumento de datos como una forma de aumentar la diversidad de datos de entrenamiento para modelos de audio generativos.

  • 00:35:00 En esta sección, el orador analiza la importancia de tener un conjunto de datos grande y variado al usar modelos de audio generativos. Explican cómo una sola canción se puede transformar en 12 canciones de diferentes claves y cómo cuantos más datos y generalizabilidad tenga un modelo, mejor funcionará. El orador también habla sobre el uso de la codificación de pulsaciones posicionales como una forma de proporcionar metadatos al modelo para darle un mejor sentido de la sincronización musical. Señalan que el método de estructura posicional utilizado en el procesamiento del lenguaje natural también se puede aplicar a la música. La sección concluye discutiendo el forzamiento del maestro, una forma de aplicar una máscara de atención para evitar que el modelo acceda a toda la información a la vez y filtre información sobre los tokens que se supone que debe predecir a continuación.

  • 00:40:00 En esta sección, el orador analiza cómo funciona el modelo de transformador utilizado en el audio generativo. El transformador XL utilizado en la implementación cuenta con codificación de posición relativa y memoria de estado oculto, lo que permite una inferencia rápida y precisa para las predicciones musicales. Dado que la posicionalidad es importante en la música, el modelo usa solo la posición relativa en lugar de la posición absoluta. El modelo también captura dos atributos de cada nota, a saber, el tono y la duración, para almacenar en la memoria y predecir notas futuras con precisión. Luego, el orador presenta una demostración del Canon de Pachelbel en re mayor generada usando el modelo, que muestra que aunque las notas generadas se desvían de la composición original, todavía suenan bien.
 

CS 198-126: Clase 22 - Aprendizaje multimodal



CS 198-126: Clase 22 - Aprendizaje multimodal

El aprendizaje multimodal implica representar objetos de diferentes maneras, como a través de texto, imágenes, videos o audio, sin dejar de reconocer que son el mismo objeto. Las conferencias explican la importancia del aprendizaje multimodal para capturar diversos conjuntos de datos y resolver el problema del cambio de distribución. El video se enfoca en CLIP, un método de preentrenamiento de imágenes de lenguaje contrastivo, que utiliza codificadores de texto e imágenes para crear incrustaciones para pares de imágenes y subtítulos similares. Las incrustaciones se pueden usar para clasificación, robótica, generación de texto a imagen y visión 3D. El ponente destaca que la universalidad de las latentes CLIP muestra la importancia del aprendizaje de representación y su utilidad en el aprendizaje automático. El método CLIP ha llevado a la evolución del campo del aprendizaje multimodal.

  • 00:00:00 En esta sección del video, el disertante explica el concepto de aprendizaje multimodal y su importancia. El aprendizaje multimodal implica representar objetos de muchas maneras diferentes, como a través de texto, imágenes, videos o audio, y capturar sus matices sin dejar de reconocer que son el mismo objeto. Los conjuntos de datos multimodales pueden comprender todos estos tipos de datos y el objetivo es conservar toda la información para proporcionar más contexto para el aprendizaje. El disertante argumenta que el aprendizaje multimodal es importante porque los datos pueden provenir de diferentes fuentes y conjuntos de datos, y desechar toda esta información adicional puede resultar en menos información para el aprendizaje.

  • 00:05:00 En esta sección, la atención se centra en el problema del cambio de distribución, que surge cuando un modelo de visión artificial se entrena con datos fotorrealistas y se prueba con datos caricaturescos. El problema es que los conjuntos de datos individuales tienen distribuciones pequeñas en comparación con lo que es posible. Debido a la diversidad de datos, el problema del cambio de distribución se convierte en un problema importante, ya que existen diversos conjuntos de datos con diferentes objetos, formatos de datos y relaciones. El aprendizaje multimodal tiene como objetivo resolver este problema mediante el uso de todos los datos disponibles y las relaciones entre los datos para entrenar mejores modelos para datos más diversos. El objetivo es aprender representaciones comprimidas significativas para todo, desde imágenes hasta texto y audio.

  • 00:10:00 En esta sección, el video analiza la importancia del aprendizaje multimodal y los desafíos que surgen con los modelos de capacitación en diversos conjuntos de datos. El documento que se está examinando se llama CLIP, que significa Entrenamiento previo de imágenes de lenguaje contrastivo, y tiene como objetivo investigar las relaciones entre las imágenes y el texto correspondiente. La idea detrás del modelo CLIP es que si una imagen y una leyenda están relacionadas, entonces las representaciones aprendidas tanto para la imagen como para la leyenda deben ser similares. El modelo utiliza dos modelos diferentes: un transformador de visión para el procesamiento de imágenes y un transformador para el procesamiento del lenguaje natural, y los entrena desde cero. El procedimiento de entrenamiento implica el entrenamiento previo de los codificadores de texto e imagen utilizando una gran cantidad de pares de leyendas de imágenes de varias fuentes, con el objetivo de generar incrustaciones para ambos que sean similares para un par de leyendas de imágenes coincidentes y diferentes para un par diferente. .

  • 00:15:00 En esta sección, el orador explica cómo el codificador de imagen y el codificador de texto trabajan juntos para crear versiones incrustadas de datos de imagen y texto que son muy similares para pares coincidentes y muy diferentes para pares no coincidentes. Los elementos diagonales de la matriz resultante representan el producto punto entre las incrustaciones para emparejar pares, que idealmente son muy grandes, mientras que los elementos fuera de la diagonal representan las similitudes entre las incrustaciones que no coinciden y deben ser muy pequeñas o negativas. El orador explica que este enfoque es similar a una tarea de clasificación, donde la función de pérdida intenta hacer que los elementos diagonales sean lo más grandes posible mientras minimiza los elementos fuera de la diagonal. El codificador de texto y el codificador de imágenes trabajan juntos para lograr este objetivo y crear incrustaciones similares para pares coincidentes.

  • 00:20:00 En esta sección, aprendemos sobre una aplicación de aprendizaje multimodal llamada CLIP, o Pre-entrenamiento de imágenes de lenguaje contrastivo. CLIP utiliza un codificador de texto y un codificador de imágenes para crear incrustaciones de imágenes y leyendas. Luego realiza un producto punto de las incrustaciones para ver qué tan bien la imagen coincide con el pie de foto. Al hacer esto, CLIP puede predecir de qué es la imagen sin ningún ajuste fino, lo que se denomina predicción de tiro cero. Este método muestra que las representaciones codificadas de texto e imágenes son significativas y pueden generalizarse bien a nuevos datos.

  • 00:25:00 En esta sección de la conferencia, el orador analiza la aplicabilidad y la importancia del aprendizaje de representaciones a través de latentes CLIP. Las latentes son salidas generalizables y significativas de la codificación de imágenes a través de un modelo preentrenado congelado. Estos latentes tienen varios casos de uso, incluida la clasificación de objetos y la robótica, donde pueden ayudar en la representación integrada de imágenes. El orador enfatiza que el aprendizaje de representación es aplicable en todas partes y puede ser útil en la generación de texto a imagen y visión 3D. El campo Resplandor se puede optimizar utilizando la función de pérdida donde la imagen renderizada coincide con el clip latente correspondiente a los subtítulos de entrada. El proceso de optimización es diferenciable, lo que lo convierte en una herramienta eficaz para la reconstrucción de imágenes.

  • 00:30:00 En esta sección, el orador discute el concepto de usar la incrustación de imágenes para generar campos de radiación basados en un mensaje dado. Aunque este método es costoso, demuestra la universalidad de las latentes de clip, que se basan en el entrenamiento previo de una variedad de datos y en el uso de representaciones o relaciones para generar latentes utilizables para cualquier dominio. Esta técnica de aprendizaje multimodal demostró ser efectiva y se considera un subcampo importante en el campo del aprendizaje automático. El orador señala que, si bien el método de clip es solo el comienzo, ha llevado a una mayor evolución en el campo.