Redes Neurais em IA e Deep Learning

 

Hemos añadido soporte para matrices y vectores en MQL5, que se usan en muchas tareas computacionales, incluyendo el aprendizaje automático. En esta rama, hemos seleccionado materiales que pueden serle útiles al lector. La tecnología de aprendizaje automático se basa en las redes neuronales.

Las redes neuronales son modelos matemáticos que tratan de emular el funcionamiento del cerebro humano. Constan de muchos nodos conectados que se transmiten señales entre sí y toman decisiones según esas señales.

El aprendizaje automático es un proceso en el que un ordenador usa datos para entrenar modelos que puedan predecir resultados sobre nuevos datos. El aprendizaje automático se utiliza en diversos campos, tales como la medicina, los negocios y la ciencia de materiales, entre otros.

El aprendizaje profundo (deep learning) es un subconjunto del aprendizaje automático que utiliza redes neuronales con muchas capas para resolver problemas de procesamiento de información. Esto permite a los modelos de aprendizaje profundo aprender los datos con enorme precisión y extraer automáticamente características de estructuras jerárquicas complejas, lo que suele resultar una tarea difícil para los algoritmos tradicionales de aprendizaje automático.

Las redes neuronales profundas suelen estar formadas por muchas capas que reciben datos en la entrada y los procesan secuencialmente. Cada capa supone un conjunto de neuronas que procesan los datos y transmiten los resultados a la capa siguiente. Entrenar el modelo consiste en ajustar los pesos de las conexiones neuronales entre las capas de forma que se minimice el error en el conjunto de datos de entrenamiento. Uno de los métodos más usados para entrenar redes neuronales profundas es la propagación inversa o retropropagación. Este algoritmo permite determinar cómo influyen los cambios de los pesos entre capas en el error del modelo, y utilizar esta información para actualizar los pesos según el descenso de gradiente.

El aprendizaje profundo permite crear modelos más precisos que los métodos clásicos de aprendizaje automático, como por ejemplo, la regresión logística o los árboles de decisión. Sin embargo, su entrenamiento requiere grandes cantidades de datos y potencia computacional, lo cual puede resultar problemático en algunos ámbitos.

El aprendizaje profundo se aplica en muchas áreas, como la visión por ordenador, el procesamiento del lenguaje natural, el procesamiento del habla, los sistemas de recomendación, etc. En los últimos años se han logrado avances significativos en este ámbito, por ejemplo en tareas de reconocimiento de imágenes y procesamiento del lenguaje natural.

Aquí le presentamos varios vídeos que le permitirán comprender rápidamente cómo funcionan estas tecnologías.


Documentación para MQL5: Métodos de matrices y vectores
Documentación para MQL5: Métodos de matrices y vectores
  • www.mql5.com
Métodos de matrices y vectores - Manual de referencia de MQL5 - manual de usuario para el lenguaje del trading algorítmico/automático para MetaTrader 5
 

1. The Deep Learning Revolution




Este breve vídeo destaca el revolucionario papel de la inteligencia artificial (IA) en la consecución de habilidades sobrehumanas, el descubrimiento de nuevos materiales y el ahorro de recursos escasos.

Estas tecnologías permiten a los discapacitados visuales reconocer caras, leer textos, y también ayuda a los ciegos a leer a sus hijos, mientras que los vehículos autónomos nos ofrecen libertad para explorar zonas remotas sin callejeros.

Resulta destacable el papel de la tecnología de IA en la mejora de la capacidad de las personas para tomar mejores decisiones y resolver problemas complejos.

 

2. Visualización del procesamiento de la información en redes neuronales de aprendizaje profundo

Aquí tiene varios vídeos cortos: resulta mejor ver que intentar describir con palabras.












 

3. [Aprendizaje profundo | vídeo 1] ¿Qué es una red neuronal?




Este video presenta a los espectadores las redes neuronales y cómo funcionan. Las redes neuronales contienen varias capas de neuronas, cada una de las cuales está conectada a las neuronas de las capas anterior y siguiente a través de pesos y sesgos. La activación de una neurona está determinada por la suma ponderada de las activaciones de las neuronas de la capa anterior, que luego es comprimida por una función sigmoidea.

  • 00:00:00 Una introducción a las redes neuronales que habla sobre cómo se inspiran en el cerebro y cómo se pueden usar para reconocer dígitos escritos a mano. El video también explica la estructura de la red neuronal, incluida la capa de entrada, la capa oculta y la capa de salida.

  • 00:05:00 Esta parte explica por qué se puede esperar que la estructura en capas de una red neuronal se comporte de manera inteligente. Se afirma que cada neurona en las capas intermedias de la red corresponde a uno de varios subcomponentes que forman la imagen general. Por ejemplo, se puede disparar una neurona cuando se ingresa una imagen en bucle a la capa de entrada. Esto permite que la red ensamble los
    diversos componentes que componen una imagen y finalmente reconozca el dígito que representa la imagen.

  • 00:10:00 Los pesos y sesgos de una red neuronal determinan su comportamiento, y el aprendizaje es el proceso de ajustar estos valores para lograr el comportamiento deseado. Las redes neuronales consisten en capas de neuronas, cada una de las cuales está conectada a las neuronas de la capa anterior y siguiente a través de pesos y sesgos. La activación de una neurona está determinada por la suma ponderada de las activaciones de las neuronas de la capa anterior, que luego es comprimida por una función sigmoidea. Este vector final luego se pasa a la siguiente capa.

  • 00:15:00 En este video, el autor explica qué es una red neuronal y cómo funciona. También presenta la función sigmoidea y explica cómo se usa para comprimir la suma ponderada correspondiente entre cero y uno.
But what is a neural network? | Chapter 1, Deep learning
But what is a neural network? | Chapter 1, Deep learning
  • 2017.10.05
  • www.youtube.com
What are the neurons, why are there layers, and what is the math underlying it?Help fund future projects: https://www.patreon.com/3blue1brownWritten/interact...
 

4. [Aprendizaje profundo | Video 2] Descenso de gradiente: cómo aprenden las redes neuronales



Este video habla sobre cómo el descenso de gradiente ayuda a las redes neuronales a aprender de manera más efectiva.

  • 00:00:00 Se introduce la idea del descenso de gradiente, que está en el corazón de cómo aprenden las redes neuronales y muchos otros algoritmos de aprendizaje automático. Luego, el video muestra cómo se parametriza la red de reconocimiento de dígitos escritos a mano con una función de costo, pesos y sesgos. El rendimiento de la red se evalúa en el conjunto de ejemplos de entrenamiento y, a medida que la red mejora en el reconocimiento de números, la función de costo se vuelve cada vez más precisa.

  • 00:05:00 El descenso de gradiente es una herramienta poderosa para entrenar redes neuronales y es importante recordar que la función de costo debe tener una salida fluida para minimizarla de manera efectiva.

  • 00:10:00 Se explica el algoritmo de descenso de gradiente, así como el funcionamiento de las neuronas artificiales. El descenso de gradiente se usa para encontrar un mínimo local en la función de costo mientras se mueve en pequeños pasos cuesta abajo. Este proceso se repite hasta que la red llega a una buena solución. Luego, el video muestra un ejemplo de descenso de gradiente en acción con una red de neuronas
    entrenadas para reconocer números. Si bien la web no es perfecta, lo impresionante es que puede manejar imágenes que no ha visto antes.

  • 00:15:00 El descenso de gradiente es una técnica utilizada para entrenar redes neuronales. En la primera parte, vimos que las redes neuronales profundas entrenadas con datos etiquetados aleatoriamente logran la misma precisión que los datos bien etiquetados. La segunda parte muestra que si una red neuronal se entrena en un conjunto de datos con las etiquetas correctas, los mínimos locales de su función de costo son de la misma calidad.

  • 00:20:00 Demuestra cómo funciona el descenso de gradiente en las redes neuronales y cómo puede ayudar a la red a aprender de manera más efectiva.
Gradient descent, how neural networks learn | Chapter 2, Deep learning
Gradient descent, how neural networks learn | Chapter 2, Deep learning
  • 2017.10.16
  • www.youtube.com
Enjoy these videos? Consider sharing one or two.Help fund future projects: https://www.patreon.com/3blue1brownSpecial thanks to these supporters: http://3b1...
 

5. [Aprendizaje profundo | video 3] ¿Qué es exactamente la retropropagación?



>Backpropagation es un algoritmo utilizado en las redes neuronales para ayudarlas a aprender. El algoritmo funciona calculando el gradiente de la función de costo, que depende de los pesos y sesgos de la red. Luego, el gradiente se usa para ajustar los pesos y sesgos de la red.

  • 00:00:00 La retropropagación está en el corazón del entrenamiento de redes neuronales. El algoritmo funciona calculando el gradiente de la función de costo, que depende de los pesos y sesgos de la red. Luego, el gradiente se usa para ajustar los pesos y sesgos de la red.

  • 00:05:00 La retropropagación es un algoritmo de aprendizaje supervisado que ayuda a aumentar la activación de las neuronas en una red de aprendizaje profundo. El algoritmo ajusta los pesos y sesgos de las neuronas en la capa anterior para que este cambio sea proporcional al tamaño de los pesos correspondientes. La retropropagación también ayuda a propagar los cambios deseados en los pesos y sesgos de las neuronas en la segunda capa.

  • 00:10:00 La retropropagación se utiliza para ajustar los pesos y sesgos de la red neuronal. Este es un algoritmo de descenso de gradiente estocástico que divide aleatoriamente los datos en mini lotes y actualiza los pesos y sesgos en función del mini lote. Este algoritmo es computacionalmente más rápido que el verdadero descenso de gradiente y puede converger a un mínimo local de la función de costo.
What is backpropagation really doing? | Chapter 3, Deep learning
What is backpropagation really doing? | Chapter 3, Deep learning
  • 2017.11.03
  • www.youtube.com
What's actually happening to a neural network as it learns?Help fund future projects: https://www.patreon.com/3blue1brownAn equally valuable form of support ...
 

6. [Aprendizaje profundo | video 4] Fórmulas de retropropagación



Este video explica las matemáticas detrás del algoritmo de retropropagación para el aprendizaje profundo utilizando una red simple con una neurona por capa definida por pesos y sesgos. Se introduce una regla de la cadena para comprender cómo los cambios de peso afectan el costo, y la sensibilidad del costo a pequeños cambios de peso se encuentra a través de derivados de funciones de costo, funciones de activación y suma ponderada. La sensibilidad se tiene en cuenta calculando iterativamente la sensibilidad de la activación anterior en la extensión de la regla de la cadena para encontrar la sensibilidad a los pesos y sesgos anteriores. El enfoque sigue siendo similar incluso con varias neuronas por capa, y cada peso tiene su propio índice para realizar un seguimiento de su posición en la capa.

  • 00:00:00 En la primera parte, nos sumergimos en el aparato matemático necesario para la retropropagación en el aprendizaje profundo. Usando el ejemplo de una red simple con una neurona por capa definida por tres pesos y tres sesgos. El objetivo es comprender qué tan sensible es la función de costo a estas variables y qué ajustes serán más efectivos para reducir la función de costo. Se introduce una regla de la cadena para comprender cómo los cambios en las variables de peso afectan la función de costo. La sensibilidad de la función de costo a pequeños cambios en el peso se calcula utilizando las derivadas de la función de costo, la función de activación y la suma ponderada.

  • 00:05:00 La segunda parte introduce el concepto de sensibilidad en relación con los pesos y sesgos en una red neuronal. La derivada de la función de costo con respecto a los pesos y sesgos se encuentra a través de una extensión de la regla de la cadena, lo que requiere que se tenga en cuenta la sensibilidad. Aunque la sensibilidad se puede considerar como el número de neuronas que se disparan juntas y se comunican entre sí, la derivada requiere que la expresión se promedie entre todos los ejemplos de entrenamiento. La sensibilidad de la activación anterior en la extensión de la regla de la cadena se calcula y se utiliza para calcular iterativamente la sensibilidad a los pesos y sesgos anteriores. El enfoque no cambia mucho incluso si las capas de la red neuronal tienen múltiples neuronas; sin embargo, cada peso debe indexarse con índices adicionales para realizar un seguimiento de su posición en la capa.
Backpropagation calculus | Chapter 4, Deep learning
Backpropagation calculus | Chapter 4, Deep learning
  • 2017.11.03
  • www.youtube.com
Help fund future projects: https://www.patreon.com/3blue1brownAn equally valuable form of support is to simply share some of the videos.Special thanks to the...
 

Curso Completo de Inteligencia Artificial | Tutorial de inteligencia artificial para principiantes | Edureka

Arriba, le presentamos los mejores materiales para una introducción a las redes neuronales artificiales. Este video de Edureka le brindará un conocimiento completo y detallado de los conceptos de IA con ejemplos prácticos.


Para su comodidad, proporcionamos un cronograma general y luego uno detallado para cada parte. Puede ir directamente al momento adecuado, ver en un modo conveniente para usted y no perderse nada.

  1. 00:00:00 - 01:00:00 Parte 1 introduce en artificial inteligencia, analiza su historia, diferentes áreas y conceptos, y cómo se utiliza el aprendizaje profundo para resolver problemas del mundo real. También habla de diferentes tipos de inteligencia artificial y lenguajes de programación populares para desarrollar IA.

  2. 01:00:00 - 02:00:00 La parte 2 analiza varios tipos de inteligencia artificial y cómo se pueden utilizar para resolver diferentes tipos de problemas. Explica cómo se puede usar la regresión lineal para predecir la temperatura máxima promedio para un rango de temperatura dado, y cómo se puede usar la regresión logística para predecir la probabilidad de que un resultado sea uno o cero. También analiza el algoritmo del árbol de decisión y cómo se puede utilizar para construir un árbol de decisión. Finalmente, explica cómo se puede usar el bosque aleatorio para crear un pronóstico más preciso y estable.

  3. 02:00:00 - 03:00:00 En la parte 3 maestra Edureka Michael Kennedy explica cómo funciona el algoritmo de agrupación en clústeres K-means y cómo se puede utilizar para comprimir grandes conjuntos de datos en una pequeña cantidad de valores significativos. También comenta que el aprendizaje por refuerzo es otro tipo de aprendizaje automático que ayuda a los agentes a aprender a lograr sus objetivos en un entorno desconocido.

  4. 03:00:00 - 04:00:00 En la parte 4 aprendemos calcule la ganancia de información para un nodo principal, un nodo secundario y un tipo diferente de carretera. La entropía se calcula para el lado derecho y resulta ser cero, lo que indica que no hay incertidumbre. Cuando el camino es plano, la velocidad del automóvil es alta, lo que indica que no hay incertidumbre en esta información. Cuando el camino es empinado, la velocidad del vehículo puede ser lenta o rápida, lo que indica que la información no es específica para ningún tipo de camino en particular.

  5. 04:00:00 - 04:50:00 En la parte 5 Instructora Edureka Kirill Eremenko proporciona una descripción general completa de la inteligencia artificial, que cubre los fundamentos de la programación, los datos y el aprendizaje automático. Explica cómo funcionan las redes neuronales y cómo se pueden usar para predecir los precios de las acciones. También describe los pasos necesarios para entrenar una red neuronal, incluida la preparación de datos, la partición y el escalado. Finalmente, analiza los parámetros de la arquitectura del modelo para un sistema de IA, incluida la cantidad de neuronas en cada capa oculta, el tamaño del sesgo y la función de costo.


Línea de tiempo detallada para partes del curso de video

Parte 1

  • 00:00:00 Zulaikha de Edureka habla sobre la historia de la inteligencia artificial, varias áreas y conceptos relacionados con ella, cómo surgió la inteligencia artificial, las limitaciones de la máquina aprendizaje y cómo se necesita un aprendizaje profundo. También presenta el concepto de aprendizaje profundo y muestra cómo se puede utilizar para resolver problemas del mundo real. Finalmente, habla sobre el siguiente módulo, el procesamiento del lenguaje natural.

  • 00:05:00 La inteligencia artificial es la ciencia y la ingeniería de crear máquinas inteligentes que pueden realizar tareas que normalmente requerirían inteligencia humana, como la percepción visual, el habla reconocimiento, toma de decisiones y traducción entre idiomas. Los avances recientes en el poder de la computación y los algoritmos han hecho posible integrar de manera más efectiva la inteligencia artificial en nuestra vida diaria. Las universidades, los gobiernos, las empresas emergentes y las principales empresas de tecnología están volcando sus recursos en la IA porque creen que es el futuro. La inteligencia artificial se está desarrollando rápidamente como campo de estudio y como economía.

  • 00:10:00 La inteligencia artificial se utiliza en áreas que van desde las finanzas hasta la atención médica y las redes sociales. La IA se ha vuelto tan importante que incluso empresas como Netflix la están utilizando.

  • 00:15:00 La inteligencia artificial se divide en tres etapas y actualmente nos encontramos en la etapa de IA débil. La inteligencia artificial general, o IA fuerte, aún está lejos de lograrse, pero si lo hiciera, sería un hito en la historia de la humanidad.

  • 00:20:00 Esta sección presenta diferentes tipos de inteligencia artificial y luego analiza diferentes lenguajes de programación para IA. Python se considera el mejor lenguaje para el desarrollo de IA y R también es una opción popular. Otros lenguajes incluyen Python, Lisp, Prolog, C++, MATLAB, Julia y JavaScript.

  • 00:25:00 Python es un lenguaje de programación flexible y fácil de usar que se está volviendo popular en el campo de la inteligencia artificial. El aprendizaje automático es una técnica que permite a las máquinas aprender de los datos para mejorar sus predicciones.

  • 00:30:00 El aprendizaje automático es un subconjunto de la inteligencia artificial que utiliza algoritmos para aprender y mejorar automáticamente con la experiencia. El componente principal del proceso de aprendizaje automático es un modelo que se entrena mediante un algoritmo de aprendizaje automático.

  • 00:35:00 La diferencia entre un algoritmo y un modelo es que el algoritmo mapea todas las decisiones que el modelo debe tomar en función de una entrada determinada, mientras que el modelo utilizará un algoritmo de aprendizaje automático para extraer información útil de la entrada y brindarle un resultado muy preciso. Entonces tenemos una variable predictora, que es cualquier característica de los datos que se puede usar para predecir la salida. Entonces, en el mismo ejemplo, la altura será la variable de respuesta. La variable de respuesta también se conoce como variable objetivo o variable de salida. Esta es la variable que intenta predecir usando las variables predictoras. Entonces, la variable de respuesta es la función o variable de salida que debe predecirse utilizando las variables predictoras. Luego tenemos lo que se llama los datos de entrenamiento. La terminología de datos de "entrenamiento" y "prueba" que encontrará a menudo en el proceso de aprendizaje automático. Entonces, los datos de entrenamiento son los datos que se utilizan para construir el modelo de aprendizaje automático. Entonces, en el proceso de aprendizaje automático, cuando carga los datos en la máquina, se dividirá en dos partes. La división de datos en dos también se conoce como división de datos. Tomará los datos de entrada, los dividirá en dos partes.
  • 00:40:00 La recopilación de datos es uno de los pasos que más tiempo consume en el aprendizaje automático y, si tiene que recopilar datos manualmente, llevará mucho tiempo . Pero, afortunadamente, hay muchos recursos en línea que brindan extensos conjuntos de datos. Todo lo que tiene que hacer es raspado web donde solo tiene que descargar los datos. Un sitio del que puedo hablarles es Cargill. Entonces, si es nuevo en el aprendizaje automático, no se preocupe por la recopilación de datos y todo eso. Todo lo que tiene que hacer es ir a sitios web como Cargill y descargar el conjunto de datos.

  • 00:45:00 El aprendizaje supervisado es una técnica en la que se entrena una máquina utilizando datos bien etiquetados. El aprendizaje supervisado es similar a cómo los maestros ayudan a los estudiantes a comprender conceptos matemáticos.

  • 00:50:00 En el aprendizaje supervisado, el conjunto de datos de entrenamiento contiene información sobre el aspecto de los objetos, como imágenes de Tom y Jerry. Se entrena un algoritmo de aprendizaje automático en este conjunto de datos etiquetados para aprender a identificar y clasificar imágenes. En el aprendizaje no supervisado, un algoritmo de aprendizaje automático no recibe datos etiquetados, sino que se entrena con datos no etiquetados. En el aprendizaje por refuerzo, un agente se coloca en un entorno y aprende a comportarse realizando acciones y observando las recompensas recibidas por estas acciones.

  • 00:55:00 El aprendizaje automático consta de tres tipos principales de aprendizaje: aprendizaje supervisado, aprendizaje no supervisado y aprendizaje reforzado. El aprendizaje supervisado se usa para aprender datos etiquetados, el aprendizaje no supervisado se usa para aprender datos no etiquetados y el aprendizaje de refuerzo se usa para aprender acciones y recompensas. Hay tres tipos de problemas que se pueden resolver con el aprendizaje automático: regresión, clasificación y agrupamiento. Hay muchos algoritmos que se pueden usar para resolver problemas de regresión, clasificación y agrupamiento, pero los más utilizados son la regresión lineal, la regresión logística, la máquina de vectores de soporte y Naive Bayes.


Parte 2

  • 01:00:00 La inteligencia artificial se puede utilizar para resolver problemas de clasificación, regresión y agrupamiento. Los algoritmos de aprendizaje supervisado, como la regresión lineal, se utilizan para predecir variables objetivo, como el índice de precios de la vivienda, en función de los datos de entrada.

  • 01:05:00 La regresión lineal es un algoritmo de aprendizaje supervisado que se utiliza para predecir una variable dependiente continua, y, en función de los valores de la variable independiente, X. La regresión lineal comienza construyendo una relación entre y y x usando el mejor ajuste lineal, y luego calcula la pendiente y el cambio de y de la línea de regresión lineal.

  • 01:10:00 El instructor de Edureka, Michael Kennedy, demuestra la regresión lineal en un conjunto de datos de condiciones climáticas registradas en diferentes días alrededor del mundo. Muestra cómo importar las bibliotecas requeridas y leer los datos, cómo trazar puntos de datos y encontrar una relación lineal entre variables. También analiza el mensaje de advertencia y explica que el objetivo principal de esta demostración es el pronóstico del tiempo.

  • 01:15:00 Esta lección explica cómo se puede usar la regresión lineal para predecir la temperatura máxima promedio para un rango de temperatura determinado. Al dividir el conjunto de datos en conjuntos de entrenamiento y prueba, e importar la clase de regresión lineal apropiada, se entrena el modelo. Después del tutorial, el instructor muestra cómo calcular la pendiente y el cambio y para la línea correspondiente a los datos.

  • 01:20:00 Explica cómo usar el algoritmo de regresión para predecir el puntaje porcentual de un conjunto de datos de prueba. El video también muestra cómo trazar los resultados y compararlos con los valores reales.

  • 01:25:00 La regresión logística es una técnica utilizada para predecir la variable dependiente, y, dada la variable independiente, x, tal que la variable dependiente es categórica variable, es decir, la salida es una variable categórica. El resultado de la regresión logística siempre es categórico y la técnica básica utilizada en la regresión logística es muy similar a la regresión lineal.

  • 01:30:00 La regresión logística se usa para predecir la probabilidad de que un resultado sea uno o cero usando la ecuación Pr(X = 1) = beta0 + beta1 *X. La función logística, o curva S, asegura que se respete el rango entre cero y uno.

  • 01:35:00 El algoritmo del árbol de decisión es un algoritmo de aprendizaje supervisado que es fácil de entender. Consta de un nodo raíz (donde se produce la primera división), nodos internos (donde se toman las decisiones) y nodos hoja (donde se almacenan los resultados). Las ramas entre los nodos están representadas por flechas, y el algoritmo funciona recorriendo los datos a través del árbol hasta llegar a un nodo terminal.

  • 01:40:00 El algoritmo "ID3" es el algoritmo utilizado para crear un árbol de decisión. Los pasos necesarios para utilizar este algoritmo son los siguientes: (1) seleccionar el mejor atributo, (2) designar ese atributo como la variable de decisión para el nodo raíz, (3) crear un hijo para cada valor de la variable de decisión y (4) asignar etiquetas de clasificación a los nodos hoja. Si los datos se clasifican correctamente, el algoritmo se detiene; si no, entonces el algoritmo continúa iterando a través del árbol, cambiando la posición de las variables predictoras o el nodo raíz. El mejor atributo es el que separa los datos en diferentes clases de manera más efectiva. La entropía y la ganancia de información se utilizan para determinar qué variable separa mejor los datos. La medida más alta de ganancia de información se utilizará para particionar los datos en el nodo raíz.

  • 01:45:00 AM En este tutorial de video de IA para principiantes, aprendemos cómo calcular la ganancia de información para un nodo principal, un nodo secundario y un nodo diferente tipo de camino Se calcula la entropía para el lado derecho y resulta ser cero, lo que indica la ausencia de incertidumbre. Cuando el camino es recto, la velocidad del vehículo es alta, lo que indica que no hay incertidumbre en esta información. Cuando el camino es empinado, la velocidad del vehículo puede ser lenta o rápida, lo que indica que la información no es específica para ningún tipo de camino en particular.

  • 01:50:00 Describe cómo se usa la entropía para calcular la ganancia de información en un árbol de decisión. Se calcula la entropía para el nodo principal, se calcula el promedio ponderado para los nodos secundarios y se calcula la ganancia de información para cada variable predictora. La entropía de la variable de tipo de carretera es cero, lo que significa que no hay incertidumbre en el conjunto de datos. La ganancia de información para la variable de tipo de carretera es 0,325, lo que significa que el conjunto de datos contiene poca información sobre la variable de tipo de carretera. La ganancia de información para la variable obstáculo es cero, lo que significa que la variable obstáculo no afecta el árbol de decisión. La ganancia de información para la variable de límite de tasa es uno, lo que significa que la variable de límite de tasa tiene el mayor impacto en el árbol de decisión.

  • 01:55:00 El bosque aleatorio crea múltiples árboles de decisión, que luego se combinan para crear una predicción más precisa y estable. Bootstrapping se usa para crear un pequeño conjunto de datos que luego se usa para entrenar árboles de decisión. Random Forest es más preciso que Decision Trees en la predicción de nuevos datos porque se reduce el sobreajuste (memorización de datos de entrenamiento).


Parte 3

  • 02:00:00 Este video explica cómo crear un árbol de decisión usando un bosque aleatorio. Primero, se seleccionan aleatoriamente dos o tres variables para usar en cada nodo del árbol de decisión, y luego se calcula la ganancia de información y la entropía para cada una de ellas. Luego, este proceso se repite para cada nodo de rama siguiente, creando un árbol de decisión que predice la clase de salida en función de las variables predictoras seleccionadas. Finalmente, volvemos al primer paso y creamos un nuevo árbol de decisión basado en un subconjunto de las variables originales. Este proceso se repite hasta que se crean varios árboles de decisión, cada uno de los cuales predice la clase de salida en función de diferentes variables predictoras. Finalmente, la precisión del modelo se evalúa utilizando el conjunto de datos fuera de la bolsa.

  • 02:05:00 El instructor de Edureka, Michael Kennedy, explica cómo funciona Random Forest en este video. Primero, se crea un conjunto de datos de arranque para garantizar predicciones precisas. A continuación, se crea un árbol de decisión utilizando un conjunto aleatorio de predictores. Este proceso se repite cientos de veces hasta que se crea el modelo. La precisión del modelo se puede calcular mediante el muestreo fuera de la bolsa.

  • 02:10:00 El algoritmo del vecino más cercano de K es un algoritmo de aprendizaje supervisado que clasifica un nuevo punto de datos en una clase objetivo o una clase de salida según las características de su puntos de datos vecinos.

  • 02:15:00 El algoritmo KNN es un algoritmo de aprendizaje supervisado que utiliza datos para predecir la salida de nuevos puntos de datos de entrada. Se basa en la similitud de las características con los puntos de datos vecinos y no es paramétrico. El algoritmo KNN es perezoso y puede recordar el conjunto de entrenamiento en lugar de aprender la función discriminante.

  • 02:20:00 El instructor de Edureka, Alan Sy, explica los conceptos básicos de los algoritmos de clasificación KNN y SVM. Cada algoritmo tiene sus propias fortalezas, y SVM es una opción popular para la clasificación debido a su capacidad para manejar datos no lineales.
  • 02:25:00 Explora el uso de varios algoritmos de clasificación con Python. Primero, los datos se leen y se agrupan en tipos de frutas según sus etiquetas. Luego se implementan y prueban varios algoritmos en los datos. Finalmente, se muestran y discuten los resultados.

  • 02:30:00 Describe la importancia de la visualización en el aprendizaje automático y explica el uso de diagramas de caja, histogramas y escaladores. También se analiza la importancia de dividir los datos en conjuntos de entrenamiento y prueba.

  • 02:35:00 Este video cubre el uso de regresión logística, árboles de decisión y máquinas de vectores de soporte en un problema de clasificación. El clasificador de regresión logística dio un buen resultado en el conjunto de datos de entrenamiento, pero fue menos preciso en el conjunto de datos de prueba. El clasificador del árbol de decisiones fue más preciso en el conjunto de datos de entrenamiento, pero funcionó peor en el conjunto de datos de prueba. La máquina de vectores de soporte dio buenos resultados tanto en conjuntos de datos de entrenamiento como de prueba.

  • 02:40:00 El algoritmo de agrupación en clústeres K-means es un algoritmo de aprendizaje automático no supervisado que se utiliza para agrupar elementos o puntos de datos similares en clústeres. Se utiliza para marketing dirigido, como la promoción de un producto específico a un público específico.

  • 02:45:00El método del codo es un método simple que se usa para encontrar el valor óptimo de k para un problema en particular. El método del codo comienza calculando la suma de errores al cuadrado para diferentes valores de k y luego visualizándolos. A medida que aumenta k, el error disminuye, lo que indica que más grupos dan como resultado menos distorsión. El valor óptimo de k está en el punto del gráfico donde la disminución del error se ralentiza, formando una forma de "codo".

  • 02:50:00 El método del codo es una forma sencilla de elegir el valor K óptimo para el algoritmo K-means. Este método comienza calculando la suma de los errores cuadráticos para diferentes valores de K y representándolos en un gráfico. A medida que aumenta K, el error disminuye, lo que indica que más grupos dan como resultado menos distorsión. El valor K óptimo para K-means se encuentra en el punto en el que la distorsión disminuye drásticamente. Este método se puede implementar fácilmente utilizando funciones de biblioteca estándar. En este video, usamos una imagen de muestra del conjunto de datos de scikit-learn para demostrar el método del codo.

  • 02:55:00 Este video explica cómo funciona el algoritmo de agrupamiento de K-means y cómo se puede usar para comprimir grandes conjuntos de datos en una pequeña cantidad de valores significativos . También se considera que el aprendizaje por refuerzo es un tipo diferente de aprendizaje automático que ayuda a los agentes a aprender cómo lograr sus objetivos en un entorno desconocido.


Parte 4

  • 03:00:00 Un agente de aprendizaje por refuerzo en un videojuego como Counter Strike intenta maximizar su recompensa tomando la mejor acción de acuerdo con su estado actual y su entorno . Por ejemplo, si un agente se acerca a un tigre, puede reducir su recompensa esperada para tener en cuenta la posibilidad de que lo maten. Estos conceptos, como acción, estado, recompensa y gamma, se analizarán con más detalle en las siguientes diapositivas.

  • 03:05:00 En este video, el instructor de Edureka, Adriano Ferreira, analiza los conceptos de exploración y explotación, un enfoque matemático para resolver la toma de decisiones de Markov y la forma más breve problema de ruta Luego pasa a mostrar un ejemplo de cómo elegir una estrategia para resolver un problema usando la estrategia codiciosa y un ejemplo de cómo elegir una estrategia usando la estrategia de exploración.

  • 03:10:00 El instructor de Edureka explica los conceptos básicos del aprendizaje por refuerzo, incluidos los tres métodos principales: basado en políticas, basado en valores y basado en acciones . Luego demuestra el algoritmo Q-learning, que es un importante algoritmo de aprendizaje por refuerzo. El objetivo de Q-learning es encontrar el estado con la mayor recompensa, y la terminología utilizada en Q-learning incluye estado y acción.

  • 03:15:00 Explica los conceptos básicos de la inteligencia artificial, incluido cómo funciona y cómo crear un agente que pueda aprender de la experiencia. El video explica cómo se utilizan la matriz de recompensas y la matriz Q uniforme para determinar el estado actual del agente y las recompensas futuras. Gamma se utiliza para controlar la exploración y el uso de agentes.

  • 03:20:00 Describe los conceptos básicos de la inteligencia artificial, incluido cómo la matriz Q de un agente almacena su memoria y cómo actualizarla. Luego pasa a cómo hacer lo mismo en Python usando las bibliotecas NumPy y R.

  • 03:25:00 Demuestra cómo crear un sistema de inteligencia artificial (IA) enseñando a los principiantes cómo usar código para crear una matriz de recompensas y una matriz Q, y ajuste el parámetro gamma. Luego, el video muestra cómo entrenar el sistema de IA ejecutándolo durante 10,000 iteraciones y cómo probar el sistema eligiendo un estado aleatorio e intentando alcanzar el estado objetivo, que es la habitación número cinco.

  • 03:30:00 El aprendizaje automático es un campo de estudio que ayuda a las computadoras a aprender de los datos. Sin embargo, no puede manejar datos de alta dimensión. Otra limitación del aprendizaje automático son sus crecientes requisitos de potencia computacional a medida que aumenta el número de mediciones.

  • 03:35:00 La inteligencia artificial tiene una capacidad limitada para ser utilizada para el reconocimiento de imágenes porque las imágenes contienen muchos píxeles y tienen muchos datos arrogantes. La extracción de características es una parte importante del flujo de trabajo de aprendizaje automático porque la eficacia de un algoritmo depende de la profundidad con la que el programador haya analizado los datos. El aprendizaje profundo imita el funcionamiento de nuestro cerebro y puede autoaprender a centrarse en las funciones correctas, lo que requiere muy poca orientación del programador.

  • 03:40:00 El aprendizaje profundo es un conjunto de técnicas de aprendizaje automático que le permiten aprender jerarquías de características en los datos de manera efectiva. El aprendizaje profundo consiste en una red neuronal de neuronas artificiales que funcionan igual que nuestro cerebro. El número de capas y el número de perceptrones en cada capa depende completamente de la tarea o aplicación.

  • 03:45:00 Explica cómo se usa el peso en el cálculo de la función de activación. Esta función de activación luego determina qué cantidad de una entrada en particular (X uno) se usa para crear una salida (uno).

  • 03:50:00 Un perceptrón multicapa tiene la misma estructura que un perceptrón de una sola capa, pero con una o más capas ocultas. Los pesos se asignan inicialmente de forma aleatoria y es necesario que los pesos sean correctos para minimizar el error. La propagación hacia atrás es una forma de actualizar los pesos para reducir el error.

  • 03:55:00 El instructor de Edureka, Emmanuel, les enseña a los espectadores cómo calcular la salida del modelo mediante la retropropagación. Primero, calculan un error que muestra dónde el modelo es inexacto. Luego usan la retropropagación de errores para actualizar los pesos de una manera que minimice el error. Si el error sigue siendo alto, dejan de actualizar los pesos y encuentran el mínimo de pérdida global, luego se detienen.


Parte 5

  • 04:00:00 La propagación hacia atrás es una técnica matemática que se usa para ajustar los pesos de la red para reducir el error en la capa de salida. El descenso de gradiente se utiliza para optimizar el rendimiento de la propagación directa de la red. Las redes neuronales recurrentes son un tipo de redes neuronales artificiales que se pueden utilizar para reconocer patrones en una secuencia de datos.

  • 04:05:00 Explica cómo funcionan las redes neuronales profundas y cómo se pueden usar para predecir los precios de las acciones. Cubre los conceptos básicos de las redes neuronales directas, los perceptrones multicapa y las redes neuronales recurrentes.

  • 04:10:00 Describe los pasos necesarios para entrenar una red neuronal, incluida la preparación, división y escalado de datos. También se analiza el uso de marcadores de posición e inicializadores.

  • 04:15:00 Se analizan los parámetros de arquitectura modelo para un sistema de inteligencia artificial, incluida la cantidad de neuronas en cada capa oculta, la dimensión de sesgo y la función de costo. Luego explica cómo la función de activación transforma las capas ocultas y cómo se transpone y se calcula el costo de la salida.

  • 04:20:00 El instructor de Edureka, Kirill Eremenko, explica los conceptos básicos del aprendizaje profundo, incluida la función de las redes neuronales, los optimizadores y los inicializadores. También explica cómo funciona el entrenamiento de mini lotes y cómo se usan las épocas para entrenar una red neuronal.

  • 04:25:00 Aprendizaje profundo demostrado mediante la comparación de los valores del modelo predicho con los objetivos reales observados almacenados en y. Luego, TensorFlow se usa para actualizar los factores de ponderación y sesgo. Luego, el modelo se entrena con los datos de prueba y su predicción se compara con los valores reales. Después de 10 épocas, se muestra que la precisión del modelo es muy cercana al valor real.

  • 04:30:00 La minería de texto o el análisis de texto es el proceso de extraer información significativa del texto en lenguaje natural. La minería de texto es un campo amplio que utiliza NLP para realizar minería de texto y análisis de datos de texto. NLP es una parte de la minería de texto que ayuda a las máquinas a comprender los datos como ceros y unos. El procesamiento del lenguaje natural es lo que usan las computadoras y los teléfonos inteligentes para comprender nuestro idioma, tanto hablado como escrito. Ejemplos de aplicaciones de minería de texto y procesamiento de lenguaje natural incluyen detección de spam, escritura predictiva y análisis de sentimientos.

  • 04:35:00 Esto analiza la importancia de la tokenización, la derivación y la lematización en el procesamiento del lenguaje natural. Explica que la tokenización divide una oración en palabras, la derivación reduce las palabras a su forma base y la lematización vincula las palabras con su lema. Las palabras vacías son palabras comunes que se eliminan para centrarse en palabras importantes.

  • 04:40:00 Este tutorial de Edureka explica cómo realizar el procesamiento del lenguaje natural utilizando NaiveBayesClassifier, que es una biblioteca que contiene todas las funciones necesarias para realizar esta tarea . Luego demuestran el proceso realizando un análisis de opinión en el conjunto de datos de reseñas de películas. El clasificador pudo identificar qué reseñas eran positivas y cuáles negativas.

  • 04:45:00 El programa de ingeniero de aprendizaje automático de Edureka incluye nueve módulos con más de 200 horas de aprendizaje interactivo que cubren la programación Python, el aprendizaje automático y el procesamiento del lenguaje natural (PNL) , modelado gráfico, aprendizaje profundo y Spark. El plan de estudios incluye algoritmos supervisados y no supervisados, estadísticas y series temporales, aprendizaje profundo y Spark. El salario anual promedio de un ingeniero de aprendizaje automático supera los $ 134,000.

  • 04:50:00 Proporciona una introducción completa a la inteligencia artificial, incluidos los fundamentos de la programación, la ciencia de datos y el aprendizaje automático. Después de completar este módulo introductorio, el estudiante podrá continuar con cursos adicionales destinados a profundizar su comprensión de estos temas.
Artificial Intelligence Full Course | Artificial Intelligence Tutorial for Beginners | Edureka
Artificial Intelligence Full Course | Artificial Intelligence Tutorial for Beginners | Edureka
  • 2019.06.02
  • www.youtube.com
🔥 Machine Learning Engineer Masters Program (Use Code "𝐘𝐎𝐔𝐓𝐔𝐁𝐄𝟐𝟎"): https://www.edureka.co/masters-program/machine-learning-engineer-training This ...
 

El curso de Introducción al Aprendizaje Profundo del MIT está diseñado para un aprendizaje rápido e intensivo de los principios fundamentales del aprendizaje profundo.

El curso Introducción al aprendizaje profundo del MIT está diseñado para brindar una educación rápida e intensiva en los principios fundamentales del aprendizaje profundo, con aplicaciones en visión por computadora, procesamiento del lenguaje natural, biología y otros campos. Dentro del curso, los estudiantes obtendrán conocimientos básicos de algoritmos de aprendizaje profundo y experiencia práctica en la construcción de redes neuronales en TensorFlow. El programa culmina con un concurso de propuestas de proyectos, que es evaluado por el personal y los patrocinadores de la industria. Se supone que los estudiantes están familiarizados con el cálculo (es decir, capaces de tomar derivadas) y álgebra lineal (es decir, capaces de multiplicar matrices), pero todo lo demás se explicará a medida que avance el curso. La experiencia de trabajar con Python es útil pero no obligatoria.




En este video, MIT Alexander Amini presenta los conceptos básicos del aprendizaje profundo con una discusión sobre el perceptrón. Continúa mostrando cómo construir una red neuronal desde cero, simplificando el proceso mediante el uso de una biblioteca llamada TensorFlow. Termina el video discutiendo cómo crear una red neuronal de una capa y una de dos capas con una capa de salida.

  • 00:00:00 En este curso de introducción al aprendizaje profundo de una semana, los estudiantes aprenden los fundamentos del campo y adquieren experiencia práctica en el uso de laboratorios de software de aprendizaje profundo. El curso es falso, pero el video y el audio en realidad se generan utilizando técnicas de aprendizaje profundo. Esto le permite al instructor mostrar ejemplos realistas y de alta calidad de aprendizaje profundo en acción.

  • 00:05:00 Este video presenta los conceptos básicos del aprendizaje profundo, incluida la terminología y los conceptos involucrados. La clase se divide entre conferencias técnicas y laboratorios de software, y el proyecto final se centra en una idea creativa e innovadora. El video termina con una breve descripción de los instructores del curso y cómo contactarlos si tiene alguna pregunta.

  • 00:10:00 El objetivo principal del aprendizaje profundo es aprender características de los datos, lo que se hace entrenando redes neuronales profundas usando capas jerárquicas de neuronas. Esto permite una paralelización masiva, así como la capacidad de detectar características jerárquicas.

  • 00:15:00 En esta conferencia, aprenderá sobre los conceptos técnicos detrás del aprendizaje profundo, incluida la función de activación sigmoidea y la función relu. También verá cómo se utilizan las funciones de activación en las redes neuronales modernas para introducir la no linealidad. Finalmente, se le mostrará cómo usar la ecuación del perceptrón para calcular la combinación ponderada de los puntos de datos de entrada.

  • 00:20:00 Alexander Amini presenta los conceptos básicos del aprendizaje profundo con una discusión sobre el perceptrón. Continúa mostrando cómo construir una red neuronal desde cero, simplificando el proceso mediante el uso de una biblioteca llamada TensorFlow. Termina el video discutiendo cómo crear una red neuronal de una capa y una de dos capas con una capa de salida.

  • 00:25:00 En esta sección, describe cómo funciona el aprendizaje profundo y cómo construir una red neuronal para predecir si un estudiante aprobará o reprobará una clase. La red no está entrenada correctamente y, como resultado, la probabilidad prevista de pasar es incorrecta.

  • 00:30:00 En este video, Alexander Amini analiza los conceptos básicos del aprendizaje profundo y cómo optimizar una red neuronal mediante el descenso de gradiente. Explica que el aprendizaje profundo implica entrenar una red para mejorar sus predicciones basadas en datos. El objetivo es encontrar ponderaciones (w) que minimicen el error de la red en promedio, en todos los conjuntos de datos.

  • 00:35:00 En el aprendizaje profundo, la propagación hacia atrás es un proceso de propagación de gradientes hasta la entrada de una red neuronal para determinar cómo debe cambiar cada peso para disminuir su pérdida. En la práctica, el uso de tasas de aprendizaje que no son ni demasiado pequeñas ni demasiado grandes evita los mínimos locales y aun así converge hacia un óptimo global.

  • 00:40:00 Alexander Amini habla sobre cómo entrenar redes neuronales profundas mediante descenso de gradiente, tasas de aprendizaje adaptables y procesamiento por lotes. También analiza los peligros del sobreajuste y cómo mitigarlo.

  • 00:45:00 En esta conferencia, los puntos principales que se trataron fueron los componentes básicos de las redes neuronales, cómo completar el rompecabezas y entrenarlos, y cómo usar una función de pérdida. En la próxima conferencia, Ava hablará sobre el modelado de secuencias profundas utilizando rnn y un nuevo y emocionante tipo de modelo llamado transformador.
MIT Introduction to Deep Learning (2022) | 6.S191
MIT Introduction to Deep Learning (2022) | 6.S191
  • 2022.03.11
  • www.youtube.com
MIT Introduction to Deep Learning 6.S191: Lecture 1Foundations of Deep LearningLecturer: Alexander AminiFor all lectures, slides, and lab materials: http://i...
 

MIT 6.S191 (2022): Transformadores y redes neuronales recurrentes



Clase 2. MIT 6.S191 (2022): Transformadores y redes neuronales recurrentes

Esta sección de la conferencia del MIT proporciona una introducción al modelado de secuencias y explica la importancia de manejar datos secuenciales con ejemplos como la predicción de la trayectoria de una pelota. Las redes neuronales recurrentes (RNN) se presentan como un medio para manejar el modelado de secuencias, y la conferencia explica cómo las RNN usan una memoria interna (o estado) para capturar el historial anterior que informa las predicciones presentes y futuras. La conferencia también analiza cómo se pueden desplegar los RNN a lo largo del tiempo para hacer que las matrices de peso sean más explícitas e introduce problemas de diseño y criterios para el modelado de secuencias. El video también aborda problemas comunes con las RNN, como el problema del gradiente de fuga, y presenta el concepto de atención como una posible solución que permite que el modelo atienda las partes más importantes de la entrada sin recurrencia. La conferencia concluye con una discusión sobre cómo se pueden aplicar los mecanismos de autoatención a dominios más allá del procesamiento del lenguaje, como la biología y la visión artificial.

  • 00:00:00 En esta sección del video, la lección presenta el concepto de modelado de secuencias y su importancia en el manejo de tareas que involucran datos secuenciales. El disertante comienza con un ejemplo simple de predicción de la trayectoria de una pelota, donde agregar los datos de la posición anterior de la pelota mejora en gran medida la predicción. Los datos secuenciales nos rodean en diversas formas, como audio, texto, señales de EKG y precios de acciones. Luego, el disertante explica la diferencia entre los modelos feed-forward y los modelos secuenciales y brinda ejemplos de aplicaciones del mundo real donde se requiere el modelado secuencial. Para desarrollar una comprensión fundamental del modelado de secuencias, el disertante revisa el concepto del perceptrón y demuestra paso a paso cómo modificarlo para manejar datos secuenciales.

  • 00:05:00 En esta sección, el video analiza el concepto de redes neuronales recurrentes (RNN) y cómo manejan datos secuenciales. La salida de un RNN en un paso de tiempo particular depende no solo de la entrada en ese paso de tiempo sino también de la memoria del paso de tiempo anterior. Esta memoria captura la historia previa de lo que ha ocurrido previamente en la secuencia, y se transmite desde cada paso de tiempo anterior. El video explica cómo las RNN usan una memoria interna (o estado) para capturar esta noción de memoria y cómo la salida en un paso de tiempo particular es una función tanto de la entrada actual como de la memoria pasada. El video también describe cómo estos tipos de neuronas se pueden definir y representar como una relación de recurrencia.

  • 00:10:00 En esta sección de la conferencia, el instructor explica el concepto de relación de recurrencia en las redes neuronales y cómo forma la idea clave detrás de las redes neuronales recurrentes (RNN). El RNN mantiene un estado interno, h de t, que se actualiza en cada paso de tiempo mediante la aplicación de una relación de recurrencia que funciona como una combinación de la entrada actual y el estado anterior. Los parámetros de esta función están representados por un conjunto de pesos que se aprenden durante el entrenamiento. El RNN predice la salida después de haber procesado todas las palabras y puntos de tiempo en la secuencia. El vector de salida, y de t, se genera pasando el estado interno a través de una matriz de peso y aplicando una no linealidad. La conferencia proporciona una representación visual de cómo el bucle RNN se retroalimenta a sí mismo y se puede desarrollar a lo largo del tiempo.

  • 00:15:00 En esta sección, el orador explica cómo se puede desplegar un RNN a lo largo del tiempo para hacer que las matrices de peso que se aplican a la entrada sean más explícitas. Las matrices de peso se reutilizan en todos los pasos de tiempo individuales. El orador también incluye un ejemplo de cómo implementar un RNN desde cero y define la función de llamada, que define el paso hacia adelante a través del modelo RNN. El ponente destaca la utilidad de las RNN en una variedad de aplicaciones y motiva un conjunto de criterios de diseño concretos a tener en cuenta.

  • 00:20:00 En esta sección, el orador analiza los problemas de diseño y los criterios para el modelado de secuencias, que incluyen el manejo de secuencias de longitud variable, el seguimiento de dependencias a largo plazo, la preservación y el razonamiento sobre el orden y el intercambio de parámetros entre secuencias. El orador explica la importancia de las incrustaciones para representar el lenguaje como vectores numéricos que se pueden alimentar a una red neuronal, siendo un ejemplo una incrustación en caliente donde los vectores binarios indican la identidad de una palabra. El orador también sugiere usar modelos de aprendizaje automático, como redes neuronales, para aprender incrustaciones. En general, estos conceptos sirven como base para las redes neuronales recurrentes y la arquitectura transformadora emergente, que se analizará más adelante en la lección.

  • 00:25:00 En esta sección, se introduce el concepto de incrustaciones aprendidas, que es la asignación del significado de las palabras a una codificación más informativa que permite que palabras similares con significados similares tengan incrustaciones similares. Las redes neuronales recurrentes (RNN) pueden manejar longitudes de secuencia variables, capturar y modelar dependencias a largo plazo y retener un sentido de orden, lo que las hace útiles para tareas de modelado de secuencias, como predecir la siguiente palabra en una oración. El algoritmo de retropropagación a través del tiempo se presenta como el medio para entrenar RNN, lo que implica la retropropagación de errores en cada paso de tiempo y la realización de multiplicaciones de matrices, lo que puede generar problemas de cálculo.

  • 00:30:00 En esta sección, se analiza el problema de la explosión de gradientes y la desaparición de gradientes en modelos neuronales recurrentes, y se presentan tres soluciones para mitigar el problema de la desaparición de gradientes. El problema del gradiente de fuga puede hacer que un modelo neuronal priorice las dependencias a corto plazo sobre las de largo plazo, lo que lleva a predicciones inexactas. Las tres soluciones discutidas son elegir una función de activación adecuada, inicializar inteligentemente los pesos y usar una unidad recurrente más compleja, como una red de memoria a largo plazo (LSTM) que puede controlar selectivamente el flujo de información a través de sus diversas puertas. La red LSTM utiliza múltiples puertas que interactúan para mantener la información relevante y eliminar la información irrelevante.

  • 00:35:00 En esta sección del video, el disertante analiza los fundamentos de las redes neuronales recurrentes (RNN) y su arquitectura, incluida la importancia de las estructuras cerradas y la mitigación del problema del gradiente de fuga. Luego brindan ejemplos concretos de cómo se pueden usar los RNN, incluida la predicción de la siguiente nota musical en una secuencia para generar nueva clasificación de sentimientos de música y tweets. El disertante también destaca las limitaciones de las RNN, como el cuello de botella de codificación, la ineficiencia y la posible pérdida de información en la codificación.

  • 00:40:00 En esta sección, se discuten las limitaciones de las redes neuronales recurrentes (RNN) en el manejo de secuencias largas, particularmente el cuello de botella causado por la relación de recurrencia. El concepto de atención se introduce como una posible solución a este problema, permitiendo que el modelo identifique y atienda las partes más importantes de la entrada. La atención se explica como un mecanismo emergente y poderoso para las redes neuronales modernas, particularmente en el contexto de la arquitectura del transformador. La intuición detrás de la autoatención se desarrolla al considerar la capacidad de los humanos para identificar partes importantes de una imagen y extraer características de esas regiones con mucha atención.

  • 00:45:00 En esta sección, se explica el concepto de búsqueda y cómo se relaciona con la autoatención en redes neuronales como transformadores. La idea es atender las características más importantes en la secuencia de entrada sin recurrencia, haciendo uso de incrustaciones que tienen alguna noción de posición. El proceso implica extraer las características de consulta, clave y valor, que son tres transformaciones distintas de la misma incrustación posicional. El mecanismo de atención calcula las superposiciones entre la consulta y la clave, y el valor extraído se basa en este cálculo, lo que permite que la red identifique y atienda las partes más relevantes de la entrada.

  • 00:50:00 En esta sección del video, el instructor explica cómo funciona el mecanismo de atención en las redes neuronales. El mecanismo de atención calcula la ponderación de la atención que se debe prestar a las diferentes áreas de la entrada. Esto se puede lograr calculando la similitud entre la consulta y los vectores clave utilizando un producto escalar y escalándolo. Luego, la función softmax se usa para aplastar cada valor de modo que oscile entre 0 y 1. La matriz resultante es la ponderación de atención, que refleja la relación entre los componentes de entrada. Esta matriz de ponderación se usa para extraer características con mucha atención, y se pueden usar múltiples cabezas de atención individuales para atender diferentes aspectos de la entrada. Este mecanismo de atención es una herramienta poderosa, como lo demuestra su uso en arquitecturas de transformadores que tienen una variedad de aplicaciones, sobre todo en el procesamiento del lenguaje.

  • 00:55:00 En esta sección, el orador analiza cómo los mecanismos de autoatención se pueden aplicar a dominios más allá del procesamiento del lenguaje, como en biología con la arquitectura de red neuronal Alpha Fold 2 para la predicción de estructuras de proteínas y en visión por computadora con Vision Transformers. . El orador también resume la discusión anterior sobre las tareas de modelado de secuencias y cómo los RNN son poderosos para procesar datos secuenciales, y cómo los mecanismos de autoatención pueden modelar secuencias de manera efectiva sin la necesidad de recurrencia. La hora restante de la conferencia se dedica a las sesiones de laboratorio de software donde los estudiantes pueden descargar los laboratorios del sitio web del curso y ejecutar los bloques de código para completar los laboratorios, con horas de oficina virtuales y presenciales disponibles para asistencia.
MIT 6.S191 (2022): Recurrent Neural Networks and Transformers
MIT 6.S191 (2022): Recurrent Neural Networks and Transformers
  • 2022.03.18
  • www.youtube.com
MIT Introduction to Deep Learning 6.S191: Lecture 2Recurrent Neural NetworksLecturer: Ava SoleimanyJanuary 2022For all lectures, slides, and lab materials: h...
 

MIT 6.S191: Redes neuronales convolucionales



Clase 3. MIT 6.S191 (2022): Redes neuronales convolucionales

Este video presenta las redes neuronales convolucionales, un tipo de algoritmo de aprendizaje automático que se usa para detectar características en las imágenes. El video explica que al usar una cantidad menor de funciones, la red puede clasificar las imágenes con mayor precisión. El video también analiza cómo se puede usar un cnn para detectar y localizar una cantidad de objetos en una imagen.

  • 00:00:00 En este video, Alexander Amini analiza cómo el aprendizaje profundo ha revolucionado la visión y las aplicaciones informáticas, y cómo un ejemplo es el reconocimiento facial de datos.

  • 00:05:00 En esta sección, analiza cómo se usa la visión artificial para reconocer y clasificar imágenes. También analiza cómo detectar características en las imágenes y cómo clasificar las imágenes usando características.

  • 00:10:00 Esta parte analiza cómo se pueden usar las redes neuronales convolucionales para detectar características en las imágenes. El video explica que al aplanar una imagen, se pierde la estructura espacial, lo que dificulta que la red aprenda las características. El video también explica que al usar parches de pesos, la red puede preservar la estructura espacial y facilitar el aprendizaje de las características.

  • 00:15:00 Las redes neuronales convolucionales son un tipo de algoritmo de aprendizaje automático que se utiliza para detectar características en imágenes. El algoritmo funciona deslizando un pequeño parche a través de una imagen y detectando características que están presentes en el parche. Luego, los pesos para el parche se determinan entrenando la red en un conjunto de ejemplos.

  • 00:20:00 Las redes neuronales convolucionales son un tipo de algoritmo de aprendizaje automático que se puede usar para extraer características de las imágenes. El objetivo de la convolución es tomar como entrada dos imágenes y generar una tercera imagen que preserva la relación espacial entre píxeles.

  • 00:25:00 En este video, el presentador describe cómo se implementan las redes neuronales convolucionales en las redes neuronales y cómo se estructuran. También explica cómo funcionan las tres operaciones principales en una red neuronal convolucional: convolución, no linealidad y agrupación.

  • 00:30:00 Este video presenta las redes neuronales convolucionales, un nodo en la tubería de aprendizaje automático que está conectado a otros nodos en la i-ésima salida. Las capas convolucionales están definidas por parámetros que definen la disposición espacial de la salida de una capa. El objetivo de una capa convolucional es aprender características jerárquicas de una capa convolucional a la siguiente. Esto se logra apilando tres pasos (extracción de características, reducción de escala espacial y agrupación máxima) en tándem. Finalmente, el video muestra el código para una primera red neuronal convolucional de extremo a extremo.

  • 00:35:00 Alexander Amini explica cómo se pueden usar las redes neuronales convolucionales para tareas de clasificación de imágenes. Explica que mediante el uso de un mayor número de funciones, la imagen reducida de un automóvil se puede clasificar con mayor precisión como un taxi. También analiza cómo se puede utilizar una cnn para detectar y localizar una serie de objetos en una imagen, incluso cuando están ubicados en diferentes lugares de la imagen.

  • 00:40:00 El curso MIT 6.S191: Redes neuronales convolucionales analiza una heurística para la detección de objetos que es mucho más lenta y frágil que otros métodos. El método rcnn más rápido, que intenta aprender regiones en lugar de confiar en una simple heurística, se propone como una solución a estos problemas.

  • 00:45:00 En este video, Alexander Amini analiza las redes neuronales convolucionales, sus orígenes y sus aplicaciones. También cubre el impacto de cnns en una amplia gama de tareas y campos.
MIT 6.S191 (2022): Convolutional Neural Networks
MIT 6.S191 (2022): Convolutional Neural Networks
  • 2022.03.25
  • www.youtube.com
MIT Introduction to Deep Learning 6.S191: Lecture 3Convolutional Neural Networks for Computer VisionLecturer: Alexander AminiJanuary 2022For all lectures, sl...