Redes Neurais em IA e Deep Learning - página 18

 

Lección 8. Restricciones: búsqueda, reducción de dominio



8. Restricciones: búsqueda, reducción de dominio

Este video analiza el concepto de restricciones en la resolución de problemas, específicamente en el contexto de búsqueda y reducción de dominios. El orador usa el ejemplo de asignar colores a los estados en un mapa para ilustrar cómo se pueden usar las restricciones para reducir las posibilidades incluso antes de comenzar la búsqueda. El orador también explora diferentes enfoques para manejar las restricciones, como solo verificar las tareas o considerar todo, y presenta el concepto de planificación de recursos como otra aplicación de la resolución de problemas basada en restricciones. En general, el video proporciona una descripción general completa de cómo se pueden usar las restricciones para resolver problemas complejos de manera eficiente.

  • 00:00:00 En esta sección del video, el orador discute la dificultad del problema de colorear el mapa, usando un ejemplo de un mapa con 26 estados. Señala que una búsqueda en profundidad primero con opciones de color rotativas llevaría mucho tiempo para encontrar un color adecuado y demuestra el problema con un diagrama. Sin embargo, introduce el concepto de propagación de restricciones, que puede reducir las posibilidades del color de cada estado incluso antes de comenzar la búsqueda. Luego, el orador trabaja con el problema de Texas, mostrando cómo la propagación de restricciones puede ayudar a evitar quedar atrapado en una búsqueda imposible.

  • 00:05:00 En esta sección, el orador demuestra cómo usar restricciones para resolver un problema de asignación de colores a estados en un mapa. Al utilizar el principio de las artes marciales y observar las limitaciones locales, el orador se asegura de que ningún estado adyacente tenga el mismo color. El orador también presenta un vocabulario importante, que incluye variables, valores y dominios. La noción de un dominio es un conjunto de valores que puede tomar una variable, y el orador usa este vocabulario para mostrar cómo se pueden tomar decisiones que no causen problemas posteriores.

  • 00:10:00 En esta sección, el orador explica cómo funcionan las restricciones en el contexto de la búsqueda y la reducción de dominios. Las restricciones son limitaciones en pares de valores de variables, que a menudo se usan en problemas de coloreado de mapas. Cada estado es una variable, los colores son valores y las posibilidades de color restantes son los dominios. La restricción en este caso es que ningún estado que comparta un límite puede tener el mismo color. Luego, el orador pasa a formalizar su enfoque de búsqueda y reducción primero en profundidad escribiéndolo en pseudocódigo. El pseudocódigo implica considerar una variable para cada asignación, considerar todas las opciones restantes y garantizar que cualquier cosa que quede en el dominio esté bien para alguna selección en los otros estados.

  • 00:15:00 En esta sección, el orador analiza cómo manejar las restricciones en un algoritmo de búsqueda. Explican que para cada valor en la búsqueda, el algoritmo debe verificar si satisface las restricciones establecidas. Si no hay ningún valor adyacente que satisfaga la restricción, el algoritmo elimina el valor del dominio. Si el dominio queda vacío, entonces el algoritmo debe retroceder. El orador explora diferentes formas de abordar el problema, incluyendo no considerar nada, considerarlo todo y solo verificar las asignaciones, y finalmente descubre que solo verificar las asignaciones es rápido pero puede generar errores, mientras que considerar todo verifica todos los valores adyacentes pero puede ser excesivo.

  • 00:20:00 En esta sección, el orador analiza el algoritmo de reducción de dominio en el contexto de la resolución de un problema de asignación de color. Explican que verificar los vecinos de la asignación, lo que significa verificar qué opciones de color están disponibles para los estados vecinos, es esencial para resolver el problema. El ponente también sugiere propagar a través de variables con dominios reducidos para que el proceso sea más eficiente. Además, al verificar a los vecinos de los vecinos, el proceso de resolución de problemas se puede simplificar aún más. El orador señala que los algoritmos de reducción de dominio pueden ayudar a resolver problemas complejos, pero también reconoce las limitaciones y el potencial de callejones sin salida.

  • 00:25:00 En esta sección, el orador analiza la reducción del dominio y cómo decidir a través de qué variables propagarse. En lugar de propagarse a través de todas las variables con dominios reducidos, el algoritmo solo se propaga a través de aquellas con la mayor contracción, hasta un único valor. Al hacer esto, reduce la cantidad de restricciones verificadas, lo que lleva a tiempos de resolución más rápidos. El orador también presenta algunos "pequeños secretos sucios", como organizar un problema en un orden determinado para que sea más difícil de resolver. La elección entre comenzar con la variable más restringida o menos restringida se deja a la preferencia del usuario.

  • 00:30:00 En esta sección del video, el orador habla sobre trabajar primero en la menor restricción y cómo reordenaron las cosas para tener primero el estado menos restringido. Solo verificaron 1732 restricciones y tenían 59 callejones sin salida, por lo que intentaron lo contrario al verificar solo las primeras asignaciones más restringidas. Sin embargo, mencionan que si los estados se ordenaran de mayor a menor restricción, la búsqueda ordinaria en profundidad funcionaría bien. Luego, el orador presenta un problema de planificación de recursos con Jet Green, una nueva aerolínea, y analiza cómo es análogo al problema de coloreado del mapa. Jet Green quiere volar principalmente entre Boston y Nueva York y ocasionalmente quiere volar a Los Ángeles mientras intenta sobrevivir con la menor cantidad de aviones.

  • 00:35:00 En esta sección, el ponente presenta un ejemplo de programación de vuelos entre ciudades, que se puede resolver aplicando los conceptos del problema de coloreado de mapas. El desafío es organizar los cuatro aviones para operar en las rutas deseadas de manera eficiente. El orador destaca las limitaciones del problema: dos aviones no pueden volar al mismo tiempo, cada avión debe usarse por igual y hay limitaciones de tiempo en tierra. Además, el orador demuestra que la elección de la estrategia de búsqueda, la reducción de dominios, la verificación de vecinos y el primer tipo más restringido pueden afectar la eficiencia de la solución.

  • 00:40:00 En esta sección, el instructor introduce el concepto de usar restricciones mínimas y máximas para determinar la cantidad adecuada de recursos necesarios para una tarea. Al establecer un número mínimo y máximo de recursos, el algoritmo puede converger rápidamente en un rango estrecho donde la búsqueda lleva mucho tiempo, lo que permite estar seguro de que se encuentra dentro de ese rango. El instructor también recomienda usar la mayoría de las restricciones primero y propagarlas a través de dominios reducidos a un solo algoritmo para lograr una buena asignación de recursos. Al hacer varias cosas a la vez, es posible determinar rápidamente los recursos necesarios para una tarea.
 

Lección 9. Restricciones: reconocimiento visual de objetos



9. Restricciones: reconocimiento visual de objetos

En este video, Patrick Winston analiza los desafíos de reconocer objetos visuales, incluidas las ideas de David Marr de formar una descripción basada en bordes de objetos, superficies normales y cilindros generalizados. El ponente también profundiza en diferentes métodos para el reconocimiento visual de objetos, incluida la teoría de alineación y el uso de algoritmos de correlación para calcular la ubicación de características de tamaño intermedio. Winston destaca los desafíos de reconocer objetos naturales que no tienen dimensiones idénticas y la importancia del contexto y la narración en el reconocimiento visual, usando el ejemplo de un gato bebiendo. A lo largo del video, proporciona demostraciones y ejemplos para explicar varios conceptos. En general, el disertante enfatiza las dificultades del reconocimiento visual y anima a los estudiantes a continuar investigando en el campo.

  • 00:00:00 En esta sección, Patrick Winston analiza los desafíos de reconocer objetos visuales, como rostros. Presenta un programa que puede variar el aspecto de la imagen de un político, mostrando cómo se interpola entre las imágenes almacenadas. Luego, Winston profundiza en la historia del reconocimiento de objetos, comenzando con las ideas de David Marr, que propuso que el primer paso en el reconocimiento visual es formar una descripción del objeto basada en los bordes, conocida como boceto principal. Luego, Marr sugirió decorar el boceto principal con superficies normales para mostrar la orientación del objeto, llamándolo el boceto de dos D y media. A esto le siguió la conversión del boceto de dos D y media D en cilindros generalizados, lo que nos acercó un paso más al reconocimiento de objetos visuales.

  • 00:05:00 En esta sección, el orador habla sobre diferentes enfoques para el reconocimiento visual de objetos, comenzando con la idea de un cilindro regular como un área circular que se mueve a lo largo de un eje, y continúa discutiendo el concepto de teoría de alineación. La teoría de la alineación del reconocimiento se basa en la idea de que tener tres imágenes de un objeto permite la reconstrucción de cualquier vista de ese objeto en proyección ortográfica, que puede usarse para reconocer un objeto en una biblioteca. El orador afirma que se pueden elegir los lugares correspondientes en diferentes objetos, y que la alineación de las imágenes y el objeto desconocido se puede usar para determinar si el objeto desconocido es el mismo que el objeto original.

  • 00:10:00 En esta sección, Patrick Winston explica cómo generar una ecuación para diferentes objetos usando alfa, beta, gamma y tau como constantes. Demuestra cómo funciona esta ecuación para cuatro puntos de diferentes colores y, al elegir los mismos valores alfa, beta, gamma y tau para todos los puntos, puede usar con éxito operaciones lineales para relacionar puntos en diferentes objetos. Luego explica que las coordenadas son proyecciones 2D del objeto en un dibujo y responde preguntas sobre cómo se pueden identificar las superficies curvas en el reconocimiento visual de objetos.

  • 00:15:00 En esta sección, Patrick Winston analiza cómo las restricciones pueden ayudar a predecir la ubicación de un objeto para facilitar el reconocimiento. Explica que mediante el uso de las variables alfa, beta, gamma y tau, que se pueden derivar de cuatro ecuaciones lineales y cuatro incógnitas, los puntos correspondientes se pueden identificar correctamente para proporcionar información valiosa sobre la posición del objeto desconocido. Winston demuestra este método y explica que si los puntos correspondientes se identifican correctamente, proporciona una fuerte indicación de que el objeto es el correcto, como un obelisco o un órgano.

  • 00:20:00 En esta sección, el orador demuestra cómo calcular el movimiento de la coordenada x en una imagen de un objeto 3D a medida que gira alrededor del eje z. Comienzan definiendo una posición estándar e identificando las coordenadas x e y en esa posición, luego giran el objeto para crear tres posiciones diferentes (a, b y c) y determinan el ángulo de rotación para cada una. Luego, el hablante usa rotaciones vectoriales para calcular cómo cambia la coordenada x a medida que el objeto gira alrededor del eje z. El proceso implica el uso de las funciones coseno y seno y la consideración de las proyecciones de coordenadas x e y del vector a medida que gira.

  • 00:25:00 En esta sección, el orador simplifica la ecuación que describe el reconocimiento visual de objetos a través de la proyección ortográfica, que es la proyección a lo largo del eje x sin ninguna perspectiva. Argumenta que los factores desconocidos, como el coseno y el seno de los ángulos theta, son constantes y pueden representarse como multiplicadores alfa y beta para x sub a y x sub b. Cuando se le presenta el escenario de permitir la traslación y la rotación, el hablante señala que la constante adicional tau debe identificarse restando dos ecuaciones.

  • 00:30:00 En esta sección, Patrick Winston analiza diferentes métodos de reconocimiento de objetos. Habla sobre el problema de reconocer objetos naturales que no tienen dimensiones idénticas, a diferencia de los objetos manufacturados donde uno puede tomar fotografías y registrar las coordenadas de algunos de los puntos para el reconocimiento. Luego presenta la teoría de Shimon Ullman basada en la correlación, donde se pueden tomar dos imágenes, aplicar una como máscara de correlación a la otra imagen y ubicar el objeto principal. Sin embargo, esta idea tiene limitaciones ya que no puede localizar características poco comunes, sino solo las comunes. Winston explora más la idea dibujando ejemplos de dos caras de calabaza y analiza los problemas con la idea de reconocer objetos basándose en la identificación de características específicas como ojos y narices.

  • 00:35:00 En esta sección, el orador analiza cómo funciona el reconocimiento de objetos visuales y cómo depende del tamaño de las características que se reconocen. Si bien las imágenes que son demasiado pequeñas o demasiado grandes no brindan información útil, las características de tamaño intermedio, como las combinaciones de dos ojos y una nariz, pueden ser útiles. El desafío entonces se convierte en encontrar estas características intermedias en un mar de imágenes. El orador sugiere usar algoritmos de correlación para determinar el desplazamiento en la imagen donde ocurre la característica. Al maximizar sobre un parámetro x, se puede calcular la integral de la cara y la imagen para determinar la ubicación de la característica.

  • 00:40:00 En esta sección del video, el presentador explica cómo funciona la correlación en el reconocimiento visual de objetos usando imágenes con ruido como ejemplos. La correlación implica la multiplicación y la integración sobre la extensión de la cara con un desplazamiento. Cuando el offset es igual, el programa multiplica la imagen por sí misma y la integra sobre el rostro. Al maximizar los parámetros de traducción x e y, es posible seleccionar características específicas de una imagen, como el rostro de una persona, a pesar del ruido agregado. La demostración mostró que incluso con ruido adicional, el programa aún podía seleccionar las características correctas.

  • 00:45:00 En esta sección, Patrick Winston analiza los desafíos del reconocimiento visual, en particular la capacidad de reconocer a las personas desde diferentes ángulos. Señala que, si bien no está claro cómo podemos reconocer caras desde diferentes ángulos, poner las caras boca abajo o estirarlas podría potencialmente romper la teoría de la correlación. Sin embargo, sugiere que las preguntas más desafiantes radican en cómo podemos determinar lo que está sucediendo visualmente. Desafía a los estudiantes a determinar qué acción está realizando en un experimento, destacando los desafíos actuales en la visión por computadora.

  • 00:50:00 En esta sección, el orador usa el ejemplo de un gato bebiendo para demostrar cómo nuestro poder de contar historias influye en nuestro reconocimiento visual. A pesar de las considerables diferencias visuales, los humanos pueden identificar fácilmente que el gato está bebiendo al comprender la narrativa presentada en la imagen. La parte inferior de nuestro sistema de visión proporciona suficiente información para que nuestro aparato narrativo reconozca la acción de beber del gato, lo que demuestra la importancia del contexto y la narración en el reconocimiento de objetos visuales.
 

Lección 10. Introducción al aprendizaje, Vecinos más cercanos



10. Introducción al aprendizaje, vecinos más cercanos

En este video de YouTube, el profesor Winston presenta el tema del aprendizaje y analiza dos tipos de aprendizaje: el aprendizaje basado en la regularidad y el aprendizaje basado en la retroalimentación. Se enfoca en técnicas de aprendizaje basadas en la regularidad, como el aprendizaje del vecino más cercano, las redes neuronales y el impulso. El aprendizaje del vecino más cercano implica un detector de características, que genera un vector de valores, que luego se compara con vectores de una biblioteca de posibilidades para encontrar la coincidencia más cercana y determinar qué es un objeto. El ponente da varios ejemplos de cómo se puede aplicar este método. Además, analiza cómo se pueden usar los límites de decisión para identificar la categoría de un objeto. Se introduce el principio de similitud entre diferentes casos y se enfatiza la importancia de la gestión del sueño, ya que afecta en gran medida el aprendizaje. Finalmente, toca el problema de la no uniformidad, el problema de "lo que importa" y la importancia de normalizar los datos utilizando técnicas estadísticas.

  • 00:00:00 En esta sección, el profesor Winston presenta el tema del aprendizaje y dos tipos de aprendizaje: aprendizaje basado en regularidades y aprendizaje basado en retroalimentación. Se centra en el primero y analiza las técnicas de aprendizaje basadas en la regularidad, como el aprendizaje del vecino más cercano, las redes neuronales y el refuerzo. El aprendizaje del vecino más cercano es una técnica bien establecida en el campo del reconocimiento de patrones y es lo primero que se debe intentar al resolver un problema de aprendizaje. El profesor también plantea dos acertijos a considerar, a saber, cómo crear un programa de computadora que pueda beber café y para qué pensaría un perro que es una coca cola dietética. Por último menciona la importancia de abordar el tema del sueño y manejarlo adecuadamente ya que afecta en gran medida el aprendizaje.

  • 00:05:00 En esta sección, el orador introduce el concepto de aprendizaje del vecino más cercano, que es un tipo de reconocimiento de patrones. Esto implica un detector de características que genera un vector de valores, que luego se compara con vectores de una biblioteca de posibilidades para encontrar la coincidencia más cercana y determinar qué es un objeto. El orador da un ejemplo del uso de este método para clasificar cubiertas eléctricas en una línea de montaje midiendo su área y el área de los agujeros. Esta es una forma de aprendizaje basado en la regularidad, que es como una excavadora que procesa información. El orador señala que este no es necesariamente el mejor modelo para el aprendizaje humano, que involucra ideas basadas en restricciones y permite el aprendizaje de una sola vez y el aprendizaje basado en explicaciones.

  • 00:10:00 En esta sección, el instructor usa el ejemplo de ensamblar cubiertas con diferentes áreas de agujeros para explicar el concepto de límites de decisión. Demuestra cómo dividir el espacio utilizando bisectrices perpendiculares, que pueden ayudar a identificar la categoría de un objeto en función de su descripción idealizada más cercana. Además, los límites de decisión también se pueden utilizar para identificar la categoría de un nuevo objeto midiendo uno de sus atributos y comparándolo con las categorías creadas por los límites de decisión.

  • 00:15:00 En esta sección, el orador introduce el principio de similitud entre diferentes casos, afirmando que si algo es similar en ciertos aspectos, es probable que también lo sea en otros aspectos. Este principio es la base de la mayor parte del aprendizaje, ya sea en cuentos de hadas, casos legales o comerciales, o incluso casos médicos. La idea es reconocer similitudes con una situación actual para aplicar algún precedente o conocimiento. El principio se puede aplicar en varios campos. Por ejemplo, se puede utilizar en la identificación de celdas, donde las celdas se pueden colocar en un espacio de alta dimensión y evaluar su similitud en función de varias propiedades. De manera similar, el principio se puede usar en la recuperación de información, donde los artículos de revistas se pueden comparar en función del recuento de palabras para abordar preguntas específicas.

  • 00:20:00 En esta sección, se explora el concepto de usar los vecinos más cercanos al intentar determinar qué artículo está más cerca de uno desconocido. El problema surge cuando se determina que todos los artículos de Town y Country son los más cercanos. En cambio, la clase analiza el uso de una métrica diferente, como el ángulo entre vectores, para resolver el problema. El coseno del ángulo entre dos vectores se puede calcular mediante un cálculo simple, que puede ser útil en muchas situaciones, incluido el control de brazos robóticos. El objetivo es mover un brazo para controlar la trayectoria de una pelota a una velocidad y aceleración específicas, lo que implica determinar dos ángulos, theta 1 y theta 2.

  • 00:25:00 En esta sección, el orador analiza los problemas que se encuentran al traducir las coordenadas deseadas (x, y) de una pelota al espacio θ1 y θ2 con las posiciones, velocidades y aceleraciones deseadas. Introducen el concepto de fuerzas de Coriolis, que son el resultado de la complicada geometría involucrada en las ecuaciones de movimiento. Para resolver este problema, el orador sugiere construir una gran tabla de combinaciones de movimiento para el brazo, luego dividir la trayectoria deseada en partes pequeñas y encontrar la combinación más cercana de la tabla, incluidos los pares asociados. Este método fue rechazado anteriormente debido a la potencia informática insuficiente, pero se ha revisado recientemente y funciona bien para movimientos similares.

  • 00:30:00 En esta sección, el orador explica cómo funciona el proceso de aprendizaje a medida que el robot pasa por su "infancia" y gradualmente mejora en la tarea. La mejora se logra mediante el uso de una tabla que registra mejores versiones de los movimientos requeridos para que el robot pueda consultarlos más tarde. Luego, el orador muestra un gráfico que demuestra qué tan rápido se lleva a cabo el aprendizaje del robot. El tema de usar el mismo método de registro de memoria para registrar lanzamientos de béisbol también se discute brevemente.

  • 00:35:00 En esta sección, el profesor Patrick Winston analiza la cantidad de neuronas y sinapsis en el cerebro, específicamente en el cerebelo, relacionadas con el control motor, y cómo puede funcionar como una mesa gigantesca para el aprendizaje de habilidades motoras. Luego explora el problema de los datos normalizados en el aprendizaje automático y cómo puede afectar la distribución de datos en diferentes dimensiones. La solución es calcular la varianza y normalizar los datos usando técnicas de estadística.

  • 00:40:00 En esta sección, el orador analiza los posibles problemas que pueden surgir al usar los vecinos más cercanos en el aprendizaje. Uno de esos problemas es el problema de la falta de uniformidad cuando los datos no dependen de la nueva variable. El segundo problema es el problema de "lo que importa", donde el algoritmo puede medir una distancia que confunde la respuesta. Por último, el problema tres es cuando los datos disponibles son independientes de la pregunta, similar a tratar de hornear un pastel sin harina. Luego, el orador se refiere a la importancia del sueño y cuán cruciales son los buenos hábitos de sueño, particularmente para personas como los Rangers del Ejército. Además, explica cómo la privación del sueño puede conducir a errores en la distinción de objetivos, lo que se ha observado durante el análisis de la posguerra.

  • 00:45:00 En esta sección, el orador analiza los efectos de la pérdida de sueño en la mente y el cuerpo humanos. Explica que después de 72 horas, la capacidad y el rendimiento de un individuo se reducen en un 30 % en comparación con el inicio. La pérdida de sueño se acumula, y después de 20 días de privación de sueño de una hora, su capacidad se reduce al 25 %. El orador también examina la eficacia de la cafeína y las siestas, destacando que la cafeína ofrece algo de ayuda. Él advierte contra la confusión de la correlación con la causa y cómo los animales como los perros y los gatos pueden cometer el error de que las bebidas dietéticas causan aumento de peso debido a una correlación que ven.
 

Lección 11. Aprendizaje: árboles de identificación, desorden



11. Aprendizaje: árboles de identificación, desorden

El profesor del MIT, Patrick Winston, explica el concepto de construir un mecanismo de reconocimiento para identificar vampiros utilizando datos y la importancia de crear un árbol de identificación pequeño y rentable que satisfaga la Navaja de Occam. Propone usar mecanismos heurísticos para construir el árbol ya que calcular todos los árboles posibles es un problema de NP. Winston sugiere usar una prueba de sombra, prueba de ajo, prueba de complexión y prueba de acento para identificar qué individuos son vampiros y explica cómo medir el desorden en conjuntos para encontrar la calidad general de una prueba basada en la medición del desorden. El video también analiza cómo los árboles de identificación se pueden usar con datos numéricos, y el árbol se puede convertir en un conjunto de reglas para crear un mecanismo simple basado en el comportamiento basado en reglas.

  • 00:00:00 En esta sección, el profesor del MIT Patrick Winston presenta el concepto de usar datos para construir un mecanismo de reconocimiento para identificar vampiros. Señala las diferencias entre este conjunto de datos y el conjunto de datos de cobertura eléctrica con el que trabajaron en la clase anterior, y señala que este conjunto de datos no es numérico sino simbólico, lo que hace que las técnicas del vecino más cercano sean inutilizables. También destaca otros desafíos en la identificación de vampiros, como el costo de ciertas pruebas y la incertidumbre de qué características realmente importan.

  • 00:05:00 En esta sección, Patrick Winston explica el concepto de árboles de identificación o árboles de decisión y enfatiza la importancia de construir un árbol pequeño que sea rentable y produzca subconjuntos uniformes de datos. El objetivo es encontrar la mejor disposición posible de las pruebas para producir una explicación simple y pequeña que satisfaga la Navaja de Occam, que establece que la explicación más simple es a menudo la mejor explicación. También sugiere usar un mecanismo heurístico para construir el árbol, ya que calcular todos los árboles posibles es un problema de NP. Por último, Winston advierte que el pequeño conjunto de muestras utilizado en el aula no es adecuado para aplicaciones del mundo real.

  • 00:10:00 En esta sección, se utilizan una prueba de sombra, una prueba de ajo, una prueba de complexión y una prueba de acento para identificar qué individuos son vampiros. Las pruebas se aplican a una población de muestra pequeña y, al observar cómo las pruebas dividen los datos, es posible determinar qué prueba produce los grupos más homogéneos. El objetivo final es encontrar una prueba que pueda identificar con precisión a todos los vampiros en la población de muestra. La prueba de la sombra divide a la población entre los que proyectan sombra y los que no proyectan sombra, y solo un individuo no proyecta sombra, lo que indica que es un vampiro. La prueba del ajo determina que todos los vampiros de la población de muestra respondieron negativamente a comer ajo. La prueba de complexión y la prueba de acento también ayudan a identificar qué individuos tienen más probabilidades de ser vampiros.

  • 00:15:00 En esta sección, el video explica un ejemplo de cómo crear un árbol de identificación dividiendo un grupo de individuos en conjuntos homogéneos seleccionando características que son únicas para cada grupo. El ejemplo involucra a vampiros y no vampiros y las pruebas utilizadas para identificar cada grupo. El video también aborda preguntas sobre cómo aplicar este concepto a conjuntos de datos más grandes y destaca las limitaciones del ejemplo del salón de clases.

  • 00:20:00 En esta sección, se introduce el concepto de medir el desorden en conjuntos. Para encontrar una manera de medir el desorden de los conjuntos que se encuentran en la parte inferior de las ramas de los árboles, se busca orientación en los teóricos de la información. El desorden de un conjunto, según los teóricos de la información, se calcula teniendo en cuenta el número total de positivos y negativos, y multiplicando el número de positivos por el logaritmo de los positivos dividido por el número total, con respecto a una base de 2 Este método puede ayudar a encontrar la calidad general de una prueba basada en la medición del trastorno.

  • 00:25:00 En esta sección, el orador explica la fórmula para medir el desorden en un conjunto de datos utilizando proporciones de positivos y negativos. Después de calcular los valores para conjuntos de datos completamente mezclados y completamente positivos, el ponente confirma la importancia de prestar atención a estas curvas para trabajar rápidamente las preguntas del cuestionario. Finalmente, usando la regla de L'Hopital, el hablante calcula un tercer valor cuando la relación entre los negativos y el total se aproxima a 0, lo que permite graficar una curva con tres puntos.

  • 00:30:00 En esta sección, el disertante analiza cómo medir la calidad de una prueba en general y cómo medir el desorden en cada conjunto producido por la prueba. El orador propone sumar el desorden de cada conjunto producido por la prueba, pero señala que este método puede no ser el mejor, ya que le da el mismo peso a una rama que casi no tiene nada abajo que a una rama que casi todo baja. Para solucionar este problema, el ponente propone ponderar la suma en función de la fracción de muestras que acaban bajando por esa rama. El hablante ilustra este método con un problema de muestra y concluye que el desorden de un conjunto homogéneo es cero.

  • 00:35:00 En esta sección, la atención se centra en la calidad de las pruebas que identifican y dividen los datos proporcionados en subconjuntos. El desorden o el desorden de un conjunto es cero cuando todas las muestras son iguales y es uno cuando las muestras son igualmente una mezcla uniforme de dos tipos. Al multiplicar la probabilidad de los subconjuntos por el respectivo desorden de los conjuntos, se puede calcular la calidad de cada prueba. Esta métrica de calidad se usa luego para decidir qué prueba es mejor para dividir los datos en subconjuntos homogéneos, lo cual es esencial para construir el árbol lo más simple posible. Sin embargo, se da énfasis a la intuición detrás del análisis de datos más que a la teoría de la información o la entropía.

  • 00:40:00 En esta sección, el video analiza cómo los árboles de identificación aún se pueden usar con datos numéricos al poner umbrales en los datos. Esto permite crear pruebas binarias, similares a las pruebas utilizadas con datos categóricos. La computadora puede probar diferentes valores de umbral y determinará qué umbral funciona mejor para separar los datos en grupos homogéneos. A diferencia de otros métodos, como los vecinos más cercanos, los límites de decisión son paralelos a un eje u otro, en lugar de seguir la forma de los datos en sí.

  • 00:45:00 En esta sección, aprendemos sobre los árboles de identificación, sus virtudes y cómo se pueden convertir en un conjunto de reglas para que sean más simples para aquellos que están orientados a las reglas. El árbol se puede convertir en un conjunto de reglas bajando cada rama hasta una hoja, y si una regla prueba tanto la sombra como el ajo, podemos deshacernos de algunas de las cláusulas para crear un mecanismo simple basado en reglas. comportamiento.
 

Clase 12a: Redes Neuronales



12a: Redes neuronales

Este video cubre una variedad de temas relacionados con las redes neuronales. El orador comienza discutiendo la historia de las redes neuronales, destacando el trabajo fundamental realizado por Geoff Hinton que transformó el campo. Luego se analiza la anatomía de una neurona, así como la forma en que se recopilan y procesan las entradas. Luego, el video profundiza en cómo las redes neuronales funcionan como aproximadores de funciones y cómo se puede mejorar el rendimiento mediante la escalada y el descenso de gradientes. Se presenta la regla de la cadena para facilitar el cálculo de derivadas parciales, y el orador demuestra cómo se puede entrenar la red neuronal más simple del mundo utilizando este enfoque. También se analiza la constante de velocidad óptima para una red neuronal, y el orador presenta una red neuronal más compleja con dos entradas y salidas. Por último, se introduce el principio de reutilización para abordar el problema de la posible explosión exponencial de caminos a través de grandes redes. En general, el video enfatiza que las grandes ideas en las redes neuronales suelen ser simples y fáciles de pasar por alto, aunque pueden tener un impacto significativo en el campo.

  • 00:00:00 En esta sección, el profesor describe la historia de las redes neuronales y menciona que inicialmente, muchos creían que los modelos neuronales de la época no eran modelos precisos del cerebro humano y que nadie había logrado hacer un modelo neuronal que valía cualquier cosa. Continuando, el profesor menciona que dos años después, Geoff Hinton, de la Universidad de Toronto, sorprendió al mundo con un trabajo neuronal que había realizado para reconocer y clasificar imágenes, y publicó un artículo con algunos ejemplos. El video muestra algunos ejemplos de imágenes que la red neuronal de Toronto pudo reconocer y otras en las que tuvo dificultades.

  • 00:05:00 En esta sección, el orador analiza las redes neuronales y cómo han mejorado significativamente en los últimos tres años debido al mayor esfuerzo e interés. Explica cómo nos hemos inspirado en nuestros propios sistemas neuronales y describe la estructura de una neurona, incluido su axón, el árbol dendrítico y las conexiones sinápticas entre ellos. Luego, el orador analiza cómo se modelan las conexiones sinápticas en las redes neuronales utilizando entradas binarias y pesos que reflejan la fuerza de la conexión.

  • 00:10:00 En esta sección, el orador explica cómo modelar la forma en que se recopilan las entradas en una neurona a través de un modelo simple que usa pesos sinápticos, un verano y un cuadro de umbral que determina si la neurona se activará o no. Si bien este modelo está inspirado en el funcionamiento del cerebro humano, todavía hay muchas incógnitas y complejidades que los neurobiólogos aún no comprenden por completo. Este modelo es solo una forma de comprender la esencia general de cómo funcionan las neuronas y cómo funcionan colectivamente como una red.

  • 00:15:00 En esta sección, el ponente explica cómo funciona una red neuronal como un aproximador de funciones, donde las entradas fluyen a través de la red y se convierten en salidas. El vector de salida es una función del vector de entrada, el vector de peso y un vector de umbral. La función de rendimiento se construye comparando el vector de salida deseado con el vector de salida real, y el objetivo siempre es minimizar la función de rendimiento. La conferencia explica el proceso de optimización de los pesos y los umbrales en una red neuronal simple mediante la escalada, pero reconoce que este método no es factible para las redes neuronales con una gran cantidad de parámetros, como la red neuronal de Hinton con 60 millones de parámetros.

  • 00:20:00 En esta sección, el narrador explica cómo se puede usar el descenso de gradiente para realizar pequeñas mejoras en la función de rendimiento tomando derivadas parciales de la función con respecto a ciertos pesos. Sin embargo, este método solo es efectivo para superficies continuas y no para superficies discontinuas, como es el caso de las redes neuronales. La solución fue presentada por Paul Werbos en 1974, que consiste en agregar otra entrada a la neurona con un peso de W0, conectada a una entrada que siempre es -1. Esta entrada mueve efectivamente el umbral a cero y permite una función de transición más suave para la red neuronal.

  • 00:25:00 En esta sección, el video explica la función sigmoidea y cómo se usa en las redes neuronales. La función sigmoidea se utiliza como una función de activación para las neuronas y proporciona el aspecto y la forma correctos que requieren las matemáticas. Luego se calculan las derivadas parciales, ahora que se eliminó el umbral problemático, para intentar entrenar la red neuronal. La red neuronal más simple del mundo se describe como compuesta por dos neuronas y algunos parámetros que dan una función de rendimiento. Luego, el video presenta la regla de la cadena para reescribir derivadas parciales en el cálculo de variables intermedias para determinar cuánto se mueven con respecto a otras y, en última instancia, entrenar la red neuronal.

  • 00:30:00 En esta sección, el hablante borra y reescribe derivadas parciales usando la regla de la cadena, proporcionando expresiones que permiten resolver una red neuronal simple. Las derivadas se convierten en un formato de producto por conveniencia, y el orador procede a encontrar la derivada parcial de p2 con respecto a w2, que es igual a Y. La derivada parcial de Z con respecto a p2 aún se desconoce porque involucra un función de umbral. Para resolverlo, el locutor destruye la neurona y trabaja con la función beta, que es igual a 1 sobre 1 más e menos alfa.

  • 00:35:00 En esta sección, el orador repasa la derivada con respecto a alfa beta y luego procede a demostrar la red neuronal más pequeña del mundo en acción entrenándola para que no haga nada. La salida de la función sigmoidea se simplifica ya que la derivada se puede escribir exclusivamente en términos de la salida. La red neuronal está entrenada para hacer que la salida sea igual a la entrada, pero como resultado no sucede nada.

  • 00:40:00 En esta sección del video, el orador analiza el proceso de determinar la constante de velocidad óptima para una red neuronal. Comenzando con una red neuronal con pesos aleatorios, el hablante prueba varias constantes de velocidad y observa su efecto en el rendimiento de la red. Si la constante de velocidad es demasiado pequeña, lleva mucho tiempo alcanzar el rendimiento óptimo, pero si es demasiado grande, la red puede saltar demasiado y volverse inestable. El orador señala que la constante de velocidad debe variar con el progreso hacia un rendimiento óptimo. El orador también presenta una red neuronal más compleja con dos entradas y salidas y analiza las interacciones entre los flujos y los pesos.

  • 00:45:00 En esta sección, aprendemos sobre la posible explosión exponencial de caminos a través de una red con una gran cantidad de neuronas. Sin embargo, podemos reutilizar el cálculo y no tener una explosión exponencial, ya que la influencia de los cambios en P en el rendimiento solo puede ocurrir a través de una columna fija de neuronas, lo que significa que reutilizamos el cálculo ya realizado. La cantidad de cálculo necesaria para una columna con ancho fijo es lineal y de profundidad, pero proporcional al cuadrado del ancho de la columna. El orador también señala que este principio se ha pasado por alto durante 25 años.

  • 00:50:00 En esta sección, el orador analiza cómo las grandes ideas en las redes neuronales a menudo son simples, pero nosotros, como humanos, a menudo solo se nos ocurre un truco u observación en lugar de conectar algunos en cascada para crear algo milagroso. El principio de reutilización funciona en este caso ya que el milagro fue consecuencia de dos trucos y una observación. En general, el mensaje es que las grandes ideas son simples y fáciles de pasar por alto, y se han pasado por alto durante un cuarto de siglo.
 

Clase 12b: Redes Neuronales Profundas



12b: Redes neuronales profundas

Este video cubre varios temas relacionados con redes neuronales profundas, incluido el proceso de cálculo involucrado, redes neuronales convolucionales, algoritmos de codificación automática, ajuste de parámetros en la capa de salida, softmax y retropropagación con redes convolucionales. El video también explora conceptos como máximos locales, redes de ampliación y aprendizaje de redes neuronales, mientras demuestra cómo funcionan las redes neuronales profundas en el procesamiento de imágenes. En general, el video proporciona una descripción general completa de los principales conceptos involucrados en las redes neuronales profundas, incluidas sus fortalezas y limitaciones.

  • 00:00:00 En esta sección, el disertante analiza el proceso de cálculo en una red neuronal pequeña y destaca el hecho de que el rendimiento de esta red se basa en un número finito de variables de salida. El orador pasa a mostrar ecuaciones que demuestran la dependencia del rendimiento de pesos específicos y señala que hay mucha redundancia en el proceso de cálculo. A medida que retrocede de las salidas a las entradas, gran parte del cálculo realizado anteriormente se reutiliza, lo que da como resultado la reutilización de varios cálculos que se realizaron en los cambios de peso posteriores.

  • 00:05:00 En esta sección, el disertante analiza los cálculos involucrados en las redes neuronales y señala el cálculo fundamental que tiene lugar en nuestras cabezas, el producto escalar, que también se usa en las redes neuronales. También explica el concepto de redes neuronales convolucionales, que se utilizan para el procesamiento de imágenes, y señala que están hechas de un conjunto específico de componentes que tiende a reaparecer en el campo de la red neuronal. El orador también menciona el desempeño de una red neuronal profunda en 2012, que tuvo una tasa de error de alrededor del 15 o 37 por ciento, según la definición de "respuesta correcta".

  • 00:10:00 En esta sección del video, el orador explica cómo funcionan la convolución y la agrupación en las redes neuronales. El proceso consiste en ejecutar una neurona a través de una imagen, produciendo una salida que se asocia con un lugar particular de la imagen. Esto se llama convolución, y los puntos resultantes se usan para encontrar el valor máximo en los vecindarios locales, creando un mapeo de la imagen usando ese valor máximo. Esto se llama agrupación máxima. Se pueden usar múltiples núcleos para producir muchos resultados, que luego se pueden alimentar a una red neuronal para indicar la probabilidad de que un objeto esté presente en la imagen. Este método es mucho más avanzado que el antiguo método de usar una pequeña cuadrícula de píxeles como entradas para las neuronas.

  • 00:15:00 En esta sección, el disertante explica la idea de la codificación automática donde una red neuronal compara la entrada con la salida hasta que los valores deseados coincidan entre sí. El disertante describe un algoritmo en el que una red puede identificar animales en función de la altura de su sombra en una pizarra en un ejemplo simple que muestra cómo funciona el algoritmo de codificación automática. La red "aprende" a reconocer las sombras de los animales al comprimir los valores de entrada en una capa oculta más pequeña que luego se expande para crear los valores de salida. El algoritmo logra resultados sorprendentemente efectivos, incluso cuando se trata de grandes conjuntos de datos de entrada que contienen una cantidad considerable de clases y ejemplos para cada clase.

  • 00:20:00 En esta sección, el orador demuestra cómo ejecutar una red neuronal simple con entradas aleatorias y retropropagación simple. Después de solo mil iteraciones, la tasa de error se reduce significativamente y la red puede reconocer la naturaleza de los objetos que ve en el entorno basándose únicamente en la altura de su sombra. Sin embargo, parece que en lugar de que las neuronas de la capa oculta hagan generalizaciones, se está produciendo algún tipo de generalización codificada, lo que dificulta que los investigadores comprendan cómo la red neuronal puede reconocer objetos específicos. A pesar de este misterio, la codificación automática, que implica el entrenamiento capa por capa, ofrece una técnica prometedora para entrenar redes neuronales profundas.

  • 00:25:00 En esta sección del video, el orador analiza la capa final de una red neuronal profunda y la importancia de ajustar los valores de umbral y peso para optimizar la clasificación de las muestras. Al cambiar el valor del umbral, la función sigmoidea cambia, mientras que al alterar el valor del peso cambia la pendiente de la curva. Estos ajustes, a su vez, afectan la probabilidad de ejemplos positivos y negativos en el conjunto de datos. Para maximizar la probabilidad de clasificar correctamente los datos, los valores de T y W deben optimizarse mediante derivadas parciales.

  • 00:30:00 En esta sección, el instructor explica el concepto de ajustar parámetros en la capa de salida para maximizar la probabilidad de los datos de muestra que tenemos. Esto implica ver el valor de salida como algo relacionado con la probabilidad de ver una clase y ajustar los parámetros en consecuencia. El instructor demuestra el proceso utilizando una curva sigmoidea y un algoritmo de descenso de gradiente. El objetivo es asociar algún tipo de probabilidad con cada clase para que podamos encontrar la más probable. La probabilidad real de una clase se calcula dividiendo la salida de la función sigmoidea para esa clase por la suma de todas las funciones. Esto se llama dividir por un factor de normalización y convierte cada valor de salida en probabilidad.

  • 00:35:00 En esta sección, el orador explica el proceso de usar softmax para dar un rango de clasificaciones y asociar una probabilidad con cada una para clasificar imágenes. El orador también analiza la combinación de la idea de softmax con la idea de codificación automática congelando la capa de entrada y entrenando la capa de salida usando la curva sigmoidea. Además, mencionan la idea de abandono para evitar que las redes neuronales se atasquen en un estado máximo local. La sección concluye señalando que, a pesar de la sofisticación de las capas de salida y el entrenamiento con codificación automática o máquinas Boltzmann, la retropropagación con redes convolucionales parece funcionar igual de bien, y el orador demuestra una red profunda en el aula con cinco capas y retropropagación para clasificar imágenes de animales

  • 00:40:00 En esta sección, el video demuestra cómo una red neuronal puede atascarse en un máximo local y cómo ampliar la red puede ayudarla a arrastrarse por el vasto espacio sin atascarse. El orador explica que ha habido un gran avance en el aprendizaje de redes neuronales, ya que ahora puede convertir los máximos locales en puntos de silla, lo que le permite aprender de manera más eficiente. El video continúa explorando si las redes neuronales pueden "ver" como los humanos al mostrar ejemplos de cómo incluso pequeños cambios en los píxeles pueden hacer que una red neuronal diferencie entre objetos con altos niveles de confianza. La demostración muestra que se puede engañar a una red neuronal para que piense que una imagen no es lo que realmente es.

  • 00:45:00 En esta sección, el orador analiza cómo funcionan las redes neuronales profundas en el procesamiento de imágenes utilizando ejemplos del artículo de Google sobre cómo poner leyendas en las imágenes. Las redes neuronales identifican un objeto, como un autobús escolar o una pelota de béisbol, detectando las características locales y la textura de la imagen. Sin embargo, la incapacidad de las redes neuronales para comprender el contexto de una imagen, como lo demuestran otros ejemplos de identificación errónea, se muestra como una limitación de la tecnología. Luego, el orador analiza el trabajo de su laboratorio para eliminar rectángulos de las imágenes mientras se conserva la impresión de la imagen de la red neuronal. La capacidad de la red neuronal para identificar un objeto también se muestra a través de imágenes de varios niveles de mutilación, con un rendimiento admirable de las redes neuronales incluso cuando se eliminan partes de la imagen.
 

Lección 13. Aprendizaje: algoritmos genéticos



13. Aprendizaje: algoritmos genéticos

Este video trata el concepto de algoritmos genéticos, que imitan la evolución y nos permiten resolver problemas complejos. El proceso de herencia genética a través de los cromosomas se descompone y simula utilizando cromosomas binarios con opciones de mutaciones y cruces. Las probabilidades de supervivencia y clasificación de los candidatos se explican con un ejemplo, mostrando la efectividad cuando se ejecuta correctamente. Se discute el desafío de superar los máximos locales y la introducción de la técnica de recocido simulado. Se muestran aplicaciones prácticas de algoritmos genéticos, incluido un proyecto sobre la construcción de un sistema experto basado en reglas y la evolución de criaturas formadas por objetos en forma de bloques. El ponente reflexiona sobre los orígenes y el éxito de los algoritmos genéticos, destacando que la diversidad es un componente clave de su éxito.

  • 00:00:00 En esta sección, el profesor Patrick Winston del MIT habla sobre imitar la evolución a través de algoritmos genéticos. Comienza hablando sobre los conceptos básicos de la mitosis y la reproducción. Luego introduce el concepto de algoritmos genéticos, que son intentos ingenuos de imitar la evolución. Estos algoritmos nos permiten resolver cuestiones complejas imitando el patrón de evolución. Él dice que los estudiantes no verán esto en su próxima prueba, pero tendrán preguntas relacionadas en el examen final para comprobar si estuvieron presentes en clase y despiertos.

  • 00:05:00 En esta sección del video, el orador explica los conceptos básicos de los algoritmos genéticos desglosando el proceso de herencia genética a través de los cromosomas. Compara el proceso de herencia genética con los algoritmos genéticos y explica cómo simplifica y simula los cromosomas con el fin de construir un sistema que imite el proceso de herencia genética usando cromosomas binarios. Continúa explicando cómo se pueden hacer elecciones dentro de este proceso, como cuántas mutaciones o cruces se permiten por cromosoma, lo que lleva a una población de cromosomas modificados. El siguiente paso es pasar de la transición de genotipo a fenotipo.

  • 00:10:00 En esta sección, aprendemos cómo el genotipo determina el fenotipo y la aptitud variable que viene con cada individuo. Una vez que se califican las aptitudes, los científicos informáticos pueden usar números para calcular las probabilidades de supervivencia en la próxima generación. Para garantizar que las probabilidades sumen uno, necesitamos una medida de probabilidad que se produzca a partir de las aptitudes. Al construir un algoritmo genético que busca valores óptimos en un espacio con una función de x e y, la aptitud está determinada por el seno de alguna constante por x, cantidad al cuadrado, por el seno de alguna constante y, cantidad al cuadrado, e para el más x más y dividido por alguna constante.

  • 00:15:00 En esta sección, Patrick Winston explica cómo funcionan los algoritmos genéticos y cómo evolucionan. Describe el proceso de mutación y cruce y cómo se pueden usar para hacer evolucionar las poblaciones hacia arriba en el gráfico de aptitud. Usando un ejemplo, demuestra cómo los algoritmos genéticos pueden quedarse atascados en los máximos locales debido a su mecanismo fundamental de escalada de colinas. Los estudiantes sugieren usar el cruce, pero incluso eso no parece funcionar. A pesar de esto, Winston destaca la importancia de mantener la mente abierta a las ideas que inicialmente pueden no parecer efectivas.

  • 00:20:00 En esta sección, el disertante explora el concepto de traducir la aptitud en la probabilidad de supervivencia, destacando que el uso de una característica de aptitud real puede no ser necesariamente efectivo. Por lo tanto, propone que clasificar a los candidatos en función de su nivel de condición física puede ser un mejor enfoque. Explica este mecanismo en detalle, afirmando que la probabilidad de que el individuo de mayor rango pase a la siguiente generación está determinada por una constante. Además, ejecuta 100 generaciones para probar este método y explica los resultados, mostrando la efectividad de la estrategia cuando se ejecuta correctamente.

  • 00:25:00 En esta sección, el video analiza cómo los algoritmos genéticos a veces se atascan en los máximos locales y necesitan una forma de aumentar la diversidad para encontrar una mejor solución. Esto es similar a cómo algunas especies se quedan estancadas sin evolucionar durante millones de años. Luego se introduce la técnica de recocido simulado para reducir gradualmente el tamaño del paso y permitir que se encuentre una solución. Sin embargo, el video demuestra que a veces el recocido simulado no es suficiente para escapar de un máximo local y se necesita un nuevo mecanismo para aumentar la diversidad dentro de la población. El video sugiere medir la diversidad de la población y seleccionar individuos en función no solo de su estado físico, sino también de su singularidad de otros individuos ya seleccionados.

  • 00:30:00 En esta sección, el orador usa una combinación de rango de aptitud y rango de diversidad para demostrar cómo funcionan los algoritmos genéticos usando un tamaño de paso pequeño y ejecutándolo durante 100 generaciones. Al arrastrarse hasta la esquina superior derecha, la pieza de diversidad mantiene las cosas dispersas mientras encuentra un alto estado físico. Cuando se apaga la diversidad, se necesitan 600 millones de años. Sin embargo, funciona bien cuando se maneja el problema del foso, ya que tiene el mecanismo cruzado para combinar lo mejor de las x y las y. El orador explica cómo la mutación básicamente hace escalar colinas y que hay opciones sobre cómo manejar eso, incluida la cantidad de cruce que se debe hacer. Pero el orador señala que los algoritmos genéticos solo capturan una idea muy ingenua de la evolución de que todavía hay una gran cantidad de magia en la transición de genotipo a fenotipo que nadie entiende completamente, lo que deja mucha intervención a los diseñadores.

  • 00:35:00 En esta sección, el orador analiza algunas aplicaciones prácticas de los algoritmos genéticos. Un ejemplo es la planificación, donde se pueden combinar dos conjuntos de pasos para producir un nuevo plan. Otro ejemplo es el proyecto de un estudiante sobre la construcción de un sistema experto basado en reglas que predice los ganadores de las carreras de caballos, usando mutaciones y cruces para desarrollar las reglas. El orador también demuestra la evolución de las criaturas formadas por objetos en forma de bloques, donde los diferentes bits en el cromosoma se interpretan como el número, el tamaño, la estructura y el control de los objetos. La diversidad de las criaturas se mide calculando la distancia métrica de todos los candidatos para la próxima generación.

  • 00:40:00 En esta sección, Patrick Winston explica cómo funcionan los algoritmos genéticos al combinar la probabilidad de supervivencia y la probabilidad de ser clasificados en función de cuán diferentes son de los individuos de la próxima generación. Luego demuestra un ejemplo de estos algoritmos con un video de criaturas nadadoras que evolucionaron de acuerdo a qué tan rápido pueden ir y cómo se mueven en tierra. El video muestra criaturas que evolucionan juntas y compiten por la comida. Algunas criaturas lograron desarrollar métodos exóticos, pero otras se confundieron y se olvidaron de la comida. El video es un ejemplo de lo que se puede lograr con computadoras súper poderosas como las que usa la empresa que creó el video.

  • 00:45:00 En esta sección, el disertante reflexiona sobre los orígenes de los algoritmos genéticos y su éxito en la generación de soluciones a diversos problemas. Señala que si bien los algoritmos son impresionantes, el verdadero mérito puede residir en la riqueza del espacio de soluciones y el ingenio del programador. La diversidad también se destaca como un componente clave en los cálculos de algoritmos genéticos exitosos.
 

Lección 14. Aprendizaje: espacios dispersos, fonología



14. Aprendizaje: espacios dispersos, fonología

En esta sección del video, el profesor Winston presenta el concepto de espacios dispersos y fonología como mecanismos relacionados con la investigación sobre cómo aprenden los humanos. Discute la interacción entre lo que vemos y lo que escuchamos cuando se trata del aprendizaje de idiomas, utilizando ejemplos para ilustrar cómo las señales visuales pueden influir en lo que percibimos en el lenguaje. El hablante explica los elementos y las conexiones de una máquina diseñada para reconocer y producir sonidos del habla, incluidos los registros, un conjunto de palabras, restricciones y un búfer de fonemas. También explica la técnica de generalizar patrones en fonología usando ejemplos positivos y negativos para aprender, usando un ejemplo de clase de observar las características distintivas asociadas con las palabras "gatos" y "perros". Finalmente, analiza la importancia de crear restricciones que coincidan con la función del mecanismo e incorporar una representación visual para comprender y resolver mejor un problema.

  • 00:00:00 En esta sección del video, el profesor Winston presenta dos mecanismos o ideas relacionadas con el aprendizaje, Sparse Spaces y Phonology. Antes de discutirlos, repasa brevemente algunos métodos básicos, incluidos los vecinos más cercanos y los árboles de identificación, y algunos imitadores biológicos, como las redes neuronales y los algoritmos genéticos. Él explica que aunque estos últimos no siempre son efectivos, vale la pena conocerlos. El profesor Winston luego se enfoca en los mecanismos relacionados con la investigación sobre cómo aprenden los humanos y, en particular, cómo podemos identificar y crear palabras en plural en idiomas que hemos aprendido más adelante en la vida. Utiliza ejemplos para ilustrar que personas como Krishna pueden pluralizar palabras en inglés sin siquiera darse cuenta de que lo están haciendo correctamente, y luego habla sobre cómo se pueden abordar tales fenómenos desde el punto de vista de la ingeniería.

  • 00:05:00 En esta sección, aprendemos sobre las reglas fonológicas y cómo las adquiere una máquina. La fonología se ocupa de los sonidos silábicos y subsilábicos, y las reglas fonológicas determinan qué teléfono o combinación de características binarias está diciendo una persona. Hay alrededor de 14 características distintivas que podrían determinar qué teléfono se está diciendo, produciendo aproximadamente 16,000 combinaciones posibles en un idioma. Sin embargo, ningún idioma tiene más de 100 teléfonos, y algunas opciones están excluidas por razones físicas, lo cual es extraño porque la mayoría de ellas no lo están. Es fascinante ver cuántas de estas características distintivas se alucinan o se inyectan en el circuito de retroalimentación desde otras modalidades, y el Efecto McGurk muestra cómo a menudo hay una desconexión entre el habla y el video.

  • 00:10:00 En esta sección, el orador explica la interacción entre lo que vemos y lo que escuchamos cuando se trata del aprendizaje de idiomas. Analiza cómo las señales visuales pueden influir en lo que percibimos, utilizando ejemplos de sonidos de vacas alemanes e ingleses. Luego proporciona información sobre lo que saben los fonólogos sobre las características distintivas que forman secuencias fonémicas para palabras como "manzanas". Abajo de las columnas, contiene los rasgos como sonoro, silábico o estridente, y cruzando tenemos tiempo. El orador también habla de la máquina que interpretó el sonido y las cosas que la gente ve para producir los sonidos del lenguaje, lo que decidiría que hay dos manzanas almacenadas en registros que contienen valores para conceptos como sustantivo, verbo y plural.

  • 00:15:00 En esta sección, el orador explica los elementos y conexiones de una máquina diseñada para reconocer y producir sonidos del habla. La máquina se compone de registros, un conjunto de palabras, restricciones y un búfer de fonemas. La restricción plural es el foco principal, teniendo la capacidad de actuar por sí misma al observar cosas plurales. La información puede fluir en múltiples direcciones a través de los puertos que conectan los elementos. Luego, el orador demuestra cómo reacciona la máquina cuando se le presenta el concepto de "dos manzanas", describiendo el flujo de información desde el sistema de visión hasta el léxico de palabras y el registro plural.

  • 00:20:00 En esta sección del video, el locutor explica cómo una máquina puede usar reglas fonológicas para expresar la idea de que hay manzanas a la vista. La máquina utiliza conexiones reversibles y propagadores expresados en restricciones, lo que permite que la información fluya en cualquier dirección. Sin embargo, la gran pregunta es cómo aprender estas reglas. Para esto, el orador proporciona un ejemplo simple en el salón de clases de observar las características distintivas asociadas con las palabras "cats" y "dogs", como silábica, sonora, continua y estridente, para proporcionar ejemplos positivos y negativos para el aprendizaje de estas reglas.

  • 00:25:00 En esta sección, el video analiza la formación de palabras en plural en el idioma inglés, examinando por qué algunas palabras toman el sonido "s" y otras toman el sonido "z". El video explica que esto se debe a la escasez del espacio de fonemas, con solo 40 fonemas posibles entre las 14.000 opciones posibles. Además, el video explica cómo se abordó el problema computacionalmente y, en última instancia, se destiló en un algoritmo que involucró la recopilación de ejemplos positivos y negativos para aprender.

  • 00:30:00 En esta sección, el orador explica un método para generalizar patrones en fonología usando un ejemplo positivo llamado semilla, y gradualmente convirtiendo algunos elementos en símbolos indiferentes hasta que se cubre un ejemplo negativo. La técnica consiste en elegir lugares en la matriz de fonemas que no importen y que tengan menos probabilidades de influir en el resultado de la pluralización. Se utiliza una técnica de búsqueda para decidir cuál de estas generalizaciones hacer, siendo los fonemas adyacentes los más influyentes. Se proporciona un ejemplo fonológico utilizando una matriz con 14 rasgos distintivos, donde el rasgo determinante que separa los ejemplos positivos y negativos es el rasgo no sonoro y no estridente del último fono en la palabra que se pluraliza, lo que resulta en una "ss" sonido.

  • 00:35:00 En esta sección, el orador analiza otros experimentos con el sistema y explica que, mediante el uso de un haz de búsqueda, controla un espacio disperso de alta dimensión. Esta técnica se utiliza para separar conjuntos de ejemplos positivos de ejemplos negativos y enseñar al sistema cómo lidiar con diferentes escenarios de pluralización en fonética. Este enfoque se explica mediante el uso de varios ejemplos, como espacios de una, dos y tres dimensiones, y cómo un hiperplano en tales ejemplos podría usarse para separar conjuntos variados de datos.

  • 00:40:00 En esta sección, Sussman y Yip sugieren que el lenguaje humano usa un espacio de fonemas escaso. Esto se debe a que aumenta la capacidad de aprendizaje, y cuando el idioma se coloca al azar de manera uniforme, asegura que los fonemas se separen fácilmente. Sin embargo, las vocales son difíciles de separar porque solo tienen una característica distintiva en comparación con los sonidos constantes. Este ejemplo muestra cómo hacer IA de una manera que sea congruente con el catecismo de Marr comenzando con el problema, aportando características únicas al problema, ideando un enfoque, escribiendo un algoritmo y, finalmente, realizando un experimento.

  • 00:45:00 En esta sección del video, el orador explica cómo forzar un mecanismo como las redes neuronales para resolver un problema específico que no coincide con su función no va a funcionar bien. La clave para encontrar una buena representación es crear restricciones que estén expuestas por la representación, lo que permite un mejor procesamiento y un camino más claro hacia una solución. Además, es esencial tener una representación que incorpore un criterio de localidad, lo que significa que la descripción de la respuesta es visible a través de un enfoque similar al de una pajilla de refresco, lo que facilita la comprensión del problema. En última instancia, tener una buena representación lo convierte a uno en un ingeniero y científico más inteligente, lo que le permite evitar estudiar mecanismos de una manera ingenua, lo que nunca conducirá a soluciones satisfactorias.
 

Clase 15. Aprendizaje: Near Misses, Condiciones Felicity



15. Aprendizaje: cuasi accidentes, condiciones de felicidad

En este video, el profesor Patrick Winston analiza el concepto de aprender de las condiciones de casi accidentes y felicidad. Utiliza diferentes ejemplos, incluida la construcción de un arco y la identificación de las restricciones específicas necesarias para que se considere un arco. También explica cómo un programa de computadora podría identificar las características clave de un tren utilizando el aprendizaje heurístico. El orador enfatiza la importancia de la autoexplicación y la narración de historias, especialmente cómo incorporar ambos en las presentaciones puede hacer que una idea se destaque y se haga famosa. En última instancia, él cree que empaquetar ideas no se trata solo de IA, sino también de hacer buena ciencia, volverse más inteligente y más famoso.

  • 00:00:00 En esta sección, el profesor Patrick Winston explica una nueva forma de aprender a partir de un solo ejemplo de una sola vez. El ejemplo de aula de un arco se utiliza para demostrar cómo es posible aprender algo definido de cada ejemplo mediante el uso de un modelo y lo que él llama un "casi error". Este proceso implica la abstracción de todos los detalles que no importan, como la altura y el material, para suprimir la información sobre las imperfecciones en la superficie y hacer explícita la estructura. En última instancia, este enfoque conduce a un aprendizaje más eficiente y tiene implicaciones para el aprendizaje humano y para volverse más inteligente.

  • 00:05:00 En esta sección, se discute el concepto de aprender de las condiciones de casi accidentes y felicidad. El orador usa el ejemplo de construir un arco para ilustrar el punto. A medida que revisan diferentes ejemplos de arcos y cuasi accidentes, comienzan a identificar las restricciones específicas necesarias para que algo se considere verdaderamente un arco. Desde la presencia de relaciones de apoyo hasta la prohibición de las relaciones táctiles, el orador describe los elementos clave de la construcción de arcos. Además, el color de la parte superior del arco se identifica como un imperativo. A través de este proceso de identificación de lo que es necesario y lo que no, el orador destaca cómo se pueden aprender las restricciones en cuestión de pasos, en lugar de innumerables intentos.

  • 00:10:00 En esta sección, el orador explica cómo hacer un nuevo modelo considerando la naturaleza del mundo en el que uno está trabajando. Por ejemplo, en un mundo de banderas donde solo hay tres colores disponibles, si todos los colores han sido visto, el modelo en evolución se ajusta en consecuencia. El orador presenta ejemplos de bloques para niños y explica cómo se puede representar la jerarquía de partes para hacer una generalización conservadora. Luego, el disertante contrasta este tipo de aprendizaje con las redes neuronales y presenta una tarea de ejemplo para que la realicen los humanos, que consiste en dar una descripción de los trenes superiores que los distingue y separa de los trenes inferiores.

  • 00:15:00 En esta sección, el orador explica cómo un programa de computadora podría identificar las características clave de un tren con techo cerrado a través de un proceso de aprendizaje heurístico. El programa recibe conjuntos de ejemplos positivos y negativos y se elige un ejemplo "semilla" para comenzar a construir una descripción que cubra tantos ejemplos positivos como sea posible y que excluya los negativos. Las heurísticas, o reglas, aplicadas a la semilla pueden combinarse de diferentes maneras para formar un gran árbol de posibles soluciones, que deben mantenerse bajo control utilizando técnicas como la búsqueda por haz. El orador también presenta un vocabulario para las heurísticas desarrolladas por su amigo, incluida la heurística de "requerir enlace" que ayuda a identificar las características esenciales de un modelo.

  • 00:20:00 En esta sección, el profesor Patrick Winston explica cómo las diferentes heurísticas, como "prohibir enlace", "ampliar conjunto", "soltar enlace" y "trepar árbol", se pueden usar para especializarse o generalizar en el aprendizaje . También aborda la idea de los cuasi accidentes y los ejemplos, y cómo se conectan con la generalización y la especialización. El uso de estas heurísticas puede ayudar a hacer coincidir menos o más cosas y, según el problema, puede ser más adecuado para humanos o para computadoras con memorias más grandes. La forma de determinar qué método es mejor dependerá del problema específico que se esté tratando de resolver.

  • 00:25:00 importancia de los near misses y las condiciones de felicidad en el proceso de aprendizaje. En esta sección, el profesor Patrick Winston explica cómo el maestro y el alumno deben establecer convenios entre ellos para transformar el estado inicial de conocimiento del alumno en un nuevo estado de conocimiento. Con el uso de un modelo de red que representa el estado de conocimiento del alumno, el profesor puede identificar los tipos de errores cometidos por el alumno y proporcionar retroalimentación en consecuencia. Al hacerlo, el maestro puede impulsar efectivamente el frente de onda del conocimiento del estudiante y mejorar la capacidad del estudiante para aprender y aplicar nueva información.

  • 00:30:00 En esta sección, el disertante analiza cómo es importante comprender la capacidad computacional del alumno a la hora de enseñarles. Esto incluye tener en cuenta la capacidad limitada de un niño de tercer grado para almacenar información en comparación con una computadora. También hablan de cómo los convenios, como la confianza y la comprensión del estilo del maestro, son necesarios para que un estudiante aprenda de manera efectiva. El orador explica además cómo hablar con uno mismo o construir descripciones es crucial para el aprendizaje. Un experimento realizado por Michelene Chi demostró las ventajas de hablar con uno mismo a la hora de aprender sobre física elemental.

  • 00:35:00 En esta sección, la atención se centra en cómo la autoexplicación puede afectar la capacidad de resolución de problemas. Los individuos más inteligentes, que puntuaron el doble que los menos inteligentes, hablaron consigo mismos tres veces más que los participantes del grupo de puntuación más baja. La autoexplicación puede dividirse en dos categorías, aquellas relacionadas con la física y otras relacionadas con el monitoreo en lugar de la física. Cuanto más alguien se habla a sí mismo, mejor parece puntuar en la resolución de problemas. Si bien no hay una indicación clara de que hablar con uno mismo para alentar mejores puntajes funcione, la evidencia anecdótica sugiere que hablar más con uno mismo podría ayudar. Finalmente, la discusión pasa a empaquetar ideas, particularmente útil si desea que su idea sea conocida, y cinco cualidades que ayudan en el proceso, comenzando con la necesidad de un símbolo o identificador visual asociado con su trabajo.

  • 00:40:00 En esta sección, el profesor Patrick Winston analiza la importancia de una sorpresa y un punto destacado para dar a conocer una idea. Él explica que una buena idea debe tener algo que sobresalga para volverse famosa, y es esencial incorporar una historia en las presentaciones que pueda atraer a la audiencia. Además, aclara el término “saliente” al afirmar que aunque indica importancia, explícitamente significa “sobresalir”. Él sugiere que la educación se trata esencialmente de contar historias e insta a las personas a considerar incorporar estas cualidades en sus presentaciones para que sean más efectivas. En última instancia, él cree que ser famoso no es inmoral, siempre y cuando las ideas estén bien empaquetadas para tener las mejores posibilidades de éxito.

  • 00:45:00 En esta sección, el orador cuenta una historia sobre sentarse al lado de Julia Child y preguntarle sobre ser famosa. El niño respondió que uno se acostumbra, lo que hizo que el hablante pensara en la experiencia opuesta de ser ignorado. Él enfatiza la importancia de empaquetar ideas y cómo no se trata solo de IA, sino también de hacer buena ciencia, hacerse más inteligente y más famoso.
 

Lección 16. Aprendizaje: Máquinas de Vectores Soporte



16. Aprendizaje: máquinas de vectores de soporte

En el video, Patrick Winston explica cómo funcionan las máquinas de vectores de soporte (SVM) y cómo se pueden usar para optimizar una regla de decisión. Explica que el algoritmo SVM usa una transformación, Phi, para mover un vector de entrada, x, a un nuevo espacio donde es más fácil separar dos vectores similares. La función kernel, k, proporciona el producto escalar de x sub i y x sub j. Todo lo que se necesita es la función, k, que es una función kernel. A Vapnik, un inmigrante soviético que trabajó en SVM a principios de la década de 1990, se le atribuye haber revivido la idea del kernel y convertirlo en una parte esencial del enfoque de SVM.

  • 00:00:00 Las máquinas de vectores de soporte son una forma sofisticada de dividir un espacio para determinar los límites de decisión. Fueron desarrollados por Vladimir Vapnik y son un gran problema porque permiten una toma de decisiones más precisa.

  • 00:05:00 El video analiza cómo funcionan las máquinas de vectores de soporte y proporciona una regla de decisión para cuando una muestra es positiva o negativa.

  • 00:10:00 En este video, Patrick Winston presenta el concepto de una máquina de vectores de soporte (SVM), que es un algoritmo de aprendizaje automático que ayuda a encontrar una solución óptima a un problema. La primera ecuación en una SVM es una función de costo, que es una función que toma un vector de variables y genera un número. La función de costo se multiplica por un vector de peso, que es un vector que corresponde a la importancia de cada variable en la función de costo. La segunda ecuación en una SVM es el problema de optimización, que es una función que toma la función de costo y un vector de peso y trata de encontrar la mejor solución. El problema de optimización se resuelve minimizando la función de coste. La ecuación final en una SVM es el vector de salida, que es la salida de la SVM.

  • 00:15:00 El video analiza el uso de máquinas de vectores de soporte (SVM) para resolver problemas y demuestra cómo calcular el ancho de una calle usando esta técnica.

  • 00:20:00 En este video, Patrick Winston explica cómo funcionan los multiplicadores de Lagrange para optimizar una función con restricciones. El video también cubre cómo se usan los multiplicadores de Lagrange para encontrar el extremo de una función con restricciones.

  • 00:25:00 En este video, se descubre que una suma lineal de muestras es igual a una suma lineal de los componentes de las muestras. Además, se diferencian las derivadas del Lagrangiano con respecto a distintas variables, y se demuestra que la suma de los alfa i por y sub i es igual a 0, lo que implica que el vector w es igual a la suma de algún alfa i, algunos escalares, veces esto menos 1 o más 1 variable veces x sub i sobre i.

  • 00:30:00 En este video, explica cómo resolver un problema de optimización cuadrática utilizando máquinas de vectores de soporte. Se explica que el vector de decisión es una suma lineal de las muestras y que el álgebra es fácil. El estudiante explica que para cada término del problema, el álgebra se simplifica tomando la suma de alfa i por y sub i por x sub i.

  • 00:35:00 En este video, un matemático explica cómo la optimización de una regla de decisión depende solo del producto escalar de pares de muestras. Esto demuestra que el análisis matemático es factible y que el algoritmo de optimización encontrará una línea recta que separa las dos soluciones óptimas.

  • 00:40:00 En las máquinas de vectores de soporte, se usa una transformación, Phi, para mover un vector de entrada, x, a un nuevo espacio donde es más fácil separar dos vectores similares. La función kernel, k, proporciona el producto escalar de x sub i y x sub j. Todo lo que se necesita es la función, k, que es una función kernel.

  • 00:45:00 El video analiza cómo funcionan las máquinas de vectores de soporte (SVM) y cómo se puede usar un kernel para mejorar el rendimiento de SVM. A Vapnik, un inmigrante soviético que trabajó en SVM a principios de la década de 1990, se le atribuye haber revivido la idea del kernel y convertirlo en una parte esencial del enfoque de SVM.