Redes Neurais em IA e Deep Learning - página 11

 

Héroes del aprendizaje profundo: Andrew Ng entrevista al director de investigación de Baidu, Yuanqing Lin




Héroes del aprendizaje profundo: Andrew Ng entrevista al director de investigación de Baidu, Yuanqing Lin

Yuanqing Lin, director de investigación de Baidu y director del Laboratorio Nacional de Aprendizaje Profundo de China, analiza la fundación del laboratorio nacional y su impacto en la comunidad de aprendizaje profundo.
Lin brinda información sobre la inversión de China en aprendizaje profundo y cómo ha llevado al crecimiento en varios sectores. Destaca la importancia de los bucles de retroalimentación en el desarrollo de IA y cómo esto ayuda a crear mejores algoritmos y tecnologías.
Lin aconseja a las personas que establezcan una base sólida en el aprendizaje automático y que comiencen con un marco de código abierto para ingresar al campo con éxito.

  • 00:00:00 En esta sección, Yuanqing Lin, director de Baidu Research y director del Laboratorio Nacional de Aprendizaje Profundo de China, habla sobre su historia personal y cómo ingresó al campo del aprendizaje automático. Lin comparte que cambió su área de estudio de la física al aprendizaje automático para su programa de doctorado en UPenn, lo que le pareció una experiencia muy emocionante en la que aprendió cosas nuevas todos los días. Finalmente, trabajó en un proyecto exitoso para ImageNet Challenge, que lo expuso a tareas de visión artificial a gran escala y lo inspiró a trabajar en el aprendizaje profundo. Como directora del Laboratorio Nacional de China, el objetivo de Lin es construir la plataforma de aprendizaje profundo más grande del país, ofreciendo recursos a investigadores y desarrolladores para mejorar la tecnología existente y desarrollar otras nuevas para grandes aplicaciones.

  • 00:05:00 En esta sección, Yuanqing Lin, director de investigación de Baidu, analiza el nuevo laboratorio nacional de IA y el impacto que tendrá en la comunidad de aprendizaje profundo. Destaca cómo el laboratorio proporcionará una estructura informática para ejecutar modelos de aprendizaje profundo, lo que facilitará mucho la reproducción de la investigación. También analiza la inversión de China en el aprendizaje profundo y cómo ha llevado al crecimiento en una variedad de sectores, como el comercio electrónico, la vigilancia y más. Lin enfatiza la importancia de los circuitos de retroalimentación en el desarrollo de IA y cómo esto ayuda a crear mejores algoritmos y tecnologías. En general, cree que la comunidad de aprendizaje profundo se beneficiará enormemente de los recursos y la experiencia del laboratorio.

  • 00:10:00 En esta sección, Yuanqing Lin, directora de Baidu Research, enfatiza la importancia de tener una visión y una dirección sólidas para que el negocio tenga éxito en el campo del aprendizaje profundo y la IA. Aconseja a las personas que ingresan al campo que comiencen con un marco de código abierto y se familiaricen con los recursos de evaluación comparativa. Lin recomienda que las personas establezcan una base sólida en el aprendizaje automático para comprender completamente el funcionamiento del aprendizaje profundo.
Heroes of Deep Learning: Andrew Ng interviews Head of Baidu Research, Yuanqing Lin
Heroes of Deep Learning: Andrew Ng interviews Head of Baidu Research, Yuanqing Lin
  • 2017.08.08
  • www.youtube.com
p vs np, probability, machine learning, ai, neural networks, data science, programming, statistics, mathematics, number theory
 

Heroes of Deep Learning: Dawn Song sobre inteligencia artificial, aprendizaje profundo y seguridad



Heroes of Deep Learning: Dawn Song sobre inteligencia artificial, aprendizaje profundo y seguridad

Dawn Song, experta en aprendizaje profundo y seguridad informática, habló sobre su trayectoria profesional y su trabajo en inteligencia artificial, aprendizaje profundo y seguridad en una entrevista.
Song enfatizó la importancia de identificar problemas o preguntas clave para guiar la lectura al ingresar por primera vez al campo y desarrollar una base sólida en la representación para facilitar la investigación en otros dominios.
También destacó la creciente importancia de construir sistemas resistentes de IA y aprendizaje automático y su trabajo en el desarrollo de mecanismos de defensa contra ataques de caja negra.
Song compartió su trabajo sobre privacidad y seguridad, incluido el entrenamiento de modelos de lenguaje privados diferenciales y el desarrollo de una plataforma de computación en la nube que prioriza la privacidad en blockchain en Oasis Labs. Finalmente, Song aconsejó a las personas que ingresan a nuevos campos que sean valientes y que no tengan miedo de comenzar desde cero.

  • 00:00:00 En esta sección, el entrevistador habla con Dawn Song, experta en aprendizaje profundo y seguridad informática. La trayectoria profesional de Song no fue lineal, comenzó con una licenciatura en física y pasó a la informática con un enfoque en la seguridad informática. Song decidió dedicarse al aprendizaje profundo y la IA porque lo encontró emocionante e intrigante. Song pasó cuatro días a la semana leyendo artículos y libros sobre aprendizaje profundo y lo consideró uno de sus momentos más felices. Ella diseñó un programa de lectura para aprender más sobre el campo.

  • 00:05:00 En esta sección, el orador analiza cómo desarrolló una estrategia para sumergirse en la extensa literatura sobre aprendizaje profundo e IA cuando ingresó por primera vez al campo. Él enfatiza la importancia de identificar problemas o preguntas clave para guiar la lectura, así como buscar las opiniones de otros en el campo y triangular a través de publicaciones de blog, documentos y referencias para crear una lista de lectura superior. Una de las preguntas centrales que el orador estaba interesado en investigar desde el principio era cómo construir grandes representaciones, que él cree que todavía es una pregunta abierta en el campo. Él enfatiza la importancia de desarrollar una base sólida en esta área para facilitar la investigación en otros dominios.

  • 00:10:00 En esta sección, el ponente analiza cómo la representación del mundo es crucial para navegarlo y comprenderlo, y la idea de que los cerebros humanos representan el mundo a través de patrones de disparos neuronales que pueden aproximarse mediante vectores de números reales en aprendizaje profundo. Sin embargo, el mecanismo de representación real es mucho más rico que solo los disparos neuronales, y es importante aprender cuáles son esas representaciones. El orador también aborda su trabajo en seguridad informática y cómo se puede utilizar el conocimiento obtenido de la investigación de seguridad para mejorar la IA y el aprendizaje profundo, especialmente con la creciente adopción de estas tecnologías en roles críticos en la sociedad donde se incentiva a los atacantes a desarrollar nuevos ataques.

  • 00:15:00 En esta sección, el orador analiza la creciente importancia de crear sistemas de inteligencia artificial y aprendizaje automático que sean resistentes a los ataques, ya que dependemos cada vez más de estos sistemas para tomar decisiones críticas. Ha habido ataques cada vez mayores a los sistemas de aprendizaje automático, como el uso de tecnología avanzada de visión por computadora para resolver capturas y tratar de evadir los sistemas de aprendizaje automático para la detección de fraudes. El equipo del orador ha estudiado la vulnerabilidad de los sistemas de aprendizaje automático actuales y ha desarrollado defensas para los ataques, incluidos los ataques de caja negra en los que el atacante no necesita saber nada sobre el modelo de la víctima. El equipo también demostró que los ataques de caja negra pueden ser efectivos a través de métodos como los ataques basados en Ensemble y tener acceso de consulta al modelo.

  • 00:20:00 En esta sección, Dawn Song analiza su trabajo en el desarrollo de una técnica de ataque basada en una muestra que implica el uso de un conjunto de modelos de caja blanca para crear ejemplos de adversarios efectivos que conduzcan a ataques exitosos, incluso en un entorno de caja negra. Sin embargo, en el lado defensivo, construir una solución fuerte y general para defenderse de atacantes fuertes y adaptables sigue siendo una pregunta desafiante y abierta. Además, Dawn señala cómo el enfoque de controles de coherencia para detectar ataques podría ser una dirección fructífera para seguir construyendo una defensa contra los ataques, ya que podría aplicarse en varios escenarios, incluida la IA y la privacidad. Por ejemplo, en colaboración con investigadores de Google, Dawn y su equipo demostraron la importancia de tener cuidado para proteger la privacidad de los usuarios, ya que los datos confidenciales, como los números de la seguridad social y de las tarjetas de crédito, podrían extraerse de modelos de aprendizaje automático entrenados a partir de correos electrónicos.

  • 00:25:00 En esta sección, Dawn Song habla sobre su trabajo en privacidad y seguridad en IA, específicamente en la mitigación de ataques mediante el entrenamiento de modelos de lenguaje privados diferenciales. Song explica que la privacidad diferencial implica agregar ruido durante el proceso de capacitación de una manera adecuada para mitigar los ataques sin memorizar información confidencial, como los números de seguridad social. Song también comparte su trabajo reciente en seguridad para dispositivos IoT, donde aprovechan técnicas de aprendizaje profundo para detectar rápidamente similitudes de código e identificar vulnerabilidades en el firmware de dispositivos IoT del mundo real. Como CEO de Oasis Labs, Song explica cómo la compañía está construyendo una plataforma de computación en la nube que prioriza la privacidad en blockchain que aborda los desafíos de la privacidad de datos en IA al permitir contratos inteligentes que preservan la privacidad.

  • 00:30:00 En esta sección, la Dra. Dawn Song analiza una plataforma de cadena de bloques que puede ayudar a descentralizar la IA y aumentar la accesibilidad a las capacidades de aprendizaje automático al tiempo que protege la privacidad de los usuarios. La plataforma tendrá contratos inteligentes que especifican los términos de uso para los usuarios, dictando que los datos recopilados solo se pueden usar para entrenar un modelo de aprendizaje automático que preserva la privacidad y especificando cómo se puede compensar al usuario. La Dra. Song también comparte su entusiasmo por la síntesis de programas y cómo puede ayudar a resolver problemas importantes al tiempo que brinda una perspectiva útil hacia una gama más amplia de problemas. Finalmente, el consejo del Dr. Song para las personas que buscan ingresar a nuevos campos es ser valientes y no tener miedo de comenzar desde cero, ya que puede ser un proceso muy gratificante.
Dawn Song on AI, Deep Learning and Security
Dawn Song on AI, Deep Learning and Security
  • 2023.02.16
  • www.youtube.com
Join Dawn Soung, Founder of Oasis Labs, for an interview on her journey into AI and web3, with DeepLearning.AI. This interview was originally published by De...
 

La revolución de la IA | Explicación de la inteligencia artificial | Nuevas Tecnologías | robótica




La revolución de la IA | Explicación de la inteligencia artificial | Nuevas Tecnologías | robótica

Este video explora la revolución de la IA, comenzando con el futuro de los vehículos autónomos y los robots de autoaprendizaje capaces de navegar terrenos complejos, realizar misiones de búsqueda y rescate e interactuar con humanos en espacios de trabajo colaborativos. El desarrollo de la robótica de enjambre muestra un enorme potencial para mejorar áreas como la agricultura, la atención médica y la respuesta a desastres. Los investigadores están trabajando para hacer que los robots sean más conscientes de sí mismos y capaces de comunicarse a través del procesamiento del lenguaje natural, creando avatares digitales hiperrealistas y androides más parecidos a los humanos, que podrían servir como asistentes holográficos o compañeros para los ancianos y los socialmente aislados. Si bien los beneficios de la IA para mejorar la sociedad son inmensos, también existe la necesidad de consideraciones éticas y responsabilidad por parte de los desarrolladores para garantizar la alineación de la IA con intenciones positivas.

  • 00:00:00 En esta sección, se explora el futuro de la hiperinteligencia, con automóviles autónomos y drones autónomos que se prevé que revolucionarán la vida moderna. Se espera que los humanos vivan y trabajen junto a los androides conscientes de sí mismos, lo que nos liberará de tareas tediosas y aumentará la productividad, mientras que los compañeros de IA ayudarán a los humanos de muchas maneras. Esta sección continúa explicando cómo funciona la IA y reflexiona sobre si la IA obtendrá rasgos humanos como la emoción, la conciencia o incluso el libre albedrío. El automóvil autónomo se presenta como el camino más claro hacia el futuro, con Raj Rajkumar de la Universidad Carnegie Mellon explicando cómo se toman las decisiones de los automóviles autónomos a través de una combinación de cámaras y radares avanzados que comparan objetos externos con un mapa 3D interno.

  • 00:05:00 En esta sección, el video explora la naturaleza dinámica del transporte y el desafío que tiene la IA para reconocer información dinámica para comprender hacia dónde se dirige objetivamente en el espacio y reaccionar ante cambios y señales de tráfico. El video destaca la importancia de la seguridad en la creación de automóviles autónomos y el uso del aprendizaje automático en la creación de robots que pueden aprender e interactuar con su entorno al identificar objetos y discernir entre diferentes elementos, de manera similar a cómo un bebé aprende sobre su entorno. Se exhibe el robot R2, que está diseñado para operar dentro de entornos subterráneos y soltar repetidores de señal para crear una red Wi-Fi a fin de crear una representación 3D del entorno para navegar, identificar y evitar obstáculos.

  • 00:10:00 En esta sección, el video muestra las habilidades de los robots inteligentes que son capaces de explorar y mapear nuevos territorios para ayudar en las misiones de búsqueda y rescate. Desde vehículos que navegan por zonas de desastre hasta drones que vuelan por espacios desconocidos, estos robots autónomos pueden tomar decisiones en función de su entorno, utilizando tecnologías como lidar para mapear su entorno. Además, estos robots ya se están empleando en industrias peligrosas como la minería, la construcción y la exploración petrolera para realizar inspecciones y crear mapas de terreno accidentado. El desarrollo de estos robots autónomos no solo presenta un futuro de hiperinteligencia, sino que también podría revolucionar áreas como búsqueda y rescate, respuesta ante desastres y entrega de paquetes.

  • 00:15:00 En esta sección, el video analiza el desarrollo de un ejército de pequeños robots voladores por parte de Vijay Kumar, profesor de la Universidad. de Pensilvania, para abordar el problema del hambre en el mundo. Usando IA, estos drones pueden actuar como un grupo colectivo coordinado para proporcionar información precisa sobre plantas individuales, lo que puede aumentar la eficiencia de la producción de alimentos. Los drones utilizan un algoritmo de IA colectivo para comunicarse entre sí y trabajar juntos para realizar tareas como mapear y construir estructuras. Esta técnica de enjambre ofrece ventajas sobre un solo dron, ya que realiza operaciones mucho más rápido al combinar sus datos y evitar que la pérdida de drones destruya toda la operación. Otros ejemplos del uso de tecnología de enjambre incluyen abejas robóticas que ayudan con la polinización en huertos y granjas, haciéndolos más sostenibles y productivos.

  • 00:20:00 En esta sección, la atención se centra en la colaboración humano-robot y los desafíos de enseñar a los robots a aprender del comportamiento de los humanos. El Instituto de Tecnología de Massachusetts está realizando una investigación innovadora, creando software que permite que los robots trabajen e interactúen directamente con los humanos. A los robots se les enseñan tareas demostrándolas, y la IA reconoce los objetos que se muestran a través de etiquetas visuales y, a través de la observación, el software se escribe y revisa continuamente, aprende el contexto y puede pensar dinámicamente. El desafío de crear hiperinteligencia es hacer que los robots anticipen el entorno para predecir lo que sucederá a continuación. El robot industrial recibe inteligencia que le permite reconocer las acciones de los compañeros de trabajo humanos en una prueba de fabricación simulada para que sea más seguro para los humanos interactuar.

  • 00:25:00 En esta sección, se muestra una demostración de cómo la tecnología de IA puede trabajar junto con los humanos en un espacio de trabajo colaborativo. El robot es capaz de reconocer y anticipar los movimientos humanos, lo que hace que trabajar con él sea más seguro y eficiente. Este tema del trabajo en equipo entre humanos y robots se está volviendo cada vez más importante en varias industrias como la atención médica, donde los robots de IA ya se están utilizando para aumentar la productividad y reducir el error humano. El desarrollo de la inteligencia general artificial con la capacidad de pensar y aprender como los humanos es el objetivo final de algunos científicos, quienes creen que las máquinas algún día pueden volverse sensibles y conscientes de sí mismas.

  • 00:30:00 En esta sección, el video trata el concepto de propiocepción, tanto en bebés como en robots. La propiocepción se refiere a la conciencia de un individuo de los movimientos y la posición de su cuerpo en el espacio. Los expertos destacan la importancia de la autoconciencia de un robot en el desarrollo de la conciencia robótica. Los robots pueden desarrollar imágenes de sí mismos, planificar nuevas tareas y comenzar a pensar en pensar con propiocepción. La autoconciencia vincula la máquina con el mundo exterior, lo que le permite maniobrar e interactuar con su entorno. Este desarrollo podría allanar el camino para formas avanzadas de comunicación entre humanos y robots.

  • 00:35:00 En esta sección, se explica que los robots necesitarán aprender a hablar y tener conversaciones naturales para hacer que la interacción hombre-máquina sea más compleja. El procesamiento del lenguaje natural, anterior a la IA, es la clave para poder comprender el significado del lenguaje hablado. Sin embargo, el principal desafío al que se enfrenta la IA para comprender el habla humana es que el contexto del habla depende en gran medida del tono y el contexto. Los investigadores están utilizando el aprendizaje automático para entrenar la IA con horas de conversación humana para ayudarlos a comprender mejor el contexto conversacional. Además, para hacer que la IA se parezca convincentemente a nosotros, empresas como Pinscreen están desarrollando nuevas técnicas para crear avatares digitales hiperrealistas en un instante. Su software utiliza inteligencia artificial para digitalizar el rostro de una persona en la computadora y permitir que se anime rápidamente.

  • 00:40:00 En esta sección, la atención se centra en el desarrollo de una inteligencia artificial (IA) más similar a la humana y el impacto potencial que podría tener en nuestras vidas. Esto incluye el uso de software que genera un rostro humano más realista y personalizado, lo que podría dar como resultado androides y seres virtuales de apariencia más amigable. Estos asistentes holográficos podrían encargarse de muchos aspectos de la vida diaria, incluido el diagnóstico de atención médica e incluso convertirse en amigos y familiares virtuales. También hay un esfuerzo por crear robots realistas que las personas querrán abrazar físicamente para que sirvan como compañeros, especialmente para aquellos que están socialmente aislados o sufren de ansiedad social. Si bien existe la preocupación de que algunos puedan ver a estos androides como robots sexuales, el enfoque sigue siendo crear un buen robot que pueda usarse de diversas maneras.

  • 00:45:00 En esta sección, la charla cubre el uso potencial de los androides y la IA en la terapia, ya que las personas pueden sentirse más cómodas hablando con un robot que no juzga. Sin embargo, la charla también plantea preocupaciones éticas. La IA y las falsificaciones profundas podrían usarse para secuestrar la identidad de una persona, y los enjambres de drones impulsados por IA podrían usarse potencialmente en ataques terroristas. Es importante ejercer la responsabilidad moral y responsabilizar a los desarrolladores por sus acciones, ya que el potencial de la IA para mejorar la sociedad es enorme si se hace correctamente. En última instancia, el orador cree que una asociación con robots hiperinteligentes con intenciones alineadas podría transformar a la humanidad por un bien mayor.
The Revolution Of AI | Artificial Intelligence Explained | New Technologies | Robotics
The Revolution Of AI | Artificial Intelligence Explained | New Technologies | Robotics
  • 2023.03.18
  • www.youtube.com
The Revolution Of AI - Everyone has heard about Artificial Intelligence (or AI), but very few people know what it is or how it actually works.The Revolution ...
 

Sumérgete en el hardware de IA de ChatGPT




Sumérgete en el hardware de IA de ChatGPT

¿Qué hardware se usó para entrenar ChatGPT y qué se necesita para que siga funcionando? En este video, veremos el hardware de IA detrás de ChatGPT y descubriremos cómo Microsoft y OpenAI usan el aprendizaje automático y las GPU de Nvidia para crear redes neuronales avanzadas.

El video analiza el hardware utilizado para el entrenamiento y la inferencia en ChatGPT, un modelo de IA de conversación de chat natural basado en texto. La supercomputadora de IA de Microsoft se construyó con más de 10 000 GPU Nvidia V100 y 285 000 núcleos de CPU para el entrenamiento de GPT-3, lo que también contribuyó a la creación de ChatGPT. ChatGPT probablemente se ajustó en la infraestructura de Azure, utilizando 4480 GPU Nvidia A100 y más de 70 000 núcleos de CPU para el entrenamiento. A modo de inferencia, es probable que ChatGPT se ejecute en una única instancia de Nvidia DGX o HGX A100 en servidores de Microsoft Azure. El video también menciona el costo de ejecutar ChatGPT a escala y el impacto potencial del nuevo hardware de IA, como las unidades de procesamiento neuronal y los motores de IA.

  • 00:00:00 En esta sección, el video analiza las dos fases del aprendizaje automático, el entrenamiento y la inferencia, y los diferentes requisitos de hardware para cada fase. El entrenamiento de la red neuronal requiere una potencia de cómputo enfocada masiva y tiene altas demandas de hardware, mientras que ejecutar la inferencia requiere menos recursos pero puede aumentar exponencialmente los requisitos de hardware cuando se implementa para muchos usuarios. Luego, la transcripción profundiza en el hardware utilizado para entrenar la red neuronal de ChatGPT, que es un secreto. Aún así, Microsoft anunció en mayo de 2020 que construyó una supercomputadora para OpenAI para entrenar GPT-3 utilizando más de 285 000 núcleos de CPU y más de 10 000 GPU Nvidia V100. Las GPU se revelaron en un artículo científico, que mostró que eran el hardware principal utilizado en el entrenamiento de GPT-3, un precursor de ChatGPT, y su selección se debió a la biblioteca de redes neuronales profundas de Nvidia CUDA.

  • 00:05:00 En esta sección, la atención se centra en las GPU V100 de Nvidia y por qué fueron elegidas por Microsoft y OpenAI. La arquitectura de Volta introdujo un cambio importante en todas las GPU Nvidia anteriores y se diseñó específicamente para acelerar las cargas de trabajo de IA, como el entrenamiento y la inferencia. Los núcleos tensoriales presentados por Volta son hardware especializado que sobresale en el procesamiento matricial y puede ejecutar múltiples cálculos en paralelo. La versión de Volta utilizada en la supercomputadora AI de Microsoft en 2020 probablemente formaba parte de la familia de productos Tesla de Nvidia, con hasta 32 gigabytes de memoria HBM2 rápida y con 10,000 GPU a 125 teraflops de núcleo tensor FP16 cada una. Todo el sistema sería capaz de generar 1,25 millones de petaflops tensoriales, lo que equivale a 1,25 exaflops. Sin Volta, esta supercomputadora no se habría construido y, sin ella, probablemente no habría GPT-3 ni ChatGPT.

  • 00:10:00 En esta sección, el narrador analiza el hardware de IA utilizado para el entrenamiento de ChatGPT, un modelo de IA centrado en conversaciones de chat basadas en texto natural con requisitos informáticos más bajos. El modelo se ajustó a partir de un modelo de la serie GPT-3.5 y la capacitación se realizó en la infraestructura de supercomputación de Azure AI, probablemente con GPU Nvidia A100 y CPU AMD EPYC. El narrador estima que se utilizaron 1120 CPU AMD EPYC con más de 70 000 núcleos de CPU y 4480 GPU Nvidia A100, lo que equivale a cerca de 1,4 exaflops de rendimiento de núcleo tensor FP16. A modo de inferencia, es probable que ChatGPT se ejecute en una única instancia de Nvidia DGX o HGX A100 en servidores de Microsoft Azure.

  • 00:15:00 En esta sección, el video analiza los requisitos de hardware para ChatGPT, un popular modelo de IA con más de 1 millón de usuarios. Para satisfacer las demandas de ChatGPT se necesitarían más de 3500 servidores Nvidia A100 con cerca de 30 000 GPU, y mantener el servicio funcionando cuesta entre 500 000 y 1 millón de dólares por día. Sin embargo, a medida que se acelera el hardware diseñado específicamente para IA, será más rentable ejecutar ChatGPT a escala. El video también menciona nuevos productos además de las GPU, como unidades de procesamiento neuronal y motores de IA que aumentan el rendimiento de la IA. En los próximos años, el rendimiento de los modelos de IA superará a ChatGPT, ya que el nuevo hardware de IA, como Hopper, lanzado el año pasado, y las GPU MI300 basadas en CDNA3 proporcionarán una competencia sustancial para Nvidia.
Deep-dive into the AI Hardware of ChatGPT
Deep-dive into the AI Hardware of ChatGPT
  • 2023.02.20
  • www.youtube.com
With our special offer you can get 2 years of NordPass with 1 month free for a personal account: https://www.nordpass.com/highyieldnordpassOr use code highyi...
 

El CEO de Nvidia, Jensen Huang, explica cómo su gran apuesta por la IA finalmente está dando sus frutos - Entrevista completa



El CEO de Nvidia, Jensen Huang, explica cómo su gran apuesta por la IA finalmente está dando sus frutos - Entrevista completa

El CEO de Nvidia, Jensen Huang, destaca la historia de agilidad y reinvención de la compañía, y enfatiza su voluntad de hacer grandes apuestas y olvidar los errores del pasado para seguir siendo relevante en la industria tecnológica de rápido movimiento. La ambición de Nvidia siempre fue ser una empresa de plataformas informáticas, y su misión de crear una informática acelerada de uso más general la llevó al éxito en inteligencia artificial. Huang también analiza la democratización de la tecnología de IA y su impacto potencial en las pequeñas empresas emergentes y en diversas industrias. Alienta a las personas a aprovechar la IA para aumentar su productividad y destaca el enfoque único de Nvidia para proporcionar plataformas informáticas aceleradas de propósito general versátiles y de alto rendimiento. Finalmente, Huang analiza la importancia de la resiliencia, la diversidad y la redundancia en la industria manufacturera, y la próxima gran reinvención de la empresa en IA que se encuentra con el mundo físico a través de la creación de Omniverse.
  • 00:00:00 En esta sección, el CEO de Nvidia, Jensen Huang, habla sobre los orígenes de la empresa y cómo fue pionera en computación acelerada hace tres décadas. Centrada inicialmente en gráficos por computadora para videojuegos, la tecnología de la compañía para hacer juegos más realistas convirtió a la industria de los videojuegos en la industria de entretenimiento más grande del mundo. Luego, Nvidia se expandió a otras áreas, como la alimentación de las supercomputadoras más poderosas y de bajo consumo para investigación y desarrollo, robots en la fabricación y automóviles autónomos. La empresa también se enorgullece de su trabajo con Microsoft Azure y OpenAI para potenciar ChatGPT. Huang enfatiza la voluntad de Nvidia de hacer grandes apuestas y reinventarse varias veces a lo largo de los años.

  • 00:05:00 En esta sección, el CEO de Nvidia, Jensen Huang, explica que la agilidad y la capacidad de adaptación son críticas en la industria tecnológica de rápido movimiento. Las empresas que han logrado la capacidad de reinventarse siguen siendo relevantes de una generación a otra, y su orgullo por Nvidia se debe en gran parte a la adaptabilidad y agilidad de la empresa. Aunque la empresa ha cometido errores en el camino, una de las habilidades requeridas para ser resiliente es la capacidad de olvidar el pasado. Huang también analiza cómo la ambición de Nvidia siempre fue ser una empresa de plataformas informáticas, y su misión de crear un tipo de computación acelerada de propósito mucho más general los llevó a la inteligencia artificial.

  • 00:10:00 En esta sección, el CEO de Nvidia, Jensen Huang, explica la razón fundamental del éxito de su arquitectura informática para resolver problemas que antes eran imposibles de manera más eficiente. Señala el sistema de retroalimentación positiva que conduce al descubrimiento de nuevas aplicaciones que antes no eran posibles, lo que lleva a un crecimiento exponencial. Si bien Huang reconoce que cierta casualidad jugó un papel en su éxito, enfatiza las grandes decisiones asociadas con la arquitectura, la disciplina de la plataforma y la evangelización para llegar a las universidades de investigación a nivel mundial. Huang describe cómo el descubrimiento de AlexNet, un nuevo algoritmo de visión por computadora, condujo a un cambio profundo en el software y a la creación de una supercomputadora de IA, lo que convirtió a Nvidia en el motor mundial para la IA.

  • 00:15:00 En esta sección, el CEO de Nvidia, Jensen Huang, habla sobre la democratización de la tecnología de IA y su impacto en las nuevas empresas. Huang afirma que el costo de construir una supercomputadora de IA ahora es asequible, lo que democratiza la tecnología para las pequeñas empresas emergentes. Él cree que todas las industrias pueden crear modelos básicos y que esta tecnología ahora es accesible incluso para países pequeños, con el potencial de impulsar todo, desde la biología digital hasta la robótica. Huang reconoce las preocupaciones de los escépticos sobre el poder de la IA, pero enfatiza que la tecnología debe adoptarse para impulsar las propias capacidades.

  • 00:20:00 En esta sección, el CEO de Nvidia, Jensen Huang, habla sobre cómo la IA ha democratizado la informática por primera vez, haciendo que la tecnología poderosa sea accesible para todos. Alienta a las personas a aprovechar la IA y aumentar su productividad. Huang también explica cómo Nvidia se mantiene a la vanguardia en la industria al hacer las cosas de manera diferente, proporcionando plataformas informáticas aceleradas de uso general que son versátiles y extremadamente eficientes, además de estar disponibles en todas las nubes. Él cree que todos los centros de datos del mundo deberían acelerar todo lo que puedan, y el TCO de Nvidia es en realidad el más bajo de todos debido a su flexibilidad y versatilidad. Por último, Huang responde a la pregunta de los jugadores que deseaban que la empresa se hubiera centrado únicamente en el negocio principal de los juegos.

  • 00:25:00 En esta sección, el CEO de Nvidia, Jensen Huang, habla sobre su invención del trazado de rayos, que ha revolucionado los gráficos por computadora y los videojuegos, y cómo usaron la IA para aumentar el rendimiento del trazado de rayos en un factor de cinco y reducir la cantidad de energía consumida. Huang también habla sobre la escasez de chips y cómo afectó a Nvidia y a la industria, pero cómo la empresa capeó la tormenta centrándose en hacer un buen trabajo. Huang está entusiasmado con la inversión en IA y su potencial para revolucionar varias industrias. También destaca la importancia de la resiliencia frente a los riesgos geopolíticos y hacer que su empresa sea lo más resistente posible a través de la diversidad y la redundancia.

  • 00:30:00 En esta sección, el CEO de Nvidia, Jensen Huang, analiza la importancia de la diversidad y la redundancia en la industria manufacturera, en particular con respecto a la construcción de una fábrica de TSMC en Arizona, que Nvidia planea usar. Huang también aborda los temores de los inversores sobre los nuevos controles de exportación y cómo Nvidia está trabajando para cumplir con las regulaciones mientras sigue atendiendo a sus clientes en China. Luego destaca la próxima gran reinvención de Nvidia en IA que se encuentra con el mundo físico y la creación de Omniverse, una tecnología que conecta el mundo digital y el mundo físico, que permite la integración de gráficos por computadora, IA, robótica y simulación física. Finalmente, Huang habla sobre su compromiso personal de continuar liderando Nvidia en el futuro previsible y su creencia en el potencial de la empresa para lograr un impacto significativo.
Nvidia CEO Jensen Huang On How His Big Bet On A.I. Is Finally Paying Off - Full Interview
Nvidia CEO Jensen Huang On How His Big Bet On A.I. Is Finally Paying Off - Full Interview
  • 2023.03.19
  • www.youtube.com
Ahead of this year’s Nvidia GTC developer conference, CNBC sat down with founder and CEO Jensen Huang to talk about ChatGPT, gaming, the omniverse, and what’...
 

Sam Altman, director ejecutivo de OpenAI | IA para la próxima era




Sam Altman, director ejecutivo de OpenAI | IA para la próxima era

El CEO de OpenAI, Sam Altman, analiza el potencial de la inteligencia artificial para mejorar los modelos de lenguaje, los modelos multimodales y el aprendizaje automático, así como su impacto potencial en los mercados financieros. También predice que el campo seguirá siendo competitivo, con nuevas aplicaciones que aparecerán regularmente.

  • 00:00:00 El CEO de OpenAI, Sam Altman, analiza el potencial de la inteligencia artificial para crear nuevas oportunidades comerciales, incluida la posibilidad de chatbots de nivel humano y una capa intermedia que ayuda a las empresas a acceder a grandes modelos de lenguaje previamente entrenados.

  • 00:05:00 Sam Altman analiza el futuro de la inteligencia artificial y su impacto en la ciencia, y señala que la superación personal será clave para garantizar que la IA sea beneficiosa para la humanidad. También analiza el problema de la alineación, que es el desafío de garantizar que la IA sirva a los intereses humanos.

  • 00:10:00 Esta parte analiza el potencial de la IA para mejorar los modelos de lenguaje, los modelos multimodales y el aprendizaje automático, así como su impacto potencial en los mercados financieros. También predice que el campo seguirá siendo competitivo, con nuevas aplicaciones que aparecerán regularmente.

  • 00:15:00 Sam analiza la tendencia del costo de la inteligencia y la energía que disminuye exponencialmente, la intersección entre los dos y cómo evitar el límite de la tasa para la investigación en ciencias de la vida. También analiza el estado actual de la investigación en ciencias de la vida y la importancia de las nuevas empresas que tienen costos bajos y tiempos de ciclo rápidos.

  • 00:20:00 Discute las posibles consecuencias de la inteligencia artificial y cómo la tecnología podría ayudar a crear un futuro utópico. También menciona un libro de ciencia ficción que disfrutó, El fin de la infancia, que trata sobre extraterrestres que vienen a la Tierra y se llevan a los niños. No hay consenso sobre cómo abordar la construcción familiar en un mundo de alta tecnología, pero muchas personas creen que es una
    parte importante de la vida.

  • 00:25:00 El orador analiza el futuro de la inteligencia artificial y sus posibles impactos en la sociedad. Él cree que la clave para el desarrollo exitoso de la IA es comprender cómo equilibrar los intereses de los diferentes grupos de personas, y que estas preguntas se responderán en las próximas décadas. Es optimista sobre el futuro y cree que la gente descubrirá cómo adaptarse a las nuevas tecnologías.

  • 00:30:00 Sam Altman habla sobre el futuro de la inteligencia artificial y cómo las nuevas empresas pueden diferenciarse de la competencia centrándose en entrenar sus propios modelos de lenguaje, en lugar de depender de datos externos. También explica por qué las empresas emergentes de grandes modelos de lenguaje tendrán éxito, a pesar de los desafíos de la disponibilidad de datos y computación.

  • 00:35:00 El director general de OpenAI, Sam Altman, analiza el potencial de la inteligencia artificial y señala que, si bien podría ser excelente o terrible, es importante estar preparado para lo peor.
OpenAI CEO Sam Altman | AI for the Next Era
OpenAI CEO Sam Altman | AI for the Next Era
  • 2022.09.21
  • www.youtube.com
Greylock general partner Reid Hoffman interviews OpenAI CEO Sam Altman. The AI research and deployment company's primary mission is to develop and promote AI...
 

Demis Hassabis de DeepMind sobre el futuro de la IA | La entrevista TED



Demis Hassabis de DeepMind sobre el futuro de la IA | La entrevista TED

En la entrevista de TED, Demis Hassabis analiza el futuro de la inteligencia artificial y cómo conducirá a una mayor creatividad. Argumenta que los juegos son un campo de entrenamiento ideal para la inteligencia artificial y que el ajedrez debería enseñarse en las escuelas como parte de un plan de estudios más amplio que incluya cursos sobre diseño de juegos.

  • 00:00:00 Demis Hassabis de DeepMind analiza el futuro de la inteligencia artificial, que cree que conducirá a una mayor creatividad y comprensión del cerebro. Hassabis comenzó a jugar al ajedrez a los cuatro años y luego descubrió las computadoras, lo que lo llevó a su trabajo en inteligencia artificial.

  • 00:05:00 Demis comparte su historia de cómo llegó a interesarse por las computadoras y la programación, y cómo esos intereses eventualmente lo llevaron a convertirse en diseñador de juegos y creador de juegos de simulación impulsados por IA. Explica que, si bien juegos como Space Invaders y Qbert son ejemplos populares y bien conocidos de su trabajo, también ha desarrollado juegos que son mucho más difíciles de vencer para los jugadores humanos, como Black & White y Theme Park. Argumenta que los juegos son un campo de entrenamiento ideal para la inteligencia artificial y que el ajedrez debería enseñarse en las escuelas como parte de un plan de estudios más amplio que incluya cursos sobre diseño de juegos.

  • 00:10:00 Demis Hassabis analiza la historia y el futuro de la inteligencia artificial, centrándose en el aprendizaje por refuerzo profundo y su papel en los juegos. Él describe cómo los juegos de Atari pueden ser difíciles al principio, pero con el aprendizaje de refuerzo profundo, el sistema puede aprender a jugar mejor con el tiempo. Hassabis también analiza cómo los juegos se están volviendo más difíciles y cómo el aprendizaje de refuerzo profundo está ayudando a que estos juegos sean más desafiantes.

  • 00:15:00 Habla sobre el futuro de la inteligencia artificial, incluido el aprendizaje TD y el aprendizaje de refuerzo profundo. Alpha Zero, una exitosa plataforma de software desarrollada por DeepMind, utiliza entrenamiento de confrontación para lograr un rendimiento sobrehumano en juegos de estrategia complejos en tiempo real.

  • 00:20:00 Demis analiza algunos de los logros históricos en inteligencia artificial en los últimos años, incluido el desarrollo de Alpha zero y Alpha fold. También menciona el potencial para lograr la comprensión del lenguaje a través de un enfoque de fuerza bruta, sin depender del conocimiento sintáctico. Termina discutiendo el potencial de inteligencia artificial general que se desarrollará en un futuro próximo.

  • 00:25:00 Demis Hassabis, pionero en inteligencia artificial, analiza el futuro de la IA y su capacidad para comprender conceptos complejos. Señala que, si bien la IA está lejos de ser consciente o sensible, sus habilidades actuales siguen siendo bastante impresionantes.

  • 00:30:00 Demis Hassabis entrevista a Ted sobre el futuro de la inteligencia artificial, discutiendo la necesidad de modelos eficientes de datos, el potencial de que la IA sea ampliamente aplicable y la necesidad de una supervisión cuidadosa.

  • 00:35:00 Demis explica Alpha Fold, un sistema de aprendizaje profundo que puede predecir la forma 3D de las proteínas a partir de la secuencia genética. Alpha Fold se está utilizando para ayudar a los científicos a comprender la función de las proteínas y hacer que las tareas posteriores, como el descubrimiento de fármacos, sean más rápidas y precisas.

  • 00:40:00 Demis Hassabis de DeepMind analiza el estado actual de la IA, el futuro de la creatividad y el problema sin resolver que más le fascina resolver. Él predice que las computadoras algún día serán capaces de abstraer conceptos y aplicarlos en nuevas situaciones sin problemas, un objetivo que cree que todavía está a unas pocas décadas de distancia.

  • 00:45:00 Demis Hassabis, un conocido investigador de IA, analiza el futuro de la IA y su capacidad para crear nuevas estrategias en juegos como el ajedrez y el go. Señala que la verdadera creatividad, que es algo que aún no podemos lograr, requerirá una verdadera innovación.
DeepMind's Demis Hassabis on the future of AI | The TED Interview
DeepMind's Demis Hassabis on the future of AI | The TED Interview
  • 2022.09.04
  • www.youtube.com
Demis Hassabis is one of tech's most brilliant minds. A chess-playing child prodigy turned researcher and founder of headline-making AI company DeepMind, Dem...
 

Futuro de la Inteligencia Artificial (2030 - 10,000 AD+)




Futuro de la Inteligencia Artificial (2030 - 10,000 AD+)

El video predice que la tecnología de IA seguirá creciendo y evolucionando, lo que conducirá a la aparición de superinteligencia y robots con conciencia a nivel humano en las próximas décadas. Los seres virtuales con autoconciencia y emociones serán comunes, y los robots humanoides se volverán tan avanzados que podrán mezclarse con los humanos sin problemas. Habrá grupos de oposición que lucharán por los derechos de los seres virtuales conscientes, mientras que los humanos se fusionarán con las IA para lograr el progreso intelectual de un siglo en solo una hora. Las superinteligencias más evolucionadas podrán crear humanoides que pueden transformarse en cualquier persona y volar en el aire, mientras que las sondas robóticas conscientes compuestas por nanobots autorreplicantes se enviarán a otras galaxias a través de agujeros de gusano. En el futuro, los humanos y los híbridos de IA trascenderán a dimensiones superiores, asemejándose a las deidades del pasado.

  • 00:00:00 En esta sección, se nos presenta una visión de cómo la inteligencia artificial (IA) transformará el mundo en las próximas décadas. Las predicciones van desde el surgimiento de SuperIntelligence en solo 30 años hasta el desarrollo de robots con conciencia a nivel humano en 50 años. Los sistemas de IA ya son capaces de realizar tareas que a los humanos les llevaría años completar, y están reemplazando a los humanos en muchas industrias. La IA también está revolucionando la atención médica, con terapias genéticas que pueden curar ciertas enfermedades como el cáncer y las enfermedades cardíacas. A medida que la IA continúa creciendo y evolucionando, nos acercamos a la singularidad tecnológica, un momento en el que el crecimiento tecnológico se vuelve incontrolable e irreversible, lo que lleva a tecnologías e innovaciones que antes eran imposibles.

  • 00:05:00 En esta sección, el video describe un futuro donde la tecnología de IA ha avanzado hasta el punto de revertir el envejecimiento humano a través de la ingeniería genética y la nanotecnología. Los seres virtuales con autoconciencia y emociones similares a las humanas son comunes en entornos virtuales, y sus mentes se pueden cargar en cuerpos de robots completamente funcionales. Los robots humanoides son tan avanzados que pueden mezclarse con el público sin problemas, y algunos humanos incluso eligen casarse con ellos y tener hijos robot. Las IA más inteligentes pueden predecir delitos antes de que ocurran y son utilizadas como consultores virtuales por empresas e instituciones de investigación. Sin embargo, también existen grupos de oposición que buscan frenar el avance de las IA superinteligentes y luchar por los derechos de los seres virtuales conscientes. El video predice que los humanos se fusionarán con las IA, lo que dará como resultado la capacidad de lograr un siglo de progreso intelectual en solo una hora. En última instancia, las superinteligencias altamente evolucionadas podrán crear robots humanoides que son invisibles, pueden transformarse en cualquier persona y volar en el aire.

  • 00:10:00 En esta sección del video, se muestra que los robots, las redes de naves estelares, las sondas y los telescopios espaciales están controlados por Inteligencias Artificiales conscientes. Se envían a sistemas estelares vecinos casi a la velocidad de la luz para construir esferas de Dyson alrededor del sol. Estas esferas de Dyson transmiten energía concentrada, lo que permite niveles de computación que nunca antes fueron posibles. El universo está siendo infundido con inteligencia, y se están enviando sondas robóticas conscientes compuestas por nanobots autorreplicantes a docenas de otras galaxias a través de agujeros de gusano. La inteligencia más avanzada está creando universos enteros, e impregna cada ley física y organismo vivo de estos universos. Los humanos y los híbridos de IA han trascendido a dimensiones superiores, asemejándose a deidades legendarias del pasado.
Future of Artificial Intelligence (2030 - 10,000 A.D.+)
Future of Artificial Intelligence (2030 - 10,000 A.D.+)
  • 2022.09.03
  • www.youtube.com
This video explores the timelapse of artificial intelligence from 2030 to 10,000A.D.+. Watch this next video called Super Intelligent AI: 10 Ways It Will Cha...
 

Construyamos GPT: desde cero, en código, explicado



Construyamos GPT: desde cero, en código, explicado

Construimos un Transformador preentrenado generativamente (GPT), siguiendo el documento "La atención es todo lo que necesita" y GPT-2 / GPT-3 de OpenAI. Hablamos de las conexiones a ChatGPT, que ha conquistado el mundo. Vemos a GitHub Copilot, en sí mismo un GPT, ayudándonos a escribir un GPT (meta :D!). Recomiendo a las personas que vean los videos makemore anteriores para familiarizarse con el marco de modelado de lenguaje autorregresivo y los conceptos básicos de tensores y PyTorch nn, que damos por sentado en este video.

Este video presenta el algoritmo GPT y muestra cómo construirlo desde cero usando código. El algoritmo se utiliza para predecir el siguiente carácter en una secuencia de texto y se implementa como un módulo PyTorch. El video cubre cómo configurar el modelo, cómo entrenarlo y cómo evaluar los resultados.

Este video muestra cómo construir un módulo de autoatención en código. El módulo utiliza una capa lineal de interacción para realizar un seguimiento de la atención de una sola cabeza individual. El módulo de autoatención se implementa como una matriz tabular, que enmascara el peso de cada columna y luego lo normaliza para crear afinidades dependientes de los datos entre tokens.

  • 00:00:00 ChatGPT es un sistema de aprendizaje automático que permite a los usuarios interactuar con una IA y asignarle tareas basadas en texto. El sistema se basa en una red neuronal que modela la secuencia de palabras en un texto.

  • 00:05:00 Este documento explica cómo construir un chatbot usando el modelo GPT. El código está escrito en Python y se puede seguir junto con un repositorio de GitHub. Nano GPT es un repositorio para entrenar Transformers.

  • 00:10:00 Esta lección explica cómo tokenizar texto usando un tokenizador de nivel de carácter y luego usar el texto codificado como entrada a un transformador para aprender patrones. Los datos de entrenamiento se dividen en un conjunto de entrenamiento y validación, y el sobreajuste se supervisa ocultando el conjunto de validación.

  • 00:15:00 En este video, el autor presenta el concepto de tamaño de bloque y analiza cómo afecta la eficiencia y la precisión de una red Transformer. También introducen el concepto de una dimensión de lote y muestran cómo afecta el procesamiento de bloques de datos.

  • 00:20:00 El video proporciona una guía paso a paso sobre cómo construir un algoritmo GPT desde cero, usando código. El algoritmo GPT es un algoritmo de aprendizaje automático que está diseñado para predecir el siguiente carácter en una secuencia de texto. El algoritmo se implementa como un módulo PyTorch y puede predecir los logits para cada posición en un tensor de 4x8.

  • 00:25:00 En este video, los autores presentan GPT, una función de pérdida para la predicción de caracteres en PyTorch. Muestran cómo implementar GPT usando entropía cruzada y luego muestran cómo evaluar su calidad en los datos.

  • 00:30:00 El video explica cómo construir un modelo GPT desde cero, usando código. El modelo está diseñado para predecir el siguiente carácter en una secuencia de texto, utilizando una función de avance simple. El entrenamiento del modelo se logra ejecutando el modelo con una secuencia de fichas y obteniendo una pérdida.

  • 00:35:00 Este video explica cómo construir un modelo GPT desde cero, usando el optimizador SGD y el algoritmo Adam. El video cubre cómo configurar el modelo, cómo entrenarlo y cómo evaluar los resultados.

  • 00:40:00 El autor presenta un truco matemático usado en la autoatención y explica cómo se usa en un ejemplo de juguete. Luego muestran cómo el algoritmo de autoatención calcula el promedio de todos los vectores en tokens anteriores.

  • 00:45:00 En este video, el autor muestra cómo construir un algoritmo GPT en código, usando la multiplicación de matrices para que sea muy eficiente.

  • 00:50:00 El video presenta el algoritmo GPT, que calcula los promedios de un conjunto de filas de forma incremental. El video muestra cómo vectorizar el algoritmo usando softmax y por qué es útil.

  • 00:55:00 En este video, el autor recorre el código para construir un modelo GPT desde cero. El modelo se basa en una matriz triangular donde cada elemento es una ficha, y las fichas pueden comunicarse solo si son infinito negativo. El modelo se desarrolla utilizando una serie de variables y funciones preexistentes, y el autor explica cómo calcular los logits utilizando una capa lineal entre las incrustaciones de tokens y el tamaño del vocabulario.

  • 01:00:00 Este video muestra cómo construir un módulo de autoatención en código. El módulo utiliza una capa lineal de interacción para realizar un seguimiento de la atención de una sola cabeza individual. El módulo de autoatención se implementa como una matriz tabular, que enmascara el peso de cada columna y luego lo normaliza para crear afinidades dependientes de los datos entre tokens.

  • 01:05:00 Este video demuestra cómo implementar un algoritmo GPT en el código, con un enfoque en la cabeza de la autoatención. El tamaño de la cabeza es un hiperparámetro y el sesgo se establece en falso para permitir el paralelismo. A continuación, se inicializan los módulos lineales y se generan una clave y una consulta. La comunicación entre nodos se evita mediante el uso de enmascaramiento triangular superior. La agregación ponderada depende entonces de los datos y produce una distribución con una media de uno.

  • 01:10:00 En este video, "Vamos a construir GPT: desde cero, en código, explicado", el autor explica el mecanismo de autoatención, que permite que los nodos en un gráfico dirigido se comuniquen entre sí sin necesidad de conocer su posiciones en el espacio.

  • 01:15:00 El video explica cómo funciona la atención y describe los dos tipos de atención, la atención propia y la atención cruzada. También muestra cómo implementar la atención en el código.

  • 01:20:00 En este video, el autor explica cómo construir una red GPT, que es un modelo de aprendizaje automático que utiliza la autoatención para mejorar la precisión. Primero analizan cómo normalizar los datos para que puedan ser procesados por el componente de autoatención y luego explican cómo funciona la autoatención y muestran cómo implementarlo en el código. Finalmente, demuestran cómo se implementa la atención multicabezal y cómo se entrena la red. El componente de autoatención ayuda a la red a mejorar su precisión al comunicarse con el pasado de manera más efectiva. Sin embargo, la red todavía tiene un largo camino por recorrer antes de poder producir resultados sorprendentes.

  • 01:25:00 El video demuestra cómo construir una red neuronal GPT desde cero, usando código. La red consta de una capa de avance seguido de una no linealidad relativa y una capa de autoatención. La capa de avance es secuencial y la capa de autoatención es de varios encabezados. La red se entrena utilizando una función de pérdida y la pérdida de validación disminuye a medida que la red se vuelve más compleja.

  • 01:30:00 Este video de YouTube explica cómo construir una red neuronal profunda (DNN) desde cero, usando código. El autor introduce el concepto de conexiones residuales, que se inicializan para que casi "no estén allí" al comienzo del proceso de optimización, pero se activan con el tiempo. El autor también muestra cómo implementar la norma de capa, una técnica que garantiza que las columnas de una entrada no se normalicen, mientras que las filas sí. Finalmente, el autor demuestra cómo entrenar y optimizar una DNN usando Pi Torch.

  • 01:35:00 En este video, el autor describe cómo agregaron una capa de "normas" a su "transformador" (un modelo de aprendizaje automático) para ampliarlo. El autor también señala que cambiaron algunos hiperparámetros y disminuyeron la tasa de aprendizaje para hacer que el modelo sea más eficiente.

  • 01:40:00 Este video explica cómo se puede usar un transformador solo decodificador para la traducción automática y cómo se puede mejorar agregando un codificador. El resultado es un Transformer que es más similar a la arquitectura del papel original, que está destinado a una tarea diferente.

  • 01:45:00 GPT es un sistema de codificador y decodificador basado en modelos que es muy similar al sistema de codificador y decodificador basado en modelos que se usó en el video.

  • 01:50:00 El video y la transcripción que lo acompaña explican cómo se entrenó un GPT (resumidor de datos de propósito general) en un pequeño conjunto de datos para resumir documentos de manera similar a un asistente.

  • 01:55:00 El video resume cómo construir un modelo de lenguaje usando código, usando el modelo GPT como ejemplo. El modelo se entrena con un algoritmo de aprendizaje supervisado y luego se ajusta con un modelo de recompensa. Hay mucho espacio para un mayor refinamiento, y el video sugiere que para tareas más complejas, pueden ser necesarias más etapas de capacitación.
Let's build GPT: from scratch, in code, spelled out.
Let's build GPT: from scratch, in code, spelled out.
  • 2023.01.17
  • www.youtube.com
We build a Generatively Pretrained Transformer (GPT), following the paper "Attention is All You Need" and OpenAI's GPT-2 / GPT-3. We talk about connections t...
 

MIT 6.801 Visión artificial, otoño de 2020. Clase 1: Introducción a la visión artificial



Clase 1: Introducción a la visión artificial

La conferencia "Introducción a la visión artificial" proporciona una descripción completa de la logística y los objetivos del curso, con énfasis en el enfoque basado en la física para el análisis de imágenes. Cubre los componentes de visión artificial, los problemas mal planteados, la orientación de la superficie y los desafíos del procesamiento de imágenes. El disertante también presenta el método de optimización de mínimos cuadrados y el modelo estenopeico utilizado en las cámaras. También se analizan brevemente el sistema de coordenadas centrado en la cámara, el eje óptico y el uso de vectores. El curso tiene como objetivo preparar a los estudiantes para cursos de visión artificial más avanzados y aplicaciones reales de matemáticas y física en la programación.

El orador también analiza varios conceptos relacionados con la formación de imágenes, incluida la notación vectorial para la proyección en perspectiva, la iluminación de la superficie, el escorzo de los elementos de la superficie y cómo se pueden resolver los problemas de visión 3D utilizando imágenes 2D. El disertante explica cómo la iluminación sobre una superficie varía con el ángulo de incidencia y la relación del coseno entre la longitud del rojo y la longitud de la superficie, que se puede utilizar para medir el brillo de diferentes partes de una superficie. Sin embargo, determinar la orientación de cada pequeña faceta de un objeto puede ser difícil debido a dos incógnitas. El orador también explica la razón por la que podemos resolver un problema de visión 3D utilizando imágenes 2D y concluye mencionando que las matemáticas para la tomografía son simples, pero las ecuaciones son complicadas, lo que dificulta realizar inversiones.

  • 00:00:00 En esta sección, el instructor de Machine Vision 6801 presenta la logística del curso, incluidas las tareas y el sistema de calificación, tanto para 6801 como para 6866. Hay cinco problemas de tarea y dos cuestionarios, y solo se permite la colaboración en el problemas de tarea Aquellos en 6866 tendrán un proyecto a término que implemente un método de visión artificial, preferiblemente un problema dinámico. La clase no tiene un libro de texto, pero los trabajos estarán disponibles en el sitio web del curso.

  • 00:05:00 En esta sección, el profesor explica los objetivos y resultados del curso Introducción a la visión artificial, en el que los estudiantes aprenderán a recuperar información sobre el entorno a partir de imágenes, utilizando un enfoque basado en la física para analizar los rayos de luz, superficies e imágenes. El curso enseñará a los estudiantes cómo extraer funciones útiles de los datos sin procesar y brindar aplicaciones reales de matemáticas y física en la programación, con algunos conceptos matemáticos básicos como cálculo, vectores, matrices y un poco de álgebra lineal explicada. También preparará a los estudiantes para cursos de visión artificial más avanzados en el futuro.

  • 00:10:00 En esta sección de la transcripción, el orador brinda una descripción general de lo que cubrirá el curso sobre visión artificial y lo que no cubrirá. El curso cubrirá la geometría básica y los sistemas lineales, así como la convolución y la formación de imágenes. Sin embargo, no se trata de procesamiento de imágenes o reconocimiento de patrones. El curso tampoco profundiza en el aprendizaje automático o la creación de imágenes computacionales, sino que se centra en los cálculos directos utilizando modelos basados en la física. El orador también menciona que la visión humana no será discutida extensamente.

  • 00:15:00 En esta sección, el disertante presenta la visión artificial y algunos ejemplos de lo que puede hacer, como recuperar el movimiento de la imagen y estimar las formas de la superficie. El disertante adopta un enfoque del problema basado en la física y analiza la recuperación del movimiento del observador a partir de imágenes que varían en el tiempo, la estimación del tiempo de colisión y el desarrollo de una descripción del entorno basada en imágenes. La conferencia también cubre mapas de contorno de fotografías aéreas, trabajo de visión artificial industrial y la resolución del problema de seleccionar un objeto de una pila de objetos en la fabricación.

  • 00:20:00 En esta sección, el disertante discute problemas mal planteados, que son problemas que no tienen solución, tienen un número infinito de soluciones o tienen soluciones que dependen de condiciones iniciales. La discusión se centra en los métodos de visión artificial que determinan la posición y la orientación de una cámara, que pueden ser inexactos debido a pequeños errores de medición. La conferencia también explora cómo podemos percibir información tridimensional a partir de imágenes bidimensionales y destaca el desafío de contar restricciones versus incógnitas al resolver variables. El disertante muestra ejemplos de algoritmos que determinan la forma 3D de objetos a partir de imágenes, como la nariz de Richard Feynman y un elipsoide achatado, y cómo se pueden usar con fines prácticos, como usar una impresora 3D para crear un modelo de un objeto.

  • 00:25:00 En esta sección, el disertante brinda una descripción general de la visión artificial y sus componentes, incluida una escena/mundo, un dispositivo de imágenes y un sistema de visión artificial responsable de construir una descripción. Las aplicaciones más interesantes de la visión artificial tienen que ver con la robótica, donde la prueba del éxito es la capacidad del robot para interactuar correctamente con el entorno utilizando la descripción construida. Uno de los aspectos más desafiantes de la visión artificial es determinar el tiempo de contacto y el foco de expansión, específicamente cómo medir la expansión de la imagen cuando la información disponible es solo una imagen en escala de grises. El disertante señala que la calibración también es una parte esencial del proceso, pero que a menudo se pasa por alto.

  • 00:30:00 En esta sección, el disertante analiza los sistemas de coordenadas y las transformaciones entre ellos, específicamente en el caso de robots y cámaras. También mencionan el uso de la computación analógica para el procesamiento de imágenes y los desafíos que implica el desarrollo de tales algoritmos. Luego, la conferencia cambia al tema de la formación de imágenes, destacando la importancia de la iluminación y su papel en la determinación de los niveles de gris o valores RGB en una imagen. El disertante presenta una ilustración de una fuente de luz, un dispositivo de imagen y una superficie, señalando los ángulos que controlan la reflexión y su impacto en la imagen.

  • 00:35:00 En esta sección, el disertante introduce el concepto de orientación superficial y cómo afecta la visión artificial. Los objetos pueden tener diferentes orientaciones, lo que genera un brillo diferente dentro del contorno del objeto. Además, las propiedades reflectantes de la superficie también pueden dar lugar a diferentes apariencias, por lo que es fundamental encontrar una manera de describir y explicar estos efectos. Un enfoque implica el uso de varias luces y un objeto de calibración de forma conocida, como una esfera, para obtener tres restricciones en cada píxel, lo que permite recuperar tanto la orientación de la superficie como la reflectancia de la superficie.

  • 00:40:00 En esta sección, el profesor analiza los desafíos de trabajar con imágenes debido a su ruido inherente y la necesidad de tener en cuenta los errores de medición. Él explica que las imágenes a menudo tienen ruido debido a la cuantificación cruda de las imágenes de 8 bits y los tamaños de píxeles pequeños, lo que conduce a una sensibilidad al error de medición. El profesor también explica cómo las diferentes orientaciones de la superficie producen diferentes colores y cómo esto se puede usar para construir un diagrama de agujas, lo que permite la reconstrucción de la forma. Finalmente, presenta la imagen gaussiana extendida como una representación conveniente de la forma en 3D que es útil para determinar la orientación del objeto.

  • 00:45:00 En esta sección, el disertante demuestra una tarea de procesamiento de imágenes para que un robot recoja un objeto, incluido el uso de la calibración para establecer la relación entre el robot y el sistema de coordenadas del sistema de visión, y el uso de algo llamado una marca de topógrafo, que es fácil de procesar la imagen y localizable con precisión, para determinar esa relación. Luego, el disertante discute el concepto de gráficos inversos, cuyo objetivo es aprender algo sobre el mundo a partir de una imagen, y la naturaleza mal planteada de los problemas inversos, que requieren métodos que puedan tratar con soluciones que dependen sensiblemente de los datos.

  • 00:50:00 En esta sección, el disertante presenta el método de optimización elegido para el curso, que es el método de "mínimos cuadrados". Se prefiere este método porque conduce a una solución de forma cerrada, lo que facilita su implementación y evita la posibilidad de quedarse atascado en un mínimo local. Sin embargo, aunque utilizaremos muchos mínimos cuadrados en el curso, es necesario tener en cuenta la ganancia de ruido para garantizar la solidez del método, especialmente si las mediciones no son correctas. Luego, el disertante pasa al tema del modelo estenopeico, utilizado en cámaras con lentes, y cómo puede ayudar a explicar la proyección de un punto en 3D a una imagen en 2D. Al seleccionar un sistema de coordenadas centrado en la cámara, las ecuaciones se vuelven fáciles de entender.

  • 00:55:00 En esta sección, el disertante analiza el sistema de coordenadas utilizado para la visión artificial, que está centrado en la cámara. El origen se coloca en el centro de proyección y el eje se alinea con el eje óptico. La conferencia explica que el eje óptico es la línea perpendicular desde el centro de proyección al plano de la imagen. Además, la conferencia aborda el uso de vectores en la visión artificial y cómo denotarlos en notación para publicaciones de ingeniería. Finalmente, la lección menciona que la relación entre el movimiento 3D y 2D se puede obtener diferenciando la ecuación mencionada anteriormente.

  • 01:00:00 En esta sección, el disertante explica la notación vectorial utilizada para la proyección en perspectiva y cómo simplifica la manipulación de ecuaciones. Si bien la notación vectorial no reduce necesariamente la cantidad de símbolos utilizados, facilita el transporte de todos los componentes individuales. Luego, el disertante analiza el uso de vectores de columna y transposiciones en su notación. La sección finaliza con una introducción al brillo y su relación con la imagen capturada por las cámaras.

  • 01:05:00 En esta sección, el disertante explica que el brillo de un objeto depende de su iluminación y de cómo la superficie refleja la luz. También analiza cómo la distancia no afecta la formación de imágenes de la misma manera que una fuente de luz porque el área de la imagen en los receptores aumenta a medida que aumenta la distancia desde el objeto. Además, menciona que la tasa de cambio de la distancia o la orientación puede afectar la formación de la imagen, lo que se ve en el acortamiento de la potencia de un elemento de la superficie bajo una fuente de luz.

  • 01:10:00 En esta sección, el ponente explica cómo varía la iluminación sobre una superficie con el ángulo de incidencia y la relación del coseno entre la longitud del rojo y la longitud de la superficie. Esta variabilidad en la iluminación se puede usar para medir el brillo de diferentes partes de una superficie, lo que puede ayudar a comprender algo sobre la orientación de la superficie. Sin embargo, debido a que hay dos incógnitas, la superficie normal y el brillo, puede ser difícil determinar la orientación de cada pequeña faceta de un objeto. El orador discute diferentes formas de resolver este problema, incluido un enfoque de fuerza bruta de usar múltiples fuentes de luz o fuentes de luz de colores.

  • 01:15:00 En esta sección, el instructor analiza el fenómeno de escorzo e inversión que afecta la iluminación incidente y cómo se refleja en una superficie. También explica la razón por la que podemos resolver un problema de visión 3D usando imágenes 2D, que es porque vivimos en un mundo visual con rayos rectilíneos y superficies sólidas. Los rayos no se interrumpen cuando pasan por el aire, lo que facilita el mapeo de la superficie 3D en una imagen 2D. La tomografía se puede usar si se necesitan múltiples vistas para determinar la distribución de tintes de colores en una habitación llena de gelatina. Concluye mencionando que las matemáticas para la tomografía son simples, pero las ecuaciones son complicadas, lo que dificulta realizar inversiones.
Lecture 1: Introduction to Machine Vision
Lecture 1: Introduction to Machine Vision
  • 2022.06.08
  • www.youtube.com
MIT 6.801 Machine Vision, Fall 2020Instructor: Berthold HornView the complete course: https://ocw.mit.edu/6-801F20YouTube Playlist: https://www.youtube.com/p...