Apprentissage Automatique et Réseaux Neuronaux

 

MQL5 prend désormais en charge les opérations matricielles et vectorielles qui sont utilisées dans diverses tâches de calcul, y compris dans l'apprentissage automatique. Nous avons créé ce fil de discussion pour sélectionner et partager des documents qui pourraient vous être utiles. La technologie de l'apprentissage automatique, ou machine learning, est basée sur les réseaux neuronaux.

Les réseaux neuronaux sont des modèles mathématiques qui tentent de reproduire l'activité du cerveau humain. Ils sont constitués de nœuds interconnectés, qui se transmettent des signaux afin de prendre des décisions.

Au cours du processus d'apprentissage automatique, l'ordinateur utilise des données existantes pour former des modèles permettant de prédire des résultats sur les données futures. L'apprentissage automatique est appliqué dans divers domaines, tels que la médecine, les affaires, la science des matériaux, etc.

L'apprentissage profond (deep learning) est un sous-domaine de l'apprentissage automatique qui utilise des réseaux neuronaux multicouches pour résoudre les problèmes de traitement des données. Les modèles d'apprentissage profond peuvent explorer les données avec une grande précision et extraire automatiquement des caractéristiques à partir de structures hiérarchiques complexes, ce qui est généralement une tâche assez difficile pour les algorithmes d'apprentissage automatique traditionnels.

Les réseaux neuronaux profonds se composent en général de plusieurs couches qui traitent séquentiellement les données d'entrée. Chaque couche est constituée d'un ensemble de neurones qui traitent les données et transmettent ensuite les résultats à la couche suivante. L'idée de l'apprentissage du modèle est d'ajuster les poids des connexions neuronales entre les couches afin de minimiser les erreurs de l'ensemble des données d'apprentissage. L'une des approches les plus utilisées pour la formation des réseaux neuronaux profonds est la rétro-propagation. Cet algorithme permet au modèle de déterminer comment les changements des poids utilisés sur les différentes couches affectent l'erreur du modèle, et d'utiliser cette information pour ajuster les poids sur la base de la descente de gradient.

L'apprentissage profond permet de créer des modèles plus précis que les méthodes classiques d'apprentissage automatique, telles que les arbres de décision ou de régression logistique. Mais elle nécessite un grand ensemble de données et des ressources informatiques importantes pour la formation, ce qui peut poser problème dans certains domaines.

L'apprentissage profond est appliqué dans différents domaines, tels que la vision artificielle, le traitement du langage naturel, le traitement de la parole et les systèmes de recommandation, entre autres. Ces dernières années, l'apprentissage profond a connu un succès retentissant dans les domaines de la reconnaissance d'images et du traitement du langage naturel.

Dans ce fil, nous partagerons des vidéos qui vous aideront à comprendre le fonctionnement de ces technologies.


Documentation sur MQL5: Méthodes sur les Matrices et les Vecteurs
Documentation sur MQL5: Méthodes sur les Matrices et les Vecteurs
  • www.mql5.com
Méthodes sur les Matrices et les Vecteurs - Référence MQL5 - Référence sur le langage de trading algorithmique/automatisé pour MetaTrader 5
 

1. La révolution de l'apprentissage en profondeur



La révolution de l'apprentissage en profondeur

Cette courte vidéo met en lumière le rôle révolutionnaire de l'intelligence artificielle (IA) dans l'acquisition de capacités surhumaines, la découverte de nouveaux matériaux et la conservation de ressources rares.

Ces technologies permettent aux personnes malvoyantes de reconnaître les visages et de lire des textes, ainsi que d'aider les aveugles à lire à leurs enfants . Les véhicules autonomes nous donnent la liberté d'explorer des régions éloignées sans cartes routières.

La vidéo met l'accent sur le rôle de la technologie de l'IA dans le renforcement de la capacité des gens à prendre de meilleures décisions et à résoudre des problèmes complexes.

The Deep Learning Revolution
The Deep Learning Revolution
  • 2016.06.09
  • www.youtube.com
More info at: http://www.nvidia.com/deep-learning Deep learning is the fastest-growing field in artificial intelligence, helping computers make sense of infi...
 

2. Visualisation des processus de traitement de l'information dans les réseaux de neurones d'apprentissage profond

Une série de courtes vidéos : mieux vaut regarder que tenter de décrire.












 

3. [Apprentissage en profondeur | vidéo 1] Qu'est-ce qu'« est » un réseau de neurones ?



Mais qu'est-ce qu'un réseau de neurones ? | Chapitre 1, Apprentissage en profondeur

Cette vidéo présente aux téléspectateurs les réseaux de neurones et explique leur fonctionnement. Les réseaux de neurones contiennent plusieurs couches de neurones, chacune étant connectée aux neurones des couches précédente et suivante par des poids et des biais. L'activation d'un neurone est déterminée par la somme pondérée des activations des neurones de la couche précédente, qui est ensuite compressée par une fonction sigmoïde.

  • 00:00:00 Une introduction aux réseaux de neurones expliquant comment ils sont inspirés par le cerveau et comment ils peuvent être utilisés pour reconnaître les chiffres manuscrits. La vidéo explique également la structure du réseau neuronal, y compris la couche d'entrée, la couche cachée et la couche de sortie.

  • 00:05:00 Cette partie explique pourquoi on peut s'attendre à ce que la structure en couches d'un réseau neuronal se comporte intelligemment. Il est indiqué que chaque neurone dans les couches médianes du réseau correspond à l'un des nombreux sous-composants qui composent l'image globale. Par exemple, un neurone peut être activé lorsqu'une image en boucle est entrée dans la couche d'entrée. Cela permet au réseau d'assembler divers composants qui composent une image et de reconnaître finalement le chiffre représenté dans l'image.

  • 00:10:00 Les poids et les biais d'un réseau de neurones déterminent son comportement, tandis que l'apprentissage est le processus d'ajustement de ces valeurs pour obtenir le comportement souhaité. Les réseaux de neurones sont constitués de couches de neurones, chacune étant connectée aux neurones de la couche précédente et suivante par des poids et des biais. L'activation d'un neurone est déterminée par la somme pondérée des activations des neurones de la couche précédente, qui est ensuite compressée par une fonction sigmoïde. Ce vecteur final est ensuite introduit dans la couche suivante.

  • 00:15:00 Dans cette vidéo, l'auteur explique ce qu'est un réseau neuronal et comment il fonctionne. Il présente également la fonction sigmoïde et explique comment elle est utilisée pour compresser la somme pondérée correspondante entre zéro et un.
But what is a neural network? | Chapter 1, Deep learning
But what is a neural network? | Chapter 1, Deep learning
  • 2017.10.05
  • www.youtube.com
What are the neurons, why are there layers, and what is the math underlying it?Help fund future projects: https://www.patreon.com/3blue1brownWritten/interact...
 

4. [Apprentissage en profondeur | vidéo 2] Gradient Decent, comment les réseaux de neurones apprennent



Descente de gradient, comment les réseaux de neurones apprennent | Chapitre 2, Apprentissage en profondeur

Cette vidéo explique comment la descente de gradient aide les réseaux de neurones à apprendre plus efficacement.

  • 00:00:00 Présentation de l'idée de descente de gradient, qui est au cœur de la façon dont les réseaux de neurones et de nombreux autres algorithmes d'apprentissage automatique apprennent. La vidéo montre ensuite comment le réseau de reconnaissance des chiffres manuscrits est paramétré avec une fonction de coût, des poids et des biais. Les performances du réseau sont évaluées sur l'exemple d'ensemble de données de formation, et à mesure que le réseau s'améliore dans la reconnaissance des nombres, la fonction de coût devient de plus en plus précise.

  • 00:05:00 La descente de gradient est un outil puissant pour former des réseaux de neurones et il est important de se rappeler que la fonction de coût doit avoir une sortie régulière afin de la minimiser efficacement.

  • 00:10:00 Explication de l'algorithme de descente de gradient et du fonctionnement des neurones artificiels. La descente de gradient est utilisée pour trouver un minimum local dans la fonction de coût tout en se déplaçant par petites étapes sur une pente. Ce processus est répété jusqu'à ce que le réseau atteigne une bonne solution. La vidéo montre ensuite un exemple de descente de gradient en action avec un réseau de neurones entraînés à reconnaître les nombres. Bien que le réseau ne soit pas parfait, ce qui est impressionnant, c'est qu'il peut gérer des images qu'il n'a jamais vues auparavant.

  • 00:15:00 La descente de gradient est une technique utilisée pour entraîner les réseaux de neurones. Dans la première partie, nous avons vu que les réseaux de neurones profonds entraînés sur des données étiquetées aléatoirement atteignent la même précision que sur des données correctement étiquetées. La deuxième partie montre que si un réseau de neurones est formé sur un ensemble de données avec les bonnes étiquettes, alors les minima locaux de sa fonction de coût sont de la même qualité.

  • 00: 20: 00 Démonstration du fonctionnement de la descente de gradient dans les réseaux de neurones et comment elle peut aider le réseau à apprendre plus efficacement.
Gradient descent, how neural networks learn | Chapter 2, Deep learning
Gradient descent, how neural networks learn | Chapter 2, Deep learning
  • 2017.10.16
  • www.youtube.com
Enjoy these videos? Consider sharing one or two.Help fund future projects: https://www.patreon.com/3blue1brownSpecial thanks to these supporters: http://3b1...
 

5. [Apprentissage en profondeur | vidéo 3] Que fait vraiment la rétropropagation ?



Que fait vraiment la rétropropagation ? | Chapitre 3, Apprentissage en profondeur

L'algorithme de rétropropagation est utilisé dans les réseaux de neurones pour les aider à apprendre. L'algorithme calcule le gradient de la fonction de coût, qui dépend des poids et biais du réseau. Le gradient est ensuite utilisé pour ajuster les poids et les biais du réseau.

  • 00:00:00 La rétropropagation est au cœur de la formation des réseaux de neurones. L'algorithme calcule le gradient de la fonction de coût, qui dépend des poids et biais du réseau. Le gradient est ensuite utilisé pour ajuster les poids et les biais du réseau.

  • 00:05:00 La rétropropagation est un algorithme d'apprentissage supervisé qui aide à augmenter l'activation des neurones dans un réseau d'apprentissage en profondeur. L'algorithme ajuste les poids et les biais des neurones de la couche précédente afin que ce changement soit proportionnel à la taille des poids respectifs. La rétropropagation aide également à propager les modifications souhaitées des poids et des biais des neurones de la deuxième couche.

  • 00:10:00 La rétropropagation est utilisée pour ajuster les poids et les biais du réseau neuronal. Il s'agit d'un algorithme de descente de gradient stochastique qui divise aléatoirement les données en mini-lot et met à jour les poids et les biais en fonction du mini-lot. Cet algorithme est plus rapide en calcul que la vraie descente de gradient et peut converger vers un minimum local de la fonction de coût.
What is backpropagation really doing? | Chapter 3, Deep learning
What is backpropagation really doing? | Chapter 3, Deep learning
  • 2017.11.03
  • www.youtube.com
What's actually happening to a neural network as it learns?Help fund future projects: https://www.patreon.com/3blue1brownAn equally valuable form of support ...
 

6. [Apprentissage en profondeur | vidéo 4] Calcul de rétropropagation



Calcul de rétropropagation | Chapitre 4, Apprentissage en profondeur

Cette vidéo explique les mathématiques derrière l'algorithme de rétropropagation pour l'apprentissage en profondeur à l'aide d'un réseau simple avec un neurone par couche défini par des poids et des biais. Une règle de chaîne est introduite pour comprendre comment les changements de poids affectent le coût, et la sensibilité du coût aux petits changements de poids est trouvée à travers les dérivées des fonctions de coût, des fonctions d'activation et de la somme pondérée. La sensibilité est prise en compte en calculant de manière itérative la sensibilité de l'activation précédente dans l'extension de la règle de chaîne pour trouver la sensibilité aux poids et biais précédents. L'approche reste similaire même avec plusieurs neurones par couche, chaque poids ayant son propre indice pour suivre sa position dans la couche.

  • 00:00:00 Dans la première partie, nous plongeons dans l'appareil mathématique nécessaire à la rétropropagation dans l'apprentissage en profondeur. La vidéo montre l'exemple d'un réseau simple avec un neurone par couche défini par trois poids et trois biais. L'objectif est de comprendre à quel point la fonction de coût est sensible à ces variables et quels ajustements seront les plus efficaces pour réduire la fonction de coût. Une règle de chaîne est introduite pour comprendre comment les changements dans les variables de poids affectent la fonction de coût. La sensibilité de la fonction de coût à de petites variations de poids est calculée à l'aide des dérivées de la fonction de coût, de la fonction d'activation et de la somme pondérée.

  • 00:05:00 La deuxième partie introduit le concept de sensibilité par rapport aux poids et aux biais dans un réseau de neurones. La dérivée de la fonction de coût par rapport aux poids et aux biais est trouvée par une extension de la règle de la chaîne, nécessitant de prendre en compte la sensibilité. Bien que la sensibilité puisse être considérée comme le nombre de neurones qui s'activent ensemble et communiquent entre eux, la dérivée nécessite que l'expression soit moyennée sur tous les exemples d'entraînement. La sensibilité de l'activation précédente dans l'extension de règle de chaîne est calculée et utilisée pour calculer de manière itérative la sensibilité aux poids et biais précédents. L'approche ne change pas beaucoup même si les couches du réseau de neurones ont plusieurs neurones ; cependant, chaque pondération doit être indexée avec des indices supplémentaires pour garder une trace de sa position dans la couche.
Backpropagation calculus | Chapter 4, Deep learning
Backpropagation calculus | Chapter 4, Deep learning
  • 2017.11.03
  • www.youtube.com
Help fund future projects: https://www.patreon.com/3blue1brownAn equally valuable form of support is to simply share some of the videos.Special thanks to the...
 

Cours complet sur l'intelligence artificielle | Tutoriel sur l'intelligence artificielle pour les débutants | Édureka

Ci-dessus, nous vous avons présenté les meilleurs matériaux pour une introduction aux réseaux de neurones artificiels. Cette vidéo d'Edureka vous donnera une connaissance complète et détaillée des concepts d'IA avec des exemples pratiques.


Pour votre commodité, nous fournissons un calendrier général, puis un calendrier détaillé pour chaque partie. Vous pouvez aller directement au bon moment, regarder dans un mode qui vous convient et ne rien manquer.

  1. 00:00:00 - 01:00:00 La partie 1 fournit une introduction à l'intelligence artificielle, aborde son histoire, différents domaines et concepts, et comment l'apprentissage en profondeur est utilisé pour résoudre des problèmes du monde réel. Il parle également des différents types d'intelligence artificielle et des langages de programmation populaires pour le développement de l'IA.

  2. 01:00:00 - 02:00:00 La partie 2 aborde les différents types d'intelligence artificielle et comment ils peuvent être utilisés pour résoudre différents types de problèmes. Il explique comment la régression linéaire peut être utilisée pour prédire la température maximale moyenne pour une plage de température donnée, et la régression logistique peut être utilisée pour prédire la probabilité qu'un résultat soit un ou zéro. Il traite également de l'algorithme de l'arbre de décision et de la manière dont il peut être utilisé pour créer un arbre de décision. Enfin, il explique comment la forêt aléatoire peut être utilisée pour créer une prévision plus précise et stable.

  3. 02:00:00 - 03:00:00 Dans la partie 3, le tuteur Edureka Michael Kennedy explique comment fonctionne l'algorithme de clustering K-means et comment il peut être utilisé pour compresser d'énormes ensembles de données en un petit nombre de valeurs significatives. Il explique également que l'apprentissage par renforcement est un autre type d'apprentissage automatique qui aide les agents à apprendre à atteindre leurs objectifs dans un environnement inconnu.

  4. 03:00:00 - 04:00:00 Dans la partie 4, nous apprenons à calculer le gain d'informations pour un nœud parent, un nœud enfant et un type de route différent. L'entropie est calculée pour le côté droit et s'avère être nulle, indiquant qu'il n'y a pas d'incertitude. Lorsque la route est plate, la vitesse de la voiture est élevée, indiquant qu'il n'y a pas d'incertitude dans cette information. Lorsque la route est raide, la vitesse de la voiture peut être lente ou rapide, indiquant que l'information n'est pas spécifique à un type de route en particulier.

  5. 04:00:00 - 04:50:00 Dans la partie 5, l'instructeur Edureka, Kirill Eremenko, donne un aperçu complet de l'intelligence artificielle, couvrant les bases de la programmation, des données et de l'apprentissage automatique. Il explique comment fonctionnent les réseaux de neurones et comment ils peuvent être utilisés pour prédire les cours des actions. Il décrit également les étapes nécessaires à la formation d'un réseau de neurones, y compris la préparation des données, le partitionnement et la mise à l'échelle. Enfin, il discute des paramètres d'architecture de modèle pour un système d'IA, y compris le nombre de neurones dans chaque couche cachée, la taille du biais et la fonction de coût.


Chronologie détaillée des parties du cours vidéo

Partie 1

  • 00:00:00 Zulaikha d'Edureka parle de l'histoire de l'IA, des différents domaines et concepts qui s'y rapportent, de la naissance de l'IA, des limites de l'apprentissage automatique et de la nécessité d'un apprentissage en profondeur. Elle introduit également le concept d'apprentissage en profondeur et montre comment il peut être utilisé pour résoudre des problèmes du monde réel. Enfin, elle parle du module suivant, le traitement du langage naturel.

  • 00:05:00 L'intelligence artificielle est la science et l'ingénierie de la création de machines intelligentes capables d'effectuer des tâches qui nécessiteraient normalement l'intelligence humaine, telles que la perception visuelle, la reconnaissance vocale, la prise de décision et la traduction entre les langues. Les avancées récentes en matière de puissance de calcul et d'algorithmes ont permis d'intégrer plus efficacement l'intelligence artificielle dans notre quotidien. Les universités, les gouvernements, les start-ups et les grandes entreprises technologiques investissent leurs ressources dans l'IA parce qu'ils croient que c'est l'avenir. L'intelligence artificielle se développe rapidement à la fois en tant que domaine d'étude et en tant qu'économie.

  • 00:10:00 L'intelligence artificielle est utilisée dans divers domaines, de la finance à la santé et aux médias sociaux. L'IA est devenue si importante que même des entreprises comme Netflix l'utilisent.

  • 00:15:00 L'intelligence artificielle est divisée en trois étapes, et nous sommes actuellement au stade de l'IA faible. L'intelligence artificielle générale, ou IA forte, est encore loin d'être atteinte, mais si cela se produisait, ce serait une étape importante dans l'histoire de l'humanité.

  • 00:20:00 Cette section présente différents types d'intelligence artificielle, puis aborde différents langages de programmation pour l'IA. Python est considéré comme le meilleur langage pour le développement de l'IA et R est également un choix populaire. Les autres langages incluent Python, Lisp, Prolog, C++, MATLAB, Julia et JavaScript.

  • 00:25:00 Python est un langage de programmation flexible et facile à utiliser qui devient populaire dans le domaine de l'intelligence artificielle. L'apprentissage automatique est une technique qui permet aux machines d'apprendre à partir de données afin d'améliorer leurs prédictions.

  • 00:30:00 L'apprentissage automatique est un sous-ensemble de l'intelligence artificielle qui utilise des algorithmes pour apprendre automatiquement et s'améliorer avec l'expérience. Le composant principal du processus d'apprentissage automatique est un modèle formé à l'aide d'un algorithme d'apprentissage automatique.

  • 00:35:00 La différence entre un algorithme et un modèle est qu'un algorithme cartographie toutes les décisions que le modèle doit prendre en fonction d'une entrée donnée, tandis qu'un modèle utilisera un algorithme d'apprentissage automatique pour extraire des informations utiles de l'entrée et donner vous un résultat qui est très précis. Nous avons ensuite une variable prédictive, qui est toute caractéristique des données pouvant être utilisée pour prédire la sortie. Ainsi, dans le même exemple, la hauteur sera la variable de réponse. La variable de réponse est également appelée variable cible ou variable de sortie. Il s'agit de la variable que vous essayez de prédire à l'aide des variables prédictives. Ainsi, la variable de réponse est la fonction ou la variable de sortie qui doit être prédite à l'aide des variables prédictives. Ensuite, nous avons ce qu'on appelle les données d'entraînement. Vous rencontrerez souvent les termes "formation" et "test" de données dans le processus d'apprentissage automatique. Les données de formation sont les données utilisées pour créer le modèle d'apprentissage automatique. Ainsi, dans le processus d'apprentissage automatique, lorsque vous chargez les données dans la machine, elles seront divisées en deux parties. La division des données en deux sous-ensembles est également connue sous le nom de fractionnement des données. Vous allez prendre les données d'entrée, les diviser en deux parties.
  • 00:40:00 La collecte de données est l'une des étapes les plus chronophages de l'apprentissage automatique et si vous devez collecter manuellement des données, cela prendra beaucoup de temps. Mais heureusement, il existe de nombreuses ressources en ligne qui fournissent de vastes ensembles de données. Tout ce que vous avez à faire est de gratter le Web où vous n'avez qu'à télécharger les données. Un site dont je peux vous parler est Cargill. Donc, si vous débutez dans l'apprentissage automatique, ne vous inquiétez pas de la collecte de données et de tout cela. Tout ce que vous avez à faire est d'aller sur des sites Web comme Cargill et de télécharger l'ensemble de données.

  • 00:45:00 L'apprentissage supervisé est une technique dans laquelle une machine est formée à l'aide de données bien étiquetées. L'apprentissage supervisé est similaire à la façon dont les enseignants aident les élèves à comprendre les concepts mathématiques.

  • 00:50:00 Dans l'apprentissage supervisé, l'ensemble de données d'entraînement contient des informations sur l'apparence des objets, comme les images de Tom et Jerry. Un algorithme d'apprentissage automatique est formé sur cet ensemble de données étiqueté pour apprendre à identifier et classer les images. Dans l'apprentissage non supervisé, un algorithme d'apprentissage automatique ne reçoit pas de données étiquetées, mais s'entraîne à la place sur des données non étiquetées. Dans l'apprentissage par renforcement, un agent est placé dans un environnement et apprend à se comporter en réalisant des actions et en observant les récompenses reçues pour ces actions.

  • 00:55:00 L'apprentissage automatique comprend trois principaux types d'apprentissage : l'apprentissage supervisé, l'apprentissage non supervisé et l'apprentissage par renforcement. L'apprentissage supervisé est utilisé pour apprendre des données étiquetées, l'apprentissage non supervisé est utilisé pour apprendre des données non étiquetées et l'apprentissage par renforcement est utilisé pour apprendre des actions et des récompenses. Il existe trois types de problèmes qui peuvent être résolus avec l'apprentissage automatique : la régression, la classification et le clustering. De nombreux algorithmes peuvent être utilisés pour résoudre les problèmes de régression, de classification et de clustering, mais les plus couramment utilisés sont la régression linéaire, la régression logistique, la machine à vecteurs de support et Naive Bayes.


Partie 2

  • 01:00:00 L'intelligence artificielle peut être utilisée pour résoudre des problèmes de classification, de régression et de regroupement. Des algorithmes d'apprentissage supervisé tels que la régression linéaire sont utilisés pour prédire des variables cibles telles que l'indice des prix des logements sur la base des données d'entrée.

  • 01:05:00 La régression linéaire est un algorithme d'apprentissage supervisé utilisé pour prédire une variable dépendante continue, y, basée sur les valeurs de la variable indépendante, x. La régression linéaire commence par établir une relation entre y et x en utilisant le meilleur ajustement linéaire, puis calcule la pente et le décalage en y de la droite de régression linéaire.

  • 01:10:00 L'instructeur d'Edureka, Michael Kennedy, démontre une régression linéaire sur un ensemble de données de conditions météorologiques enregistrées à différents jours dans le monde. Il montre comment importer les bibliothèques requises et lire les données, comment tracer des points de données et trouver une relation linéaire entre les variables. Il discute également du message d'avertissement et explique que le but principal de cette démonstration est la prévision météorologique.

  • 01:15:00 Cette leçon explique comment la régression linéaire peut être utilisée pour prédire la température maximale moyenne pour une plage de température donnée. Le modèle est entraîné en divisant l'ensemble de données en ensembles d'apprentissage et de test, et en important la classe de régression linéaire appropriée. Après le didacticiel, l'instructeur montre comment calculer la pente et le décalage en y pour la ligne correspondant aux données.

  • 01:20:00 Expliquer comment utiliser l'algorithme de régression pour prédire le score en pourcentage d'un ensemble de données de test. La vidéo montre également comment tracer les résultats et les comparer aux valeurs réelles.

  • 01:25:00 La régression logistique est une technique utilisée pour prédire la variable dépendante, y, compte tenu de la variable indépendante, x, de sorte que la variable dépendante est une variable catégorielle, c'est-à-dire que la sortie est une variable catégorielle. Le résultat de la régression logistique est toujours catégorique et la technique de base utilisée dans la régression logistique est très similaire à la régression linéaire.

  • 01:30:00 La régression logistique est utilisée pour prédire la probabilité qu'un résultat soit 1 ou 0 en utilisant l'équation Pr(X = 1) = beta0 + beta1*X. La fonction logistique, ou courbe en S, assure que la plage entre zéro et un est respectée.

  • 01:35:00 L'algorithme d'arbre de décision est un algorithme d'apprentissage supervisé facile à comprendre. Il se compose d'un nœud racine (où se produit la première division), de nœuds internes (où les décisions sont prises) et de nœuds feuilles (où les résultats sont stockés). Les branches entre les nœuds sont représentées par des flèches et l'algorithme fonctionne en parcourant les données à travers l'arbre jusqu'à ce qu'un nœud terminal soit atteint.

  • 01:40:00 L'algorithme "ID3" est l'algorithme utilisé pour générer l'arbre de décision. Les étapes requises pour utiliser cet algorithme sont : (1) sélectionner le meilleur attribut, (2) affecter cet attribut en tant que variable de décision pour le nœud racine, (3) créer un enfant pour chaque valeur de la variable de décision, et (4) étiqueter la classification des nœuds feuilles. Si les données sont correctement classées, alors l'algorithme s'arrête ; sinon, l'algorithme continue d'itérer dans l'arbre, en modifiant la position des variables prédictives ou du nœud racine. Le meilleur attribut est celui qui sépare le plus efficacement les données en différentes classes. L'entropie et le gain d'information sont utilisés pour déterminer quelle variable sépare le mieux les données. La mesure la plus élevée de gain d'informations sera utilisée pour partitionner les données au niveau du nœud racine.

  • 01:45:00 Dans ce didacticiel vidéo sur l'intelligence artificielle pour les débutants, nous apprenons à calculer le gain d'informations pour un nœud parent, un nœud enfant et un type de route différent. L'entropie pour le côté droit est calculée et s'avère être nulle, ce qui indique l'absence d'incertitude. Lorsque la route est droite, la vitesse du véhicule est élevée, indiquant qu'il n'y a pas d'incertitude sur cette information. Lorsque la route est en pente, la vitesse du véhicule peut être lente ou rapide, indiquant que l'information n'est pas spécifique à un type de route particulier.

  • 01:50:00 Discussion sur la manière dont l'entropie est utilisée pour calculer le gain d'informations dans un arbre de décision. Calcul de l'entropie du nœud parent, de la moyenne pondérée des nœuds enfants et du gain d'informations pour chaque variable prédictive. L'entropie de la variable de type de route est nulle, ce qui signifie qu'il n'y a aucune incertitude dans l'ensemble de données. Le gain d'information pour la variable de type de route est de 0,325, ce qui signifie que l'ensemble de données contient peu d'informations sur la variable de type de route. Le gain d'information pour la variable d'obstacle est nul, ce qui signifie que la variable d'obstacle n'affecte pas l'arbre de décision. Le gain d'informations pour la variable de limite de débit est de un, ce qui signifie que la variable de limite de débit a le plus grand impact sur l'arbre de décision.

  • 01:55:00 Dans une forêt aléatoire, plusieurs arbres de décision sont construits, qui sont ensuite combinés pour créer une prévision plus précise et stable. Le bootstrapping est utilisé pour créer un petit ensemble de données qui est ensuite utilisé pour former des arbres de décision. La forêt aléatoire est plus précise que les arbres de décision pour prédire de nouvelles données car elle réduit le surajustement (mémorisation des données d'apprentissage).


Partie 3

  • 02:00:00 Cette vidéo explique comment créer un arbre de décision à l'aide d'une forêt aléatoire. Tout d'abord, deux ou trois variables sont sélectionnées au hasard pour être utilisées à chaque nœud de l'arbre de décision, puis le gain d'information et l'entropie pour chacune d'elles sont calculés. Ce processus est ensuite répété pour chaque nœud de branche suivant, créant un arbre de décision qui prédit la classe de sortie en fonction des variables prédictives sélectionnées. Enfin, nous revenons à la première étape et créons un nouvel arbre de décision basé sur un sous-ensemble des variables d'origine. Ce processus est répété jusqu'à ce que plusieurs arbres de décision aient été créés, chacun prédisant la classe de sortie en fonction de différentes variables prédictives. Enfin, la précision du modèle est évaluée à l'aide de l'ensemble de données out-of-bag.

  • 02:05:00 Dans cette vidéo, Michael Kennedy, instructeur d'Edureka, explique le fonctionnement de Random Forest. Tout d'abord, un ensemble de données bootstrap est créé pour garantir des prédictions précises. Un arbre de décision est ensuite créé à l'aide d'un ensemble aléatoire de prédicteurs. Ce processus est répété des centaines de fois jusqu'à ce que le modèle soit créé. La précision du modèle peut être calculée à l'aide d'un échantillonnage hors sac.

  • 02:10:00 L'algorithme K plus proche voisin est un algorithme d'apprentissage supervisé qui classe un nouveau point de données dans une classe cible ou une classe de sortie en fonction des caractéristiques de ses points de données voisins.

  • 02:15:00 L'algorithme KNN est un algorithme d'apprentissage supervisé qui utilise des données pour prédire la sortie de nouveaux points de données d'entrée. Il est basé sur la similarité des entités avec les points de données voisins et n'est pas paramétrique. L'algorithme KNN est paresseux et peut mémoriser l'ensemble d'apprentissage au lieu d'apprendre la fonction discriminante.

  • 02:20:00 L'instructeur d'Edureka, Alan C, explique les bases des algorithmes de classification KNN et SVM. Chaque algorithme a ses propres forces et SVM est un choix populaire pour la classification en raison de sa capacité à gérer des données non linéaires.
  • 02:25:00 Considérant l'utilisation de divers algorithmes de classification utilisant Python. Tout d'abord, les données sont lues et regroupées en types de fruits en fonction de leurs étiquettes. Ensuite, divers algorithmes sont mis en œuvre et testés sur les données. Enfin, les résultats sont présentés et discutés.

  • 02:30:00 Discuter de l'importance de la visualisation dans l'apprentissage automatique et expliquer l'utilisation des boîtes à moustaches, des histogrammes et des échelles. Discuter également de l'importance de diviser les données en ensembles d'apprentissage et de test.

  • 02:35:00 Cette vidéo couvre l'utilisation de la régression logistique, des arbres de décision et des machines à vecteurs de support dans un problème de classification. Le classificateur de régression logistique a donné un bon résultat sur l'ensemble de données d'apprentissage, mais était moins précis sur l'ensemble de données de test. Le classificateur d'arbre de décision était plus précis sur l'ensemble de données d'apprentissage, mais moins performant sur l'ensemble de données de test. La machine à vecteurs de support a donné de bons résultats sur les ensembles de données d'entraînement et de test.

  • 02:40:00 L'algorithme de clustering K-means est un algorithme d'apprentissage automatique non supervisé utilisé pour regrouper des éléments ou des points de données similaires en clusters. Il est utilisé pour le marketing ciblé, comme la promotion d'un produit spécifique auprès d'un public spécifique.

  • 02:45:00 La méthode du coude est une méthode simple utilisée pour trouver la valeur optimale de k pour un problème particulier. La méthode du coude commence par calculer la somme des erreurs au carré pour différentes valeurs de k, puis les visualise. Lorsque k augmente, l'erreur diminue, indiquant que plus de clusters entraînent moins de distorsion. La valeur optimale de k est au point sur le graphique où la diminution de l'erreur ralentit, formant une forme de "coude".

  • 02:50:00 La méthode du coude est un moyen simple de choisir la valeur K optimale pour l'algorithme K-means. Cette méthode commence par calculer la somme des erreurs au carré pour différentes valeurs de K et les tracer sur un graphique. À mesure que K augmente, l'erreur diminue, indiquant que plus de clusters entraînent moins de distorsion. La valeur K optimale pour K-means est au point où la distorsion diminue considérablement. Cette méthode peut être facilement mise en œuvre à l'aide de fonctions de bibliothèque standard. Dans cette vidéo, nous utilisons un exemple d'image de l'ensemble de données scikit-learn pour démontrer la méthode du coude.

  • 02:55:00 Cette vidéo explique comment fonctionne l'algorithme de clustering K-means et comment il peut être utilisé pour compresser de grands ensembles de données en un petit nombre de valeurs significatives. Il considère également que l'apprentissage par renforcement est un type différent d'apprentissage automatique qui aide les agents à apprendre comment atteindre leurs objectifs dans un environnement inconnu.


Partie 4

  • 03:00:00 Un agent d'apprentissage par renforcement dans un jeu vidéo, tel que Counter Strike, essaie de maximiser sa récompense en prenant la meilleure action en fonction de son état et de son environnement actuels. Par exemple, si un agent s'approche d'un tigre, il peut réduire sa récompense attendue pour tenir compte de la possibilité d'être tué. Ces concepts, tels que l'action, l'état, la récompense et le gamma, seront abordés plus en détail dans les diapositives suivantes.

  • 03:05:00 Dans cette vidéo, l'instructeur d'Edureka Adriano Ferreira discute des concepts d'exploration et d'exploitation, d'une approche mathématique pour résoudre la prise de décision de Markov et du problème du plus court chemin. Il continue ensuite en montrant un exemple de comment choisir une stratégie pour résoudre un problème en utilisant la stratégie gloutonne et un exemple de comment choisir une stratégie en utilisant la stratégie d'exploration.

  • 03:10:00 L'instructeur d'Edureka explique les bases de l'apprentissage par renforcement, y compris les trois méthodes principales : basée sur les politiques, basée sur les valeurs et basée sur l'action. Il démontre ensuite l'algorithme d'apprentissage Q, qui est un important algorithme d'apprentissage par renforcement. L'objectif du Q-learning est de trouver l'état avec la plus grande récompense, et la terminologie utilisée dans le Q-learning inclut l'état et l'action.

  • 03:15:00 Expliquer les bases de l'intelligence artificielle, y compris son fonctionnement et comment créer un agent capable d'apprendre de l'expérience. La vidéo explique comment la matrice de récompense et la matrice Q uniforme sont utilisées pour déterminer l'état actuel et les récompenses futures de l'agent. Gamma est utilisé pour contrôler l'exploration et l'utilisation des agents.

  • 03:20:00 La vidéo raconte les concepts de base de l'intelligence artificielle, y compris comment la matrice Q d'un agent stocke sa mémoire et comment la mettre à jour. Il passe ensuite à la façon de faire la même chose en Python en utilisant les bibliothèques NumPy et R.

  • 03:25:00 La vidéo montre comment créer un système d'intelligence artificielle (IA) en enseignant aux débutants comment utiliser le code pour créer une matrice de récompense et une matrice Q, et définir le paramètre gamma. La vidéo montre ensuite comment former le système d'IA en l'exécutant pendant 10 000 itérations et comment tester le système en choisissant un état aléatoire et en essayant d'atteindre l'état cible, qui est la salle numéro cinq.

  • 03:30:00 L'apprentissage automatique est un domaine d'étude qui aide les ordinateurs à apprendre à partir des données. Cependant, il est incapable de gérer des données de grande dimension. Une autre limite de l'apprentissage automatique est ses besoins croissants en puissance de calcul à mesure que le nombre de mesures augmente.

  • 03:35:00 L'intelligence artificielle est limitée dans sa capacité à être utilisée pour la reconnaissance d'images car les images contiennent de nombreux pixels et contiennent de nombreuses données arrogantes. L'extraction de caractéristiques est une partie importante du flux de travail d'apprentissage automatique, car l'efficacité d'un algorithme dépend de la profondeur avec laquelle le programmeur a analysé les données. L'apprentissage en profondeur imite le fonctionnement de notre cerveau et peut apprendre par lui-même à se concentrer sur les bonnes fonctionnalités, nécessitant très peu de conseils de la part du programmeur.

  • 03:40:00 L'apprentissage en profondeur est un ensemble de techniques d'apprentissage automatique qui vous permettent d'apprendre efficacement les hiérarchies de fonctionnalités dans les données. L'apprentissage en profondeur consiste en un réseau neuronal de neurones artificiels qui fonctionnent exactement comme notre cerveau. Le nombre de couches et le nombre de perceptrons dans chaque couche dépendent entièrement de la tâche ou de l'application.

  • 03:45:00 Expliquer comment le poids est utilisé dans le calcul de la fonction d'activation. Cette fonction d'activation détermine ensuite la quantité d'une entrée particulière (X un) utilisée pour créer une sortie (un).

  • 03:50:00 Un perceptron multicouche a la même structure qu'un perceptron monocouche, mais avec une ou plusieurs couches cachées. Les poids sont initialement attribués au hasard et il est nécessaire que les poids soient corrects pour minimiser l'erreur. La rétropropagation est un moyen de mettre à jour les pondérations pour réduire les erreurs.

  • 03:55:00 Emmanuel, instructeur d'Edureka, explique au public comment calculer la sortie d'un modèle à l'aide de la rétropropagation. Tout d'abord, ils calculent une erreur qui montre où le modèle est inexact. Ils utilisent ensuite la rétropropagation des erreurs pour mettre à jour les poids de manière à minimiser l'erreur. Si l'erreur reste élevée, ils arrêtent de mettre à jour les poids et trouvent le minimum de perte globale, puis s'arrêtent.


Partie 5

  • 04:00:00 La rétropropagation est une technique mathématique utilisée pour ajuster les pondérations du réseau afin de réduire l'erreur dans la couche de sortie. La descente de gradient est utilisée pour optimiser les performances de propagation vers l'avant du réseau. Les réseaux de neurones récurrents sont un type de réseaux de neurones artificiels qui peuvent être utilisés pour reconnaître des modèles dans une séquence de données.

  • 04:05:00 Explique comment fonctionnent les réseaux de neurones profonds et comment ils peuvent être utilisés pour prédire les cours des actions. Il couvre les bases des réseaux de neurones directs, des perceptrons multicouches et des réseaux de neurones récurrents.

  • 04:10:00 Décrit les étapes requises pour former un réseau de neurones, y compris la préparation des données, le partitionnement et la mise à l'échelle. L'utilisation d'espaces réservés et d'initialiseurs est également abordée.

  • 04:15:00 Les paramètres d'architecture du modèle pour un système d'intelligence artificielle sont discutés, y compris le nombre de neurones dans chaque couche cachée, la dimension de biais et la fonction de coût. Il explique ensuite comment la fonction d'activation transforme les couches cachées et comment la sortie est transposée et chiffrée.

  • 04:20:00 L'instructeur d'Edureka, Kirill Eremenko, explique les bases de l'apprentissage en profondeur, y compris le rôle des réseaux de neurones, des optimiseurs et des initialiseurs. Il explique également comment fonctionne la formation par mini-lots et comment les époques sont utilisées pour former un réseau de neurones.

  • 04:25:00 Démonstration de l'apprentissage en profondeur en comparant les valeurs prédites du modèle avec les cibles réelles observées, qui sont stockées dans y. TensorFlow est ensuite utilisé pour mettre à jour les facteurs de pondération et de biais. Le modèle est ensuite formé sur les données de test et sa prédiction est comparée aux valeurs réelles. Après 10 époques, la précision du modèle s'avère très proche de la valeur réelle.

  • 04:30:00 L'exploration de texte ou l'analyse de texte est le processus d'extraction d'informations significatives à partir d'un texte en langage naturel. L'exploration de texte est un vaste domaine qui utilise la PNL pour effectuer l'exploration de texte et l'analyse de données textuelles. La PNL fait partie de l'exploration de texte qui aide les machines à comprendre les données comme des zéros et des uns. Le traitement du langage naturel est ce que les ordinateurs et les smartphones utilisent pour comprendre notre langue, à la fois parlée et écrite. Des exemples d'applications d'exploration de texte et de traitement du langage naturel incluent la détection de spam, la saisie prédictive et l'analyse des sentiments.

  • 04:35:00 Il traite de l'importance de la tokenisation, de la radicalisation et de la lemmatisation dans le traitement du langage naturel. Il explique que la tokenisation divise une phrase en mots, la radicalisation réduit les mots à leur forme de base et la lemmatisation relie les mots à leur lemme. Les mots vides sont des mots courants qui sont supprimés pour se concentrer sur les mots importants.

  • 04:40:00 Ce didacticiel Edureka explique comment effectuer le traitement du langage naturel à l'aide de NaiveBayesClassifier, qui est une bibliothèque contenant toutes les fonctions nécessaires pour accomplir cette tâche. Ils démontrent ensuite le processus en effectuant une analyse des sentiments sur l'ensemble de données de critiques de films. Le classificateur a pu identifier les avis positifs et les avis négatifs.

  • 04:45:00 Le programme Edureka Machine Learning Engineer comprend neuf modules avec plus de 200 heures d'apprentissage interactif couvrant la programmation Python, l'apprentissage automatique, le traitement du langage naturel (NLP), la modélisation graphique, l'apprentissage en profondeur et Spark. Le programme comprend des algorithmes supervisés et non supervisés, des statistiques et des séries chronologiques, l'apprentissage en profondeur et Spark. Le salaire annuel moyen d'un ingénieur en apprentissage automatique est supérieur à 134 000 $.

  • 04:50:00 Une introduction complète à l'intelligence artificielle est présentée, y compris les bases de la programmation, du traitement des données et de l'apprentissage automatique. Après avoir terminé ce module d'introduction, l'étudiant pourra suivre des cours supplémentaires visant à approfondir sa compréhension de ces sujets.
Artificial Intelligence Full Course | Artificial Intelligence Tutorial for Beginners | Edureka
Artificial Intelligence Full Course | Artificial Intelligence Tutorial for Beginners | Edureka
  • 2019.06.02
  • www.youtube.com
🔥 Machine Learning Engineer Masters Program (Use Code "𝐘𝐎𝐔𝐓𝐔𝐁𝐄𝟐𝟎"): https://www.edureka.co/masters-program/machine-learning-engineer-training This ...
 

Le cours MIT Introduction to Deep Learning est conçu pour un apprentissage rapide et intensif des principes fondamentaux de l'apprentissage en profondeur

Le cours MIT Introduction to Deep Learning est conçu pour fournir une formation rapide et intensive aux principes fondamentaux de l'apprentissage en profondeur, avec des applications en vision par ordinateur, en traitement du langage naturel, en biologie et dans d'autres domaines. Dans le cadre du cours, les étudiants acquerront des connaissances de base sur les algorithmes d'apprentissage en profondeur et une expérience pratique dans la construction de réseaux de neurones dans TensorFlow. Le programme se termine par un concours de proposition de projet, qui est évalué par le personnel et les parrains de l'industrie. On suppose que les étudiants sont familiarisés avec le calcul différentiel (c'est-à-dire capable de prendre des dérivées) et l'algèbre linéaire (c'est-à-dire capable de multiplier des matrices), mais tout le reste sera expliqué au fur et à mesure que le cours progresse. Une expérience de travail avec Python est utile mais pas obligatoire.



Cours 1. Introduction du MIT à l'apprentissage en profondeur | 6.S191

Dans cette vidéo, MIT Alexander Amini présente les bases de l'apprentissage en profondeur avec une discussion sur le perceptron. Il poursuit en montrant comment créer un réseau de neurones à partir de zéro, en simplifiant le processus en utilisant une bibliothèque appelée TensorFlow. Il termine la vidéo en expliquant comment créer un réseau de neurones à une seule couche et à deux couches avec une couche de sortie.

  • 00:00:00 Dans ce cours d'introduction d'une semaine à l'apprentissage en profondeur, les étudiants apprennent les bases du domaine et acquièrent une expérience pratique en utilisant des laboratoires de logiciels d'apprentissage en profondeur. Le cours est faux, mais la vidéo et l'audio sont en fait générés à l'aide de techniques d'apprentissage en profondeur. Cela permet à l'instructeur de montrer des exemples réalistes et de haute qualité d'apprentissage en profondeur en action.

  • 00:05:00 Cette vidéo présente les bases de l'apprentissage en profondeur, y compris la terminologie et les concepts impliqués. La classe est divisée entre des conférences techniques et des laboratoires de logiciels, le projet final se concentrant sur une idée créative et innovante. La vidéo se termine par un bref aperçu des instructeurs du cours et comment les contacter si vous avez des questions.

  • 00:10:00 L'objectif principal de l'apprentissage en profondeur est d'apprendre des caractéristiques à partir de données, ce qui se fait en entraînant des réseaux de neurones profonds à l'aide de couches hiérarchiques de neurones. Cela permet une parallélisation massive, ainsi que la capacité de détecter des caractéristiques hiérarchiques.

  • 00:15:00 Dans cette conférence, vous découvrirez les concepts techniques derrière l'apprentissage en profondeur, y compris la fonction d'activation sigmoïde et la fonction relu. Vous verrez également comment les fonctions d'activation sont utilisées dans les réseaux de neurones modernes pour introduire la non-linéarité. Enfin, on vous montrera comment utiliser l'équation de perceptron pour calculer la combinaison pondérée des points de données d'entrée.

  • 00:20:00 Alexander Amini présente les bases de l'apprentissage en profondeur avec une discussion sur le perceptron. Il poursuit en montrant comment créer un réseau de neurones à partir de zéro, en simplifiant le processus en utilisant une bibliothèque appelée TensorFlow. Il termine la vidéo en expliquant comment créer un réseau de neurones à une seule couche et à deux couches avec une couche de sortie.

  • 00:25:00 Dans cette section, il décrit comment fonctionne l'apprentissage en profondeur et comment construire un réseau de neurones pour prédire si un élève réussira ou échouera une classe. Le réseau n'est pas formé correctement et, par conséquent, la probabilité de réussite prévue est incorrecte.

  • 00:30:00 Dans cette vidéo, Alexander Amini discute des bases de l'apprentissage en profondeur et de l'optimisation d'un réseau de neurones à l'aide de la descente de gradient. Il explique que le deep learning consiste à former un réseau pour améliorer ses prédictions basées sur des données. L'objectif est de trouver des poids (w) qui minimisent l'erreur du réseau en moyenne, sur tous les ensembles de données.

  • 00:35:00 Dans l'apprentissage en profondeur, la rétropropagation est un processus de propagation des gradients jusqu'à l'entrée d'un réseau de neurones afin de déterminer comment chaque poids doit changer pour diminuer sa perte. En pratique, utiliser des taux d'apprentissage ni trop petits ni trop grands évite les minima locaux et converge toujours vers un optimum global.

  • 00:40:00 Alexander Amini explique comment former des réseaux de neurones profonds à l'aide de la descente de gradient, des taux d'apprentissage adaptatifs et du traitement par lots. Il discute également des dangers du surajustement et de la manière de l'atténuer.

  • 00:45:00 Dans cette conférence, les principaux points abordés étaient les éléments fondamentaux des réseaux de neurones, comment compléter le puzzle et les former, et comment utiliser une fonction de perte. Dans la prochaine conférence, Ava parlera de la modélisation de séquences profondes à l'aide de rnn et d'un nouveau type de modèle passionnant appelé le transformateur.
MIT Introduction to Deep Learning (2022) | 6.S191
MIT Introduction to Deep Learning (2022) | 6.S191
  • 2022.03.11
  • www.youtube.com
MIT Introduction to Deep Learning 6.S191: Lecture 1Foundations of Deep LearningLecturer: Alexander AminiFor all lectures, slides, and lab materials: http://i...
 

MIT 6.S191 (2022) : Réseaux de neurones récurrents et transformateurs



Cours 2. MIT 6.S191 (2022) : Réseaux de neurones récurrents et transformateurs

Cette section de la conférence du MIT fournit une introduction à la modélisation de séquences, expliquant l'importance de la manipulation de données séquentielles avec des exemples tels que la prédiction de la trajectoire d'une balle. Les réseaux de neurones récurrents (RNN) sont présentés comme un moyen de gérer la modélisation de séquences, la conférence expliquant comment les RNN utilisent une mémoire interne (ou un état) pour capturer l'historique antérieur qui informe les prévisions présentes et futures. La conférence explique également comment les RNN peuvent être déroulés dans le temps pour rendre les matrices de poids plus explicites et introduit des problèmes de conception et des critères pour la modélisation des séquences. La vidéo aborde également les problèmes courants liés aux RNN, tels que le problème du gradient de fuite, et présente le concept d'attention en tant que solution potentielle permettant au modèle de s'occuper des parties les plus importantes de l'entrée sans récurrence. La conférence se termine par une discussion sur la façon dont les mécanismes d'auto-attention peuvent être appliqués à des domaines au-delà du traitement du langage, comme la biologie et la vision par ordinateur.

  • 00:00:00 Dans cette section de la vidéo, la conférence présente le concept de modélisation de séquence et son importance dans la gestion des tâches impliquant des données séquentielles. Le conférencier commence par un exemple simple de prédiction de la trajectoire d'une balle, où l'ajout des données de position précédentes de la balle améliore considérablement la prédiction. Les données séquentielles nous entourent sous diverses formes telles que l'audio, le texte, les signaux ECG et les cours des actions. Le conférencier explique ensuite la différence entre les modèles d'anticipation et les modèles de séquence et fournit des exemples d'applications réelles où la modélisation de séquence est requise. Pour construire une compréhension fondamentale de la modélisation de séquences, le conférencier revisite le concept de perceptron et montre étape par étape comment le modifier pour gérer des données séquentielles.

  • 00:05:00 Dans cette section, la vidéo traite du concept de réseaux de neurones récurrents (RNN) et de la façon dont ils traitent les données séquentielles. La sortie d'un RNN à un pas de temps particulier dépend non seulement de l'entrée à ce pas de temps, mais également de la mémoire du pas de temps précédent. Cette mémoire capture l'historique de ce qui s'est passé précédemment dans la séquence, et elle est transmise à partir de chaque pas de temps précédent. La vidéo explique comment les RNN utilisent une mémoire interne (ou un état) pour capturer cette notion de mémoire et comment la sortie à un pas de temps particulier est fonction à la fois de l'entrée actuelle et de la mémoire passée. La vidéo décrit également comment ces types de neurones peuvent être définis et représentés comme une relation de récurrence.

  • 00:10:00 Dans cette section de la conférence, l'instructeur explique le concept de relation de récurrence dans les réseaux de neurones et comment il forme l'idée clé derrière les réseaux de neurones récurrents (RNN). Le RNN maintient un état interne, h de t, qui est mis à jour à chaque pas de temps en appliquant une relation de récurrence qui fonctionne comme une combinaison de l'entrée actuelle et de l'état antérieur. Les paramètres de cette fonction sont représentés par un ensemble de poids appris pendant l'entraînement. Le RNN prédit la sortie après avoir traité tous les mots et points temporels de la séquence. Le vecteur de sortie, y de t, est généré en passant l'état interne à travers une matrice de pondération et en appliquant une non-linéarité. La conférence fournit une représentation visuelle de la façon dont la boucle RNN se réinjecte sur elle-même et peut être déroulée dans le temps.

  • 00:15:00 Dans cette section, l'orateur explique comment un RNN peut être déroulé dans le temps pour rendre plus explicites les matrices de poids qui calculent appliquées à l'entrée. Les matrices de pondération sont réutilisées sur tous les pas de temps individuels. L'orateur inclut également un exemple de la façon d'implémenter un RNN à partir de zéro et définit la fonction d'appel, qui définit le passage vers l'avant à travers le modèle RNN. L'orateur souligne l'utilité des RNN dans une variété d'applications et motive un ensemble de critères de conception concrets à garder à l'esprit.

  • 00:20:00 Dans cette section, l'orateur discute des problèmes de conception et des critères de modélisation des séquences, qui incluent la gestion des séquences de longueur variable, le suivi des dépendances à long terme, la préservation et le raisonnement sur l'ordre et le partage des paramètres entre les séquences. L'orateur explique l'importance des intégrations pour représenter le langage sous forme de vecteurs numériques pouvant être introduits dans un réseau de neurones, un exemple étant une intégration à chaud où les vecteurs binaires indiquent l'identité d'un mot. Le conférencier suggère également d'utiliser des modèles d'apprentissage automatique, tels que les réseaux de neurones, pour apprendre les incorporations. Dans l'ensemble, ces concepts servent de base aux réseaux de neurones récurrents et à l'architecture émergente des transformateurs, qui seront abordés plus tard dans la conférence.

  • 00:25:00 Dans cette section, le concept d'incorporations apprises est introduit, qui est le mappage de la signification des mots à un codage plus informatif qui permet à des mots similaires avec des significations similaires d'avoir des intégrations similaires. Les réseaux de neurones récurrents (RNN) sont capables de gérer des longueurs de séquence variables, de capturer et de modéliser des dépendances à long terme et de conserver un sens de l'ordre, ce qui les rend utiles pour les tâches de modélisation de séquence telles que la prédiction du mot suivant dans une phrase. L'algorithme de rétropropagation dans le temps est introduit comme moyen de formation des RNN, ce qui implique la rétropropagation des erreurs à chaque pas de temps et la réalisation de multiplications matricielles, ce qui peut entraîner des problèmes de calcul.

  • 00:30:00 Dans cette section, le problème des gradients explosifs et des gradients de disparition dans les modèles neuronaux récurrents est discuté, et trois solutions pour atténuer le problème des gradients de disparition sont présentées. Le problème du gradient de fuite peut amener un modèle neuronal à donner la priorité aux dépendances à court terme par rapport aux dépendances à long terme, ce qui conduit à des prédictions inexactes. Les trois solutions discutées consistent à choisir une fonction d'activation appropriée, à initialiser intelligemment les poids et à utiliser une unité récurrente plus complexe telle qu'un réseau de mémoire longue à court terme (LSTM) qui peut contrôler sélectivement le flux d'informations à travers ses différentes portes. Le réseau LSTM utilise plusieurs portes qui interagissent pour conserver les informations pertinentes et éliminer les informations non pertinentes.

  • 00:35:00 Dans cette section de la vidéo, le conférencier discute des principes fondamentaux des réseaux de neurones récurrents (RNN) et de leur architecture, y compris l'importance des structures fermées et de l'atténuation du problème du gradient de fuite. Ils fournissent ensuite des exemples concrets de la manière dont les RNN peuvent être utilisés, notamment en prédisant la prochaine note de musique dans une séquence pour générer une nouvelle musique et une classification des sentiments des tweets. Le conférencier souligne également les limites des RNN, telles que le goulot d'étranglement de l'encodage, l'inefficacité et la perte potentielle d'informations lors de l'encodage.

  • 00:40:00 Dans cette section, les limites des réseaux de neurones récurrents (RNN) dans la gestion de longues séquences sont discutées, en particulier le goulot d'étranglement causé par la relation de récurrence. Le concept d'attention est présenté comme une solution potentielle à ce problème, permettant au modèle d'identifier et de s'occuper des parties les plus importantes de l'entrée. L'attention est expliquée comme un mécanisme émergent et puissant pour les réseaux de neurones modernes, en particulier dans le contexte de l'architecture des transformateurs. L'intuition derrière l'auto-attention est développée en considérant la capacité des humains à identifier des parties importantes d'une image et à extraire des caractéristiques de ces régions avec une grande attention.

  • 00:45:00 Dans cette section, le concept de recherche et son lien avec l'auto-attention dans les réseaux de neurones tels que les transformateurs sont expliqués. L'idée est de s'occuper des caractéristiques les plus importantes de la séquence d'entrée sans récurrence, en utilisant des incorporations qui ont une certaine notion de position. Le processus implique l'extraction de la requête, de la clé et des caractéristiques de valeur, qui sont trois transformations distinctes de la même intégration positionnelle. Le mécanisme d'attention calcule les chevauchements entre la requête et la clé, et la valeur extraite est basée sur ce calcul, ce qui permet au réseau d'identifier et de s'occuper des parties les plus pertinentes de l'entrée.

  • 00:50:00 Dans cette section de la vidéo, l'instructeur explique comment fonctionne le mécanisme de l'attention dans les réseaux de neurones. Le mécanisme d'attention calcule la pondération de l'attention à accorder aux différentes zones de l'entrée. Ceci peut être réalisé en calculant la similarité entre les vecteurs de requête et de clé à l'aide d'un produit scalaire et en le mettant à l'échelle. La fonction softmax est ensuite utilisée pour écraser chaque valeur afin qu'elle soit comprise entre 0 et 1. La matrice résultante est la pondération de l'attention, qui reflète la relation entre les composants d'entrée. Cette matrice de pondération est utilisée pour extraire des caractéristiques avec une attention élevée, et plusieurs têtes d'attention individuelles peuvent être utilisées pour s'occuper de différents aspects de l'entrée. Ce mécanisme d'attention est un outil puissant, comme en témoigne son utilisation dans les architectures de transformateurs qui ont une variété d'applications, notamment dans le traitement du langage.

  • 00:55:00 Dans cette section, l'orateur explique comment les mécanismes d'auto-attention peuvent être appliqués à des domaines au-delà du traitement du langage, comme en biologie avec l'architecture de réseau neuronal Alpha Fold 2 pour la prédiction de la structure des protéines, et en vision par ordinateur avec Vision Transformers . L'orateur résume également la discussion précédente sur les tâches de modélisation de séquence et sur la puissance des RNN pour le traitement des données séquentielles, et sur la manière dont les mécanismes d'auto-attention peuvent modéliser efficacement les séquences sans avoir besoin de récurrence. L'heure restante de la conférence est consacrée aux sessions de laboratoire logiciel où les étudiants peuvent télécharger les laboratoires à partir du site Web du cours et exécuter les blocs de code pour terminer les laboratoires, avec des heures de bureau virtuelles et en personne disponibles pour obtenir de l'aide.
MIT 6.S191 (2022): Recurrent Neural Networks and Transformers
MIT 6.S191 (2022): Recurrent Neural Networks and Transformers
  • 2022.03.18
  • www.youtube.com
MIT Introduction to Deep Learning 6.S191: Lecture 2Recurrent Neural NetworksLecturer: Ava SoleimanyJanuary 2022For all lectures, slides, and lab materials: h...
 

MIT 6.S191 : Réseaux de neurones convolutifs



Cours 3. MIT 6.S191 (2022) : Réseaux de neurones convolutifs

Cette vidéo présente les réseaux de neurones convolutifs, un type d'algorithme d'apprentissage automatique utilisé pour détecter des caractéristiques dans les images. La vidéo explique qu'en utilisant un plus petit nombre de fonctionnalités, le réseau peut classer plus précisément les images. La vidéo explique également comment un cnn peut être utilisé pour détecter et localiser un certain nombre d'objets dans une image.

  • 00:00:00 Dans cette vidéo, Alexander Amini explique comment l'apprentissage en profondeur a révolutionné la vision et les applications par ordinateur, et comment un exemple est la reconnaissance faciale des données.

  • 00:05:00 Dans cette section, il explique comment la vision par ordinateur est utilisée pour reconnaître et classer les images. Il explique également comment détecter les caractéristiques dans les images et comment classer les images à l'aide de caractéristiques.

  • 00:10:00 Cette partie explique comment les réseaux de neurones convolutifs peuvent être utilisés pour détecter des caractéristiques dans des images. La vidéo explique qu'en aplatissant une image, la structure spatiale est perdue, ce qui rend plus difficile pour le réseau d'apprendre les caractéristiques. La vidéo explique également qu'en utilisant des patchs de poids, le réseau peut préserver la structure spatiale et faciliter l'apprentissage des caractéristiques.

  • 00:15:00 Les réseaux de neurones convolutifs sont un type d'algorithme d'apprentissage automatique utilisé pour détecter des caractéristiques dans les images. L'algorithme fonctionne en faisant glisser un petit patch sur une image et en détectant les caractéristiques présentes dans le patch. Les pondérations du patch sont ensuite déterminées en entraînant le réseau sur un ensemble d'exemples.

  • 00:20:00 Les réseaux de neurones convolutifs sont un type d'algorithme d'apprentissage automatique qui peut être utilisé pour extraire des caractéristiques d'images. Le but de la convolution est de prendre en entrée deux images et de sortir une troisième image qui préserve la relation spatiale entre les pixels.

  • 00:25:00 Dans cette vidéo, le présentateur décrit comment les réseaux de neurones convolutifs sont implémentés dans les réseaux de neurones et comment ils sont structurés. Il explique également comment fonctionnent les trois principales opérations d'un réseau neuronal convolutif - la convolution, la non-linéarité et la mise en commun.

  • 00:30:00 Cette vidéo présente les réseaux de neurones convolutifs, un nœud du pipeline d'apprentissage automatique qui est connecté à d'autres nœuds à la ième sortie. Les couches convolutives sont définies par des paramètres qui définissent l'agencement spatial de la sortie d'une couche. L'objectif d'une couche convolutive est d'apprendre les caractéristiques hiérarchiques d'une couche convolutive à la suivante. Cela se fait en empilant trois étapes - extraction de caractéristiques, réduction d'échelle spatiale et mise en commun maximale - en tandem. Enfin, la vidéo montre le code d'un premier réseau neuronal convolutionnel de bout en bout.

  • 00:35:00 Alexander Amini explique comment les réseaux de neurones convolutifs peuvent être utilisés pour des tâches de classification d'images. Il explique qu'en utilisant un plus grand nombre de fonctionnalités, l'image réduite d'une voiture peut être classée plus précisément comme un taxi. Il explique également comment un cnn peut être utilisé pour détecter et localiser un certain nombre d'objets dans une image, même lorsqu'ils sont situés à différents endroits de l'image.

  • 00:40:00 Le cours MIT 6.S191: Convolutional Neural Networks traite d'une heuristique pour la détection d'objets qui est beaucoup plus lente et plus fragile que les autres méthodes. La méthode rcnn plus rapide, qui tente d'apprendre les régions au lieu de s'appuyer sur une simple heuristique, est proposée comme solution à ces problèmes.

  • 00:45:00 Dans cette vidéo, Alexander Amini discute des réseaux de neurones convolutionnels, de leurs origines et de leurs applications. Il couvre également l'impact de cnns sur un large éventail de tâches et de domaines.
MIT 6.S191 (2022): Convolutional Neural Networks
MIT 6.S191 (2022): Convolutional Neural Networks
  • 2022.03.25
  • www.youtube.com
MIT Introduction to Deep Learning 6.S191: Lecture 3Convolutional Neural Networks for Computer VisionLecturer: Alexander AminiJanuary 2022For all lectures, sl...