Apprentissage Automatique et Réseaux Neuronaux - page 62

 

Arbres de décision - Une introduction conviviale



Arbres de décision - Une introduction conviviale

Bienvenue à l'Académie Serrano ! Dans cette vidéo, nous discuterons des arbres de décision, qui sont des modèles d'apprentissage automatique très populaires. Les arbres de décision sont efficaces dans des scénarios réels et sont intuitifs à comprendre. Ils imitent la façon dont les humains prennent des décisions, ce qui les rend faciles à interpréter.

Pour illustrer le fonctionnement des arbres de décision, prenons un exemple de système de recommandation. Imaginez que vous deviez décider de porter une veste le matin. Vous pouvez commencer par vérifier s'il pleut dehors. S'il pleut, porter une veste est un choix clair. Mais s'il ne pleut pas, vous pouvez également tenir compte de la température. S'il fait froid, vous porterez une veste, et s'il fait chaud, vous ne le ferez pas. Ce processus de décision peut être représenté sous la forme d'un arbre de décision, où chaque décision devient un nœud et les options disponibles deviennent des arêtes menant à de nouveaux nœuds ou à des décisions finales.

Il peut y avoir plusieurs arbres de décision pour un problème donné. Par exemple, un autre arbre de décision peut impliquer de vérifier si c'est lundi, la couleur de votre voiture et si vous avez pris un café ce jour-là. Cependant, tous les arbres de décision n'ont pas la même efficacité. Le premier arbre de décision dont nous avons discuté semble bien fonctionner, tandis que le second inclut des nœuds non pertinents. Trouver le meilleur arbre de décision est l'objectif de l'apprentissage automatique. L'apprentissage automatique nous aide à découvrir l'arbre de décision qui correspond le mieux aux données. Explorons un exemple pour comprendre ce processus.

Considérez un petit ensemble de données d'un système de recommandation d'applications basé sur les données démographiques des utilisateurs. L'ensemble de données comprend des colonnes pour le sexe, l'âge et l'application téléchargée. Nous voulons formuler une règle pour recommander des applications aux futurs utilisateurs en fonction de cet ensemble de données. En analysant les données, nous pouvons observer des tendances. Par exemple, tous les jeunes de l'ensemble de données ont téléchargé TikTok, il est donc raisonnable de recommander TikTok à une femme de 16 ans. De même, si nous constatons que les femmes dans la trentaine ont principalement téléchargé YouTube, nous pouvons recommander YouTube à une femme de 30 ans. En suivant cette approche, nous pouvons faire des recommandations pour différents utilisateurs en fonction de leurs informations démographiques.

L'intuition derrière les arbres de décision s'aligne sur les principes mathématiques utilisés dans l'apprentissage automatique. Les arbres de décision peuvent gérer à la fois des données catégorielles et numériques. Pour les données numériques, nous déterminons le meilleur point de partage en évaluant différentes possibilités. Chaque point de division crée une souche de décision, et nous comparons la précision de ces souches pour trouver la meilleure. Une fois que nous avons trouvé la meilleure répartition, nous pouvons continuer à construire l'arbre de décision en itérant le processus sur les sous-ensembles de données résultants. Ce processus itératif nous permet de construire des arbres de décision plus grands.

Les arbres de décision sont de puissants modèles d'apprentissage automatique qui fournissent des prédictions précises et sont faciles à interpréter. Ils imitent les processus décisionnels humains et peuvent être entraînés sur différents types de données. En trouvant le meilleur arbre de décision pour un problème spécifique, nous pouvons faire des recommandations ou des prédictions efficaces basées sur des données données.

Decision trees - A friendly introduction
Decision trees - A friendly introduction
  • 2022.09.29
  • www.youtube.com
A video about decision trees, and how to train them on a simple example.Accompanying blog post: https://medium.com/@luis.serrano/splitting-data-by-asking-que...
 

Une introduction conviviale au théorème de Bayes et aux modèles de Markov cachés



Une introduction conviviale au théorème de Bayes et aux modèles de Markov cachés

Bonjour et bienvenue dans une introduction au théorème de base et aux modèles de Markov cachés. Je suis Luis Serrano d'Udacity, où j'enseigne des cours d'apprentissage automatique et d'intelligence artificielle. Dans ce scénario, nous avons deux amis nommés Alice et Bob qui vivent loin l'un de l'autre et communiquent par téléphone. L'humeur de Bob change en fonction de la météo. S'il fait beau, Bob est heureux, et s'il pleut, Bob est grincheux. Alice peut déduire la météo de l'humeur de Bob.

Compliquons le scénario. Bob est surtout heureux quand il fait beau, mais il y a des exceptions. Il est surtout grincheux quand il pleut, mais il y a aussi des exceptions. Nous avons calculé les probabilités sur la base des données passées. Lorsqu'il fait beau, Bob est heureux avec une probabilité de 80 % et grincheux avec une probabilité de 20 %. Lorsqu'il pleut, Bob est grincheux avec une probabilité de 60 % et heureux avec une probabilité de 40 %.

Considérons maintenant une situation spécifique. Bob dit à Alice que cette semaine a été une montagne russe émotionnelle. Lundi, il était heureux, mardi, il était grincheux, mercredi, il était à nouveau heureux, jeudi, il était grincheux, et vendredi, il était heureux. Alice essaie de déduire le temps en fonction de l'humeur de Bob.

Pour déterminer la vraisemblance de cette séquence d'humeurs, nous utilisons un modèle de Markov caché. Il a des observations (l'humeur de Bob) et des états cachés (la météo). On calcule des probabilités de transition (la probabilité de passer d'un état à un autre) et des probabilités d'émission (la probabilité que des observations soient émises depuis les états cachés).

Dans cette vidéo, nous allons répondre à quatre questions. Tout d'abord, comment calcule-t-on ces probabilités ? Deuxièmement, quelle est la probabilité qu'une journée au hasard soit ensoleillée ou pluvieuse, quelle que soit l'humeur de Bob ? Troisièmement, si Bob est heureux aujourd'hui, quelle est la probabilité qu'il fasse beau ou qu'il pleuve ? Et quatrièmement, si Bob est heureux pendant trois jours consécutifs, quelle est la météo la plus probable ?

Nous pouvons calculer les probabilités en analysant les données passées. Nous comptons les occurrences de certains modèles météorologiques et les humeurs de Bob pour estimer les probabilités. Avec suffisamment de données, nous pouvons obtenir de bonnes estimations des probabilités réelles.

Pour déterminer la probabilité qu'un jour aléatoire soit ensoleillé ou pluvieux, indépendamment de l'humeur de Bob, nous pouvons soit compter les occurrences de jours ensoleillés et pluvieux dans les données passées, soit utiliser les probabilités de transition. Dans ce cas, nous constatons qu'il est probable qu'il y ait 2/3 de soleil et 1/3 de pluie.

Si Bob est heureux aujourd'hui, les probabilités d'ensoleillement et de pluie changent. Nous utilisons le théorème de Bayes pour mettre à jour les probabilités. Par exemple, si Bob est heureux et que nous sommes mercredi, nous considérons les probabilités a priori (2/3 ensoleillé et 1/3 pluvieux) et les probabilités d'émission (80 % ensoleillé et 20 % grincheux lorsqu'il fait beau, 40 % heureux et 60 % grincheux lorsqu'il est pluvieux). En utilisant le théorème de Bayes, nous calculons les probabilités a posteriori (8/10 ensoleillé et 2/10 pluvieux).

Ces probabilités nous permettent de déduire la météo en fonction de l'humeur de Bob. Si Bob est heureux, il y a plus de chances qu'il fasse beau. Si Bob est grincheux, il est plus probable qu'il pleuve. Les probabilités changent en fonction des nouvelles informations.

Nous utilisons des modèles de Markov cachés et le théorème de Bayes pour déduire le temps de l'humeur de Bob. En analysant les données passées, nous calculons les probabilités de transition et les probabilités d'émission. Cela nous aide à déterminer la probabilité de certains modèles météorologiques en fonction de l'humeur de Bob.

A friendly introduction to Bayes Theorem and Hidden Markov Models
A friendly introduction to Bayes Theorem and Hidden Markov Models
  • 2018.03.27
  • www.youtube.com
Announcement: New Book by Luis Serrano! Grokking Machine Learning. bit.ly/grokkingML40% discount code: serranoytA friendly introduction to Bayes Theorem and ...
 

Entropie de Shannon et gain d'information



Entropie de Shannon et gain d'information

Salut, je suis Louie Serrano, et je suis ici avec Shannon pour parler d'entropie et de gain d'information. Si vous êtes intéressé par une explication plus détaillée, j'ai écrit un article de blog sur ce sujet. Vous pouvez trouver le lien dans la section des commentaires.

Commençons par introduire le concept d'entropie, qui vient de la physique. Nous pouvons l'illustrer en utilisant les trois états de l'eau : solide (glace), liquide (eau) et gaz (vapeur d'eau). Chaque état a un niveau d'entropie différent, qui mesure la vitesse à laquelle les particules à l'intérieur d'un objet se déplacent. La glace a une faible entropie car ses particules se déplacent lentement, ce qui en fait une substance stable. L'eau a une entropie moyenne, car les particules se déplacent un peu plus vite. La vapeur d'eau a une entropie élevée car les particules à l'intérieur se déplacent très rapidement.

L'entropie n'est pas seulement un concept en physique mais apparaît également en mathématiques, en particulier dans la théorie des probabilités. Pour le démontrer, considérons un exemple avec trois seaux, chacun contenant des balles de couleurs différentes. Le seau 1 a quatre boules rouges, le seau 2 a trois boules rouges et une boule bleue, et le seau 3 a deux boules rouges et deux boules bleues. Sur la base de l'intuition, nous pouvons en déduire que le seau 1 a une entropie faible, que le seau 2 a une entropie moyenne et que le seau 3 a une entropie élevée.

Pour valider notre intuition, nous pouvons mesurer l'entropie en examinant dans quelle mesure nous pouvons réorganiser l'ensemble de boules dans chaque seau. Dans le premier set, avec quatre boules rouges, il y a un réarrangement limité possible puisque toutes les boules sont indiscernables en termes de couleur. Pour le deuxième set, nous pouvons réorganiser les balles de plusieurs manières. Enfin, pour le troisième set, nous avons encore plus d'arrangements possibles. Nous pouvons calculer le nombre d'arrangements en utilisant le coefficient binomial, qui fournit une mesure quantitative de l'entropie. Sur la base du degré de réarrangement possible, nous pouvons confirmer que le seau 1 a une entropie faible, que le seau 2 a une entropie moyenne et que le seau 3 a une entropie élevée.

Cependant, il existe un moyen plus précis de déterminer l'entropie en fonction des informations. Imaginons un jeu avec ces seaux. Nous commençons avec un arrangement particulier de boules et les tirons au hasard, en essayant de reproduire la séquence exacte de l'arrangement original. Si nous réussissons, nous gagnons une importante somme d'argent. Sinon, on ne gagne rien. Maintenant, la question se pose : avec quel seau est-il le meilleur pour jouer au jeu, et lequel est le pire ?

A la réflexion, on se rend compte que le Bucket 1 est le meilleur choix car toutes les boules sont rouges, ce qui facilite la reproduction de la séquence originale. Le seau 2 est le choix moyen car il contient un mélange de boules rouges et bleues, et le seau 3 est le pire choix car nous n'avons aucune idée de la couleur que nous allons dessiner. Nous pouvons calculer la probabilité de gagner dans chaque jeu en considérant la probabilité de tirer une balle spécifique du seau. Pour le seau 1, la probabilité de gagner est de 100 % puisque toutes les boules sont rouges. Pour le seau 2, la probabilité est plus faible en raison de la présence de boules bleues, et pour le seau 3, elle est la plus faible car il y a une chance égale de tirer des boules rouges ou bleues.

Maintenant, résumons les probabilités et leurs niveaux d'entropie correspondants dans un tableau. Nous pouvons observer que le seau 1 a une forte probabilité de gagner, ce qui entraîne une faible entropie. Le seau 2 a une probabilité modérée, indiquant une entropie moyenne. Enfin, le seau 3 a la plus faible probabilité de gagner, ce qui conduit à une entropie élevée.

Pour établir une formule d'entropie, nous pouvons utiliser le concept de logarithmes. Au lieu de traiter des produits, nous pouvons les convertir en sommes en utilisant des logarithmes. Le logarithme d'un produit est égal à la somme des logarithmes. En prenant le logarithme du produit des probabilités, on peut le transformer en une somme de probabilités individuelles. Cette transformation nous permet de calculer l'entropie comme le contenu d'information moyen ou l'incertitude associée à un événement.

La formule de l'entropie est donnée par :

Entropie = - (p1 * log(p1) + p2 * log(p2) + ... + pn * log(pn))

où p1, p2, ..., pn représentent les probabilités de différents résultats ou états. La fonction logarithme (généralement en base 2) est utilisée pour tenir compte de la nature exponentielle de l'information.

En appliquant cette formule à notre exemple, calculons l'entropie pour chaque seau. Dans le seau 1, où toutes les boules sont rouges, la probabilité de tirer une boule rouge est de 1 (100%). Ainsi, l'entropie pour le Bucket 1 est :

Entropie(Bucket 1) = - (1 * log2(1)) = 0

Puisque le logarithme de 1 est 0, l'entropie est 0, indiquant aucune incertitude ou gain d'information.

Pour le seau 2, il y a trois boules rouges et une boule bleue. La probabilité de tirer une boule rouge est de 3/4, tandis que la probabilité de tirer une boule bleue est de 1/4. Par conséquent, l'entropie pour le seau 2 est :

Entropie (Bucket 2) = - (3/4 * log2(3/4) + 1/4 * log2(1/4))

En calculant les valeurs, on obtient :

Entropie (Bucket 2) ≈ 0,811

Cette valeur représente un niveau modéré d'incertitude ou de gain d'information.

Passant au seau 3, où il y a deux boules rouges et deux boules bleues, la probabilité de tirer une boule rouge ou une boule bleue est de 1/2 chacune. Ainsi, l'entropie pour le Bucket 3 est :

Entropie (Bucket 3) = - (1/2 * log2(1/2) + 1/2 * log2(1/2))

En simplifiant l'expression, on trouve :

Entropie (Bucket 3) = - (1/2 * (-1) + 1/2 * (-1)) = 1

L'entropie pour le compartiment 3 est de 1, indiquant le niveau le plus élevé d'incertitude ou de gain d'informations.

L'entropie quantifie le niveau d'incertitude ou d'information dans un système. En utilisant le concept de probabilités, nous pouvons calculer l'entropie comme le contenu d'information moyen associé à différents résultats. Des valeurs d'entropie plus élevées indiquent une plus grande incertitude, tandis que des valeurs d'entropie plus faibles indiquent moins d'incertitude ou des résultats plus prévisibles. Comprendre l'entropie et le gain d'informations est précieux dans divers domaines, notamment la théorie de l'information, l'apprentissage automatique et l'analyse de données, car cela nous permet de mesurer et d'analyser la complexité et la prévisibilité des systèmes.

Shannon Entropy and Information Gain
Shannon Entropy and Information Gain
  • 2017.11.04
  • www.youtube.com
Announcement: New Book by Luis Serrano! Grokking Machine Learning. bit.ly/grokkingML40% discount code: serranoytAccompanying blog post: https://medium.com/p/...
 

Classificateur Naive Bayes : Une approche conviviale



Classificateur Naive Bayes : Une approche conviviale

Salut, je suis Luis Serrano, et dans cette vidéo, nous allons explorer le classificateur Naive Bayes. Votre base de connaissances est cruciale en probabilité et incroyablement utile dans l'apprentissage automatique. Plutôt que de le voir comme une formule complexe impliquant des rapports de probabilité, considérons-le comme la probabilité qu'un événement se produise étant donné que nous avons des informations sur un autre événement. Naive Bayes étend ce concept en faisant des hypothèses naïves pour simplifier les calculs lorsqu'il s'agit de plusieurs événements.

Pour illustrer, construisons un détecteur de spam. Nous commençons avec un ensemble de données de 100 e-mails, dont 25 sont des spams et 75 ne le sont pas. Notre objectif est d'identifier les propriétés qui sont en corrélation avec les spams. Concentrons-nous sur le mot "acheter". Parmi les e-mails de spam, 20 contiennent "acheter", tandis que 5 e-mails non-spam l'ont. Sur cette base, nous pouvons conclure que si un e-mail contient "acheter", il y a 80 % de chances qu'il s'agisse d'un spam.

Maintenant, considérons un autre mot, "bon marché". Parmi les e-mails spam, 15 ont "bon marché", et parmi les e-mails non spam, 10 l'ont. Si un e-mail contient "bon marché", il y a 60 % de chances qu'il s'agisse d'un spam.

Mais que se passe-t-il si nous voulons analyser à la fois "acheter" et "pas cher" ? Parmi les e-mails de spam, 12 contiennent les deux mots, et il n'y a aucun cas de cette combinaison parmi les e-mails non-spam. Si un e-mail contient à la fois "acheter" et "pas cher", il y a 100 % de chances qu'il s'agisse d'un spam. Cependant, une certitude à 100% semble trop forte et irréaliste pour un classifieur.

Le problème survient parce que nous n'avons trouvé aucune instance d'e-mails non spam contenant à la fois "acheter" et "pas cher". Pour résoudre ce problème, nous pourrions collecter plus de données, mais explorons une solution alternative. Nous pouvons faire des hypothèses pour estimer l'occurrence de tels cas. Supposons que 0,5 % des e-mails contiennent à la fois "acheter" et "pas cher". Cette hypothèse est basée sur les pourcentages d'occurrences "acheter" et "bon marché" dans notre ensemble de données.

Maintenant, avec cette hypothèse, nous pouvons calculer la probabilité qu'un e-mail soit un spam s'il contient à la fois "acheter" et "pas cher". En appliquant le théorème de Bayes, nous trouvons que la probabilité est d'environ 94,737 %.

Le classificateur Naive Bayes consiste à remplir un tableau avec des données. Cependant, lorsque certains événements sont trop rares dans l'ensemble de données, nous faisons l'hypothèse naïve que les événements sont indépendants. Cette hypothèse simplifie les calculs, même si elle peut ne pas être vraie dans la réalité. En faisant ces hypothèses, nous pouvons estimer les probabilités et construire un classificateur de spam.

Naive Bayes classifier: A friendly approach
Naive Bayes classifier: A friendly approach
  • 2019.02.10
  • www.youtube.com
Announcement: New Book by Luis Serrano! Grokking Machine Learning. bit.ly/grokkingML40% discount code: serranoytA visual description of Bayes' Theorem and th...
 

La distribution Beta en 12 minutes !



La distribution Beta en 12 minutes !

Bonjour, je suis Luis Serrano, et dans cette vidéo, nous allons explorer le sujet des distributions bêta. Les distributions bêta sont un concept essentiel en probabilité et en statistique car elles modélisent la probabilité d'une probabilité. Approfondissons ce sujet fascinant.

Pour comprendre les distributions bêta, considérons un exemple impliquant trois pièces : la pièce un, la pièce deux et la pièce trois. Ces pièces peuvent atterrir sur pile ou face. Cependant, les trois pièces sont truquées, ce qui signifie qu'aucune d'entre elles ne retourne face avec une probabilité de moitié.

Supposons que la pièce un renvoie face avec une probabilité de 0,4, la pièce deux avec une probabilité de 0,6 et la pièce trois avec une probabilité de 0,8. Maintenant, imaginons que nous choisissions au hasard une de ces pièces sans savoir de laquelle il s'agit. La tâche consiste à deviner quelle pièce nous avons choisie en la retournant cinq fois.

Supposons que nous obtenions trois faces et deux faces dans cet ordre. La question est, quelle pièce pensez-vous que nous ayons attrapée ? Intuitivement, nous pourrions pencher vers la pièce deux car on s'attend à ce qu'elle retourne face trois fois sur cinq. Cependant, il y a encore de l'incertitude. Il est possible que nous ayons choisi la pièce un ou la pièce trois, et la séquence observée de pile et face n'était qu'une coïncidence.

Pour déterminer les probabilités de choisir chaque pièce, on peut appliquer le théorème de Bayes. Examinons chaque cas individuellement.

Pour la première pièce, la probabilité d'obtenir pile trois fois et pile deux fois est calculée comme suit : (0,4 * 0,4 * 0,4) * (0,6 * 0,6) = 0,0230.

Pour la pièce deux, la probabilité est : (0,6 * 0,6 * 0,6) * (0,4 * 0,4) = 0,0346.

Pour la pièce trois, la probabilité est : (0,8 * 0,8 * 0,8) * (0,2 * 0,2) = 0,0205.

Comme ce sont les trois seuls événements possibles, leurs probabilités doivent être égales à un. Nous normalisons ces probabilités en divisant chacune d'elles par la somme : 0,0230 + 0,0346 + 0,0205. Cela donne les probabilités normalisées : 0,295, 0,443 et 0,262 pour la pièce un, la pièce deux et la pièce trois, respectivement.

Comme nous pouvons le voir, la pièce deux a la probabilité la plus élevée, mais il y a toujours une chance que nous ayons choisi la pièce un ou la pièce trois. Ces probabilités sont obtenues à l'aide du théorème de Bayes, qui est un outil puissant en théorie des probabilités. Si vous souhaitez en savoir plus, j'ai une vidéo sur ma chaîne qui l'explique en détail.

Maintenant, considérons le même exemple mais avec un nombre de pièces plus élevé. Disons que nous lançons une pièce et qu'elle tombe sept fois sur face et trois fois sur pile. Cette pièce pourrait être l'une des dix pièces, chacune avec des probabilités différentes d'atterrir sur face, allant de 0,0 à 0,9, augmentant de 0,1 pour chaque pièce.

Selon vous, quelle pièce avons-nous choisie dans ce cas ? Encore une fois, l'option la plus probable est la pièce qui tombe sur face 70% du temps, ce qui correspond à la pièce sept. Pour calculer les probabilités de choisir chaque pièce, nous effectuons des calculs similaires à ceux précédents.

Pour chaque pièce, nous calculons la probabilité d'obtenir sept fois pile et trois fois face. Nous utilisons la formule : (p^7) * ((1-p)^3), où p représente la probabilité d'atterrir sur face. Nous normalisons ensuite ces probabilités en divisant chacune d'elles par la somme de toutes les probabilités.

Au fur et à mesure que nous augmentons le nombre de pièces, les calculs deviennent plus compliqués. Cependant, le principe sous-jacent reste le même. Nous calculons les probabilités de chaque pièce en fonction des résultats observés et des probabilités associées à chaque pièce. En normalisant ces probabilités, nous obtenons une distribution qui représente notre incertitude quant à la pièce choisie.

Maintenant, généralisons ce concept à la distribution bêta. La distribution bêta est une distribution de probabilité continue définie sur l'intervalle [0, 1]. Il est caractérisé par deux paramètres de forme, souvent notés alpha et bêta. Ces paramètres déterminent la forme de la distribution.

La distribution bêta est particulièrement utile pour modéliser les probabilités car elle est flexible et peut prendre diverses formes en fonction des valeurs d'alpha et de bêta. Il nous permet de capturer un large éventail de distributions de probabilité, d'uniformes à asymétriques, et de concentrées à dispersées.

La fonction de densité de probabilité (PDF) de la distribution bêta est donnée par la formule : f(x) = (x^(alpha-1)) * ((1-x)^(beta-1)) / B(alpha, beta), où B(alpha, beta) est la fonction beta qui assure que la distribution s'intègre à 1 sur l'intervalle [0, 1].

La moyenne de la distribution bêta est donnée par la formule : E[X] = alpha / (alpha + bêta), et la variance est Var[X] = (alpha * bêta) / ((alpha + bêta)^2 * ( alpha + bêta + 1)).

La distribution bêta est couramment utilisée dans divers domaines, tels que les statistiques bayésiennes, l'apprentissage automatique et l'analyse décisionnelle. Il peut modéliser des quantités incertaines, telles que des taux de réussite, des proportions ou des probabilités, et peut être utilisé pour l'estimation de paramètres, le test d'hypothèses et la génération d'échantillons aléatoires.

Les distributions bêta sont un concept fondamental en probabilité et en statistique, en particulier lorsqu'il s'agit de probabilités incertaines. Ils fournissent un cadre flexible pour modéliser une large gamme de distributions de probabilité. En comprenant les propriétés et les applications des distributions bêta, nous pouvons prendre des décisions plus éclairées et analyser les données plus efficacement.

The Beta distribution in 12 minutes!
The Beta distribution in 12 minutes!
  • 2021.06.13
  • www.youtube.com
This video is about the Beta distribution, a very important distribution in probability, statistics, and machine learning. It is explained using a simple exa...
 

Échantillonnage de Thompson, bandits armés et distribution bêta



Échantillonnage de Thompson, bandits armés et distribution bêta

Bonjour, je suis Louis Sorano, et dans cette vidéo, je vais aborder le concept des bandits manchots et la distribution bêta. Imaginez-vous dans un casino avec une rangée de machines à sous, communément appelées bandits manchots. Lorsque vous jouez à ces machines, il y a deux résultats possibles : soit une pièce sort, indiquant un gain, soit rien ne sort, entraînant une perte. L'objectif est de déterminer quelles machines sont bonnes et lesquelles ne le sont pas, afin de maximiser vos gains.

Chaque machine de la rangée a une probabilité différente de produire une pièce, notée « p ». Par exemple, si la machine de gauche a une probabilité de 0,1 (10%), cela signifie qu'en moyenne, vous pouvez vous attendre à gagner une pièce 10% du temps, tandis que 90% du temps, vous perdrez. De même, la machine de droite a une probabilité de 0,7 (70 %), ce qui indique que vous avez plus de chances de gagner une pièce, 70 % du temps, et 30 % de chances de perdre.

Le défi est que vous ne connaissez pas les valeurs réelles de 'p' pour chaque machine, vous devez donc les estimer en jouant aux machines. L'objectif est de jouer sur toutes les machines et d'identifier celles qui ont les meilleures probabilités de gagner pour se concentrer sur elles, tout en donnant occasionnellement aux machines les moins performantes une chance de s'améliorer.

Il y a deux stratégies à considérer : la stratégie « explorer » et la stratégie « exploiter ». La stratégie d'exploration consiste à jouer plusieurs fois sur chaque machine pour recueillir des données et estimer les probabilités de gagner. Par exemple, si vous jouez la première machine 15 fois et gagnez deux fois, vous estimez la probabilité à 2/15. En répétant ce processus pour chaque machine, vous pouvez comparer leurs probabilités estimées et identifier celles qui ont la plus grande probabilité de gagner.

D'autre part, la stratégie d'exploitation consiste à jouer moins de fois sur chaque machine et à prendre des décisions en fonction des données disponibles. En ne jouant à une machine que quelques fois, vous ne disposez peut-être pas de suffisamment d'informations pour estimer avec précision sa probabilité de gagner. Cette approche risque de passer à côté de gagnants potentiels, car elle peut ne pas explorer suffisamment l'espace pour recueillir suffisamment de données.

Pour trouver une stratégie optimale, vous avez besoin d'une combinaison d'exploration et d'exploitation. Cette approche, connue sous le nom d'échantillonnage de Thompson, consiste à maintenir une distribution bêta pour chaque machine. La distribution bêta représente la probabilité de gagner en fonction du nombre de victoires et de défaites. En mettant à jour la distribution bêta à chaque lecture, vous pouvez affiner vos estimations.

L'échantillonnage de Thompson implique une compétition entre les machines avec une touche de hasard. Des points aléatoires sont sélectionnés à partir des distributions bêta, et la machine avec la valeur la plus élevée à ce point est choisie pour être jouée ensuite. Cette technique permet d'explorer toutes les machines en privilégiant les plus performantes.

L'échantillonnage de Thompson, utilisant la distribution bêta, a de nombreuses applications au-delà du jeu. Il est utilisé dans les tests A/B pour la conception Web et la publicité, les essais médicaux pour déterminer l'efficacité des médicaments expérimentaux et divers scénarios de prise de décision où l'exploration et l'exploitation sont cruciales.

En conclusion, l'échantillonnage de Thompson avec la distribution bêta est une technique puissante qui combine l'exploration et l'exploitation pour prendre des décisions optimales. Il vous permet de maximiser vos gains en vous concentrant sur des machines avec des probabilités de gain plus élevées tout en explorant d'autres possibilités. L'échantillonnage de Thompson trouve des applications dans divers domaines et offre une approche pratique de la prise de décision dans l'incertitude.

Merci d'avoir regardé, et si vous avez trouvé cette vidéo utile, abonnez-vous, aimez et partagez-la. Je vous encourage également à consulter mon livre, "Rocking Machine Learning", où j'explique l'apprentissage automatique supervisé de manière accessible et engageante. Vous pouvez trouver le livre et d'autres ressources dans la section des commentaires ci-dessous. N'hésitez pas à laisser des commentaires et des suggestions pour de futurs sujets, et n'oubliez pas de me suivre sur Twitter.
Thompson sampling, one armed bandits, and the Beta distribution
Thompson sampling, one armed bandits, and the Beta distribution
  • 2021.07.06
  • www.youtube.com
Thompson sampling is a strategy to explore a space while exploiting the wins. In this video we see an application to winning at a game of one-armed bandits.B...
 

Les distributions binomiales et de Poisson



Les distributions binomiales et de Poisson

La vidéo de Serrano se concentre sur les distributions binomiales et de Poisson. Il commence par présenter un scénario problématique : imaginez que vous dirigez un magasin et que vous observez le nombre de personnes qui entrent au fil du temps. On note qu'en moyenne, trois personnes entrent dans le magasin toutes les heures, bien que le nombre réel fluctue. Serrano souligne que l'occurrence des clients entrants semble être aléatoire, sans schémas spécifiques tout au long de la journée.

La principale question abordée dans la vidéo est la suivante : compte tenu de cette information, quelle est la probabilité que cinq personnes entrent dans le magasin dans l'heure qui vient ? Serrano révèle que la réponse est 0,1008, mais il poursuit en expliquant comment cette probabilité est calculée à l'aide de la distribution de Poisson.

Avant de se plonger dans la distribution de Poisson, Serrano introduit une distribution de probabilité plus simple connue sous le nom de distribution binomiale. Pour illustrer ce concept, il utilise l'analogie de lancer plusieurs fois une pièce biaisée. En supposant que la pièce a 30% de chances d'atterrir sur face et 70% de chances d'atterrir sur pile, Serrano mène des expériences où la pièce est retournée 10 fois. Il démontre que le nombre moyen de face obtenu converge vers la valeur attendue, qui est le produit de la probabilité de face et du nombre de flips (0,3 * 10 = 3).

Ensuite, Serrano explore la probabilité d'obtenir différents nombres de faces en lançant la pièce 10 fois. Il explique qu'il y a 11 résultats possibles : zéro tête, une tête, deux têtes, et ainsi de suite, jusqu'à dix têtes. Serrano calcule ensuite les probabilités pour chaque résultat, en soulignant que la probabilité la plus élevée se produit lorsque trois têtes sont obtenues. Il construit un histogramme représentant la distribution binomiale, avec le nombre de têtes sur l'axe horizontal et les probabilités correspondantes sur l'axe vertical.

Pour calculer ces probabilités, Serrano décompose le processus. Par exemple, pour déterminer la probabilité de zéro pile, il note que chaque retournement doit entraîner pile, ce qui a une probabilité de 0,7. Étant donné que les retournements sont des événements indépendants, il multiplie cette probabilité par elle-même dix fois, ce qui donne une probabilité de 0,02825.

Serrano poursuit en expliquant le calcul de la probabilité d'une tête. Il considère d'abord le scénario où seul le premier lancer tombe sur face (probabilité de 0,3) tandis que les lancers restants donnent pile (probabilité de 0,7 chacun). Cela donne une probabilité de 0,321. Cependant, ce n'est qu'une possibilité, donc Serrano identifie dix façons dont un retournement peut entraîner des têtes tandis que le reste entraîne des piles. Il note que ces événements s'excluent mutuellement et que, par conséquent, leurs probabilités sont ajoutées. Par conséquent, la probabilité qu'une tête se produise est de 10 * 0,3 * 0,7 ^ 9 = 0,12106.

Serrano continue ce processus pour deux faces, calculant la probabilité que les deux premiers flips donnent face (0,3^2 * 0,7^8 = 0,00519). Il détermine alors qu'il y a 45 façons d'obtenir deux faces parmi dix lancers (10 choisissent 2). En multipliant cela par la probabilité de deux têtes pour chaque scénario, il obtient la probabilité globale de deux têtes, qui est de 45 * 0,3 ^ 2 * 0,7 ^ 8 = 0,12106.

En utilisant des calculs similaires pour différents nombres de têtes, Serrano fournit les probabilités pour chaque résultat. Portées sur un histogramme, ces probabilités forment la distribution binomiale. Il explique que lorsque le nombre de retournements se rapproche de l'infini, la distribution binomiale tend vers une distribution normale en raison du théorème central limite. Cependant, il note que ce sujet sera exploré dans une future vidéo.

Passant à la distribution de Poisson, Serrano introduit le concept de distribution de Poisson comme alternative à la distribution binomiale pour les situations où le nombre d'événements se produisant dans un intervalle de temps ou d'espace fixe est rare et aléatoire. Il explique que la distribution de Poisson est particulièrement utile lorsque le taux moyen d'occurrence est connu, mais que le nombre exact d'occurrences est incertain.

Pour illustrer l'application de la distribution de Poisson, Serrano reprend l'exemple des personnes entrant dans un magasin. Il souligne qu'en moyenne trois personnes entrent dans le magasin par heure. Cependant, le nombre réel de personnes entrant à une heure spécifique peut varier considérablement.

Serrano pose alors la question : quelle est la probabilité qu'exactement cinq personnes entrent dans le magasin dans l'heure qui vient, étant donné un rythme moyen de trois personnes par heure ? Pour calculer cette probabilité à l'aide de la distribution de Poisson, il utilise la formule :

P(X = k) = (e^(-λ) * λ^k) / k !

Où P(X = k) représente la probabilité d'exactement k occurrences, e est la base du logarithme népérien, λ est le taux moyen d'occurrences et k est le nombre d'occurrences souhaité.

En appliquant la formule, Serrano insère les valeurs de λ = 3 (taux moyen de trois personnes par heure) et k = 5 (nombre d'occurrences souhaité). Il explique que e^(-3) représente la probabilité d'avoir zéro occurrence (e^(-3) ≈ 0,0498). En multipliant cela par λ^k et en divisant par k ! (factoriel de 5), il arrive à la probabilité de 0,1008 pour exactement cinq personnes entrant dans le magasin dans l'heure qui suit.

Serrano souligne que la distribution de Poisson fournit une approximation plus précise lorsque le taux moyen d'occurrence est relativement élevé et que le nombre d'occurrences souhaité est relativement rare. À mesure que le taux moyen augmente ou que le nombre souhaité devient plus courant, la distribution de Poisson devient moins précise et des distributions alternatives peuvent être plus appropriées.

En résumé, la vidéo de Serrano explore les concepts des distributions binomiales et de Poisson. Il introduit d'abord la distribution binomiale par l'analogie de lancer plusieurs fois une pièce biaisée. Il calcule les probabilités d'obtenir différents nombres de têtes et construit un histogramme représentant la distribution binomiale.

Passant à la distribution de Poisson, Serrano explique son application dans des scénarios avec des occurrences rares et aléatoires, telles que des personnes entrant dans un magasin. À l'aide de la formule de distribution de Poisson, il calcule la probabilité d'un nombre spécifique d'occurrences compte tenu du taux moyen. Dans l'exemple, il détermine la probabilité d'avoir exactement cinq personnes entrant dans le magasin en une heure avec un rythme moyen de trois personnes par heure.

En expliquant ces distributions de probabilités et leurs calculs, Serrano offre aux téléspectateurs une compréhension plus approfondie des principes sous-jacents aux phénomènes aléatoires et de leurs probabilités associées.

The Binomial and Poisson Distributions
The Binomial and Poisson Distributions
  • 2022.11.08
  • www.youtube.com
If on average, 3 people enter a store every hour, what is the probability that over the next hour, 5 people will enter the store? The answer lies in the Pois...
 

Modèles de mélange gaussien



Modèles de mélange gaussien

Bonjour, je m'appelle Luis Serrano et dans cette vidéo, je vais discuter des modèles de mélange gaussien (GMM) et de leurs applications dans le clustering. Les GMM sont des modèles puissants et largement utilisés pour regrouper les données.

Le clustering est une tâche courante avec diverses applications, telles que la classification audio, où les GMM peuvent être utilisés pour distinguer différents sons, comme des instruments dans une chanson ou pour séparer votre voix du bruit de fond lors de l'interaction avec des assistants vocaux. Les GMM sont également utiles dans la classification des documents, permettant la séparation des documents par sujet, comme le sport, la science et la politique. Une autre application est la segmentation d'images, où les GMM peuvent aider à séparer les piétons, les panneaux de signalisation et les autres voitures dans les images vues par les voitures autonomes.

Dans le clustering, nous visons à regrouper les points de données qui semblent être regroupés. Les algorithmes de clustering traditionnels attribuent chaque point à un seul cluster. Cependant, les GMM introduisent le concept de soft clustering, où les points peuvent appartenir simultanément à plusieurs clusters. Ceci est réalisé en attribuant des points de probabilités ou des pourcentages d'appartenance à chaque cluster.

L'algorithme GMM se compose de deux étapes principales. La première étape consiste à colorer les points en fonction de leur association avec les distributions gaussiennes. Chaque point se voit attribuer une couleur en fonction de sa proximité avec les différentes gaussiennes. Cette étape détermine les affectations de cluster logiciel.

La deuxième étape est l'estimation des paramètres gaussiens compte tenu des points. L'algorithme trouve la moyenne, la variance et la covariance de chaque Gaussienne qui correspond le mieux aux points qui lui sont attribués. Cette étape implique le calcul du centre de gravité, des variances et des covariances, qui fournissent des informations sur la forme et l'orientation de la distribution des données.

L'algorithme GMM itère entre ces deux étapes, mettant à jour les paramètres gaussiens et les affectations de cluster souple jusqu'à ce que la convergence soit atteinte. Les gaussiennes initiales peuvent être choisies au hasard et l'algorithme continue jusqu'à ce qu'il y ait peu de changement dans les affectations ou les paramètres.

En utilisant les GMM, nous pouvons regrouper efficacement des ensembles de données complexes qui contiennent des grappes qui se croisent ou dont les points appartiennent à plusieurs grappes. Les GMM offrent une approche flexible et probabiliste du clustering, ce qui en fait un outil précieux dans divers domaines.

Pour une explication plus détaillée et des exemples de GMM, vous pouvez consulter ma vidéo sur ma chaîne, où je me plonge dans les mathématiques et la mise en œuvre de l'algorithme. Le lien vers la vidéo se trouve dans la section des commentaires.

L'algorithme continue d'itérer entre les étapes un et deux jusqu'à ce qu'il atteigne un point de convergence où les changements deviennent négligeables. À chaque itération, les couleurs des points sont mises à jour en fonction de l'ensemble actuel de distributions gaussiennes, et de nouvelles gaussiennes sont créées en fonction des points colorés.

Au fur et à mesure que l'algorithme progresse, les distributions gaussiennes s'adaptent progressivement aux données, capturant les clusters sous-jacents. Les gaussiennes représentent la distribution de probabilité des points de données appartenant à un cluster particulier. L'algorithme cherche à maximiser la vraisemblance des données observées compte tenu du modèle de mélange gaussien.

Le résultat final de l'algorithme du modèle de mélange gaussien est un ensemble de gaussiennes qui représentent les clusters dans les données. Chaque gaussien est associé à un cluster spécifique et fournit des informations sur sa moyenne, sa variance et sa covariance. En analysant les paramètres des gaussiennes, nous pouvons mieux comprendre la structure et les caractéristiques des clusters présents dans les données.

L'algorithme du modèle de mélange gaussien est un outil puissant pour le clustering souple, où les points de données peuvent appartenir simultanément à plusieurs clusters. Il peut gérer des ensembles de données complexes avec des clusters qui se chevauchent ou des modèles non linéairement séparables. Cela le rend applicable dans divers domaines, tels que la segmentation d'images, la classification de documents et la classification audio.

L'algorithme du modèle de mélange gaussien est un processus itératif qui alterne entre la coloration des points en fonction des gaussiennes actuelles et la mise à jour des gaussiennes en fonction des points colorés. Il converge vers une solution où les gaussiennes représentent avec précision les clusters sous-jacents dans les données, permettant un regroupement et une analyse efficaces.

Gaussian Mixture Models
Gaussian Mixture Models
  • 2020.12.28
  • www.youtube.com
Covariance matrix video: https://youtu.be/WBlnwvjfMtQClustering video: https://youtu.be/QXOkPvFM6NUA friendly description of Gaussian mixture models, a very ...
 

Clustering : K-means et Hiérarchique



Clustering : K-means et Hiérarchique

Salut, je suis Luis Serrano. Dans cette vidéo, nous découvrirons deux algorithmes de clustering importants : le clustering k-means et le clustering hiérarchique. Le clustering est une technique d'apprentissage non supervisée qui consiste à regrouper des données en fonction de leur similarité. Nous appliquerons ces algorithmes à une application marketing, en particulier la segmentation de la clientèle.

Notre objectif est de diviser la clientèle en trois groupes distincts. Nous avons des données sur l'âge des clients et leur engagement avec une certaine page. En traçant ces données, nous pouvons identifier visuellement trois grappes ou groupes. Le premier groupe est composé de personnes dans la vingtaine avec un faible engagement (2 à 4 jours par semaine). Le deuxième groupe comprend des personnes à la fin de la trentaine et au début de la quarantaine avec un engagement élevé. Le troisième groupe comprend des personnes dans la cinquantaine avec un engagement très faible.

Passons maintenant à l'algorithme de clustering k-means. Imaginez que nous sommes des propriétaires de pizzerias essayant de déterminer les meilleurs emplacements pour trois pizzerias dans une ville. Nous voulons servir notre clientèle efficacement. Nous commençons par sélectionner au hasard trois emplacements et en plaçant une pizzeria à chaque endroit. Nous affectons les clients à la pizzeria la plus proche en fonction de leur emplacement.

Ensuite, nous déplaçons chaque pizzeria au centre des maisons qu'elle dessert. Cette étape garantit que l'emplacement est optimal pour servir les clients environnants. Nous répétons le processus d'affectation des clients à la pizzeria la plus proche et de déplacement des salons vers les centres jusqu'à ce que l'algorithme converge et que les clusters se stabilisent.

Déterminer le nombre de clusters peut être difficile. Pour résoudre ce problème, nous pouvons utiliser la méthode du coude. On calcule le diamètre de chaque clustering, qui représente la plus grande distance entre deux points de même couleur. En traçant le nombre de grappes par rapport au diamètre, nous pouvons identifier un point "coudé" où l'amélioration devient moins significative. Ce point de coude indique le nombre optimal de clusters, qui, dans ce cas, est de trois.

Passons maintenant au clustering hiérarchique. Encore une fois, nous visons à trouver des clusters dans l'ensemble de données. Nous commençons par considérer les deux points les plus proches et les regrouper. Ensuite, nous fusionnons itérativement les prochaines paires les plus proches jusqu'à ce que nous décidions de nous arrêter en fonction d'un seuil de distance. Cette méthode aboutit à un dendrogramme, une structure arborescente qui représente les clusters.

La détermination du seuil de distance ou du nombre de clusters peut être subjective. Cependant, une approche alternative est la méthode "ajouter et supprimer". Nous traçons les distances entre les paires de points dans un dendrogramme et examinons la hauteur des lignes courbes. En analysant les hauteurs, nous pouvons prendre une décision éclairée sur le seuil de distance ou le nombre de clusters.

Le clustering K-means et le clustering hiérarchique sont des algorithmes précieux pour regrouper les données en fonction de la similarité. Le clustering K-means implique le déplacement itératif des centroïdes pour optimiser les affectations de cluster, tandis que le clustering hiérarchique construit un dendrogramme pour représenter les clusters. La méthode du coude et la méthode d'addition et de suppression peuvent être utilisées pour déterminer le nombre optimal de grappes ou le seuil de distance.

Clustering: K-means and Hierarchical
Clustering: K-means and Hierarchical
  • 2019.01.27
  • www.youtube.com
Announcement: New Book by Luis Serrano! Grokking Machine Learning. bit.ly/grokkingML40% discount code: serranoytA friendly description of K-means clustering ...
 

Analyse en composantes principales (ACP)



Analyse en composantes principales (ACP)

Dans cette vidéo, nous allons découvrir l'analyse en composantes principales (ACP), qui est une technique de réduction de la dimensionnalité. L'ACP est utilisée pour réduire le nombre de colonnes dans un grand ensemble de données tout en conservant autant d'informations que possible. En projetant les données sur un espace de dimension inférieure, nous pouvons simplifier l'ensemble de données. Nous couvrirons plusieurs étapes dans cette vidéo : les projections de mode, la matrice de variance-covariance, les valeurs propres et les vecteurs propres, et enfin, l'ACP.

Pour comprendre le concept, considérons le problème de prendre une photo d'un groupe d'amis. Nous devons déterminer le meilleur angle pour capturer l'image. De même, dans la réduction de dimensionnalité, nous voulons capturer l'essence des données tout en réduisant le nombre de dimensions. Nous pouvons y parvenir en projetant les données sur une ligne idéale qui maximise la dispersion des points. Nous comparerons différentes projections et déterminerons celle qui offre la meilleure séparation entre les points.

La réduction de la dimensionnalité est cruciale dans les scénarios où nous avons un grand ensemble de données avec de nombreuses colonnes difficiles à traiter. Par exemple, dans un ensemble de données sur le logement, nous pouvons avoir plusieurs caractéristiques telles que la taille, le nombre de pièces, les salles de bains, la proximité des écoles et le taux de criminalité. En réduisant les dimensions, nous pouvons combiner des caractéristiques associées en une seule caractéristique, comme combiner la taille, le nombre de pièces et de salles de bains en une caractéristique de taille. Cela simplifie l'ensemble de données et capture les informations essentielles.

Concentrons-nous sur un exemple où l'on passe de deux colonnes (nombre de pièces et taille) à une colonne. Nous voulons capturer la variation des données dans une seule entité. En projetant les données sur une ligne qui représente le mieux la répartition des points, nous pouvons simplifier l'ensemble de données de deux dimensions à une dimension. Ce processus peut être étendu pour réduire les dimensions de cinq à deux, capturant les informations essentielles dans un espace plus petit.

Pour comprendre des concepts clés comme la moyenne et la variance, considérons l'équilibrage des poids. La moyenne est le point où les poids s'équilibrent et la variance mesure l'écart des poids par rapport à la moyenne. Dans un jeu de données bidimensionnel, nous calculons les variances dans les directions x et y pour mesurer la dispersion des données. Cependant, les variances seules peuvent ne pas saisir les différences entre les ensembles de données. Nous introduisons la covariance, qui mesure la dispersion et la corrélation entre deux variables. En calculant la covariance, nous pouvons différencier les ensembles de données avec des variances similaires.

Maintenant, appliquons ces concepts à l'ACP. Nous commençons par centrer l'ensemble de données à l'origine, en créant une matrice de covariance à partir des variances et des covariances de l'ensemble de données. Cette matrice, communément appelée Sigma, capture la propagation et les corrélations entre les variables. Les prochaines étapes impliquent des valeurs propres et des vecteurs propres, qui donnent un aperçu des principales composantes des données. Enfin, nous appliquons l'ACP pour projeter les données sur les composants principaux, en réduisant les dimensions et en simplifiant l'ensemble de données.

L'ACP est une technique puissante de réduction de la dimensionnalité. Il aide à capturer les informations essentielles dans un jeu de données tout en réduisant le nombre de dimensions. En projetant les données sur une ligne ou un espace idéal, nous pouvons simplifier des ensembles de données complexes et les rendre plus gérables.

Principal Component Analysis (PCA)
Principal Component Analysis (PCA)
  • 2019.02.09
  • www.youtube.com
Announcement: New Book by Luis Serrano! Grokking Machine Learning. bit.ly/grokkingML40% discount code: serranoytA conceptual description of principal compone...