Tutoriels de programmation - page 12

 

Décrire les données de manière qualitative


Décrire les données de manière qualitative

Bonjour à tous, aujourd'hui, nous allons discuter de la description qualitative des formes des ensembles de données, en nous concentrant sur la construction d'un vocabulaire pour communiquer efficacement nos observations. Nous explorerons diverses représentations graphiques telles que les histogrammes, les polygones de fréquence et les diagrammes de tiges, et discuterons de leurs caractéristiques. Plongeons-nous dans quelques exemples :

Examinons d'abord un histogramme. Dans ce cas, le graphique présente une forme symétrique, la moitié gauche ressemblant à la moitié droite. Bien que les données réelles présentent rarement une symétrie parfaite, nous nous concentrons sur la description de la forme globale plutôt que sur l'identification de valeurs spécifiques. Un autre type de distribution symétrique est un graphique uniforme, où les valeurs de données sont réparties uniformément sur les bacs. Cela se traduit par une forme horizontalement plate, indiquant une probabilité égale de valeurs tombant dans chaque bac.

Maintenant, explorons les ensembles de données qui ne sont pas symétriques. Au lieu d'histogrammes, nous allons considérer les graphiques à tiges pour changer. Dans cet exemple de stem plot, nous pouvons observer une forme asymétrique. Il est évident que la répartition n'est pas la même de part et d'autre du centre, qui se situe autour de 92. De plus, on peut discerner le sens de l'asymétrie. Dans ce cas, il y a une queue plus longue vers les nombres plus élevés, loin du centre. Cela indique une distribution asymétrique à droite.

D'autre part, voici un diagramme à tiges asymétrique à gauche. Nous remarquons une queue plus longue du côté des plus petites valeurs, alors que les données sont plus concentrées vers les plus grandes valeurs. Il est important de décrire avec précision la direction de l'asymétrie pour fournir une compréhension complète de l'ensemble de données.

Enfin, considérons un ensemble de données qui peut initialement apparaître asymétrique à droite en raison d'une seule grande valeur aberrante autour de 160 ou 170. Cependant, si nous ne tenons pas compte de cette valeur aberrante, la distribution présente une forme assez symétrique, ressemblant potentiellement à une courbe en cloche. Il est crucial d'identifier les valeurs aberrantes car elles peuvent représenter des erreurs, des cas exceptionnels ou des phénomènes nécessitant une analyse séparée. Lors de la description de la forme générale des données, les valeurs aberrantes doivent être reconnues mais pas fortement prises en compte.

En développant un vocabulaire pour décrire les formes des ensembles de données, nous pouvons communiquer efficacement les caractéristiques et les modèles clés observés dans les données. Comprendre la forme d'un ensemble de données aide à interpréter ses propriétés et nous permet d'en tirer des informations significatives.

Describing Data Qualitatively
Describing Data Qualitatively
  • 2020.07.12
  • www.youtube.com
It's time to build some vocabulary for describing single-variable data sets, and to look at some example histograms and stem plots. Yay! If this vid helps yo...
 

Comprendre la moyenne, la médiane et le mode


Comprendre la moyenne, la médiane et le mode

Bonjour à tous, aujourd'hui, nous allons discuter des concepts de moyenne, de médiane et de mode, en nous concentrant sur leurs interprétations en tant que mesures de tendance centrale. Chaque mesure a sa propre utilité et les comprendre est crucial. Passons rapidement en revue leurs définitions.

La moyenne représente la moyenne numérique d'un ensemble de données. Il est calculé en additionnant toutes les valeurs de l'ensemble et en divisant le total par le nombre de valeurs. La moyenne est généralement désignée par X-bar ou X avec une ligne dessus, en particulier lorsqu'il s'agit d'échantillons.

La médiane est la valeur qui divise les données exactement en deux. Pour trouver la médiane, organisez les données du plus bas au plus élevé. S'il y a un nombre impair de valeurs, la médiane est la valeur médiane. Pour un nombre pair de valeurs, faites la moyenne des deux valeurs médianes pour trouver la médiane. La médiane est souvent désignée par un M majuscule.

Le mode est simplement la valeur la plus courante dans l'ensemble de données. Une distribution peut avoir plusieurs modes si deux valeurs ou plus ont la même fréquence, mais si toutes les données ont la même fréquence, on dit que la distribution n'a pas de mode.

Prenons un exemple. Supposons que nous ayons un ensemble de données avec 16 valeurs. La moyenne est calculée en additionnant toutes les valeurs et en divisant par 16. Dans ce cas, la moyenne est de 67,9375. La médiane, puisque nous avons un nombre pair de valeurs, est trouvée en prenant la moyenne des deux valeurs médianes, ce qui donne 65,5. Le mode, la valeur la plus courante, est 65.

Chaque mesure de tendance centrale a également une interprétation graphique. Dans un histogramme, le mode est le point le plus élevé de l'histogramme, représentant la valeur la plus fréquente. La médiane est la valeur qui divise l'histogramme en deux, divisant la zone de manière égale. La moyenne est la valeur qui permettrait à l'histogramme de s'équilibrer.

Prenons l'exemple d'un histogramme. Le mode peut être déterminé en identifiant la valeur x où l'histogramme est le plus haut, qui est légèrement supérieure à 3 dans ce cas. La médiane est la valeur qui divise la zone de l'histogramme en deux, soit environ 4,5. La moyenne est la valeur qui équilibrerait l'histogramme, légèrement inférieure à 5.

Pourquoi avons-nous besoin de trois mesures de tendance centrale ? Chaque mesure a ses avantages et ses inconvénients. La moyenne est couramment utilisée dans l'analyse statistique et elle est intuitive. Cependant, il est fortement influencé par les valeurs aberrantes et peut ne pas convenir aux distributions asymétriques.

La médiane est simple à calculer et à comprendre, et elle n'est pas sensible aux valeurs aberrantes. Cependant, il n'utilise pas toutes les informations de l'ensemble de données et peut présenter des défis en matière d'inférence statistique.

Le mode est une mesure universelle de tendance centrale, même pour les variables catégorielles. Cependant, la valeur la plus courante ne représente pas nécessairement le milieu de la distribution, ce qui la rend moins fiable en tant que mesure du centre.

Considérez un petit ensemble de données de résultats d'examen, y compris une valeur aberrante. Dans ce cas, la moyenne de 79 ne décrit pas avec précision la performance typique de l'élève. La médiane de 94 est une mesure plus descriptive. La suppression de la valeur aberrante révèle plus clairement la différence, car la moyenne change de manière significative tandis que la médiane reste inchangée.

Comprendre les distinctions entre la moyenne, la médiane et le mode nous permet d'interpréter et de communiquer efficacement les tendances centrales d'un ensemble de données, en tenant compte de leurs forces et de leurs limites dans différents scénarios.

Understanding Mean, Median, and Mode
Understanding Mean, Median, and Mode
  • 2020.07.13
  • www.youtube.com
How can we measure the center of a data set? What are the strengths and weaknesses of each measure? How can we understand each graphically? If this vid helps...
 

Centiles et quantiles dans R


Centiles et quantiles dans R

Aujourd'hui, nous allons discuter des centiles et des quantiles dans R. Commençons par revoir leurs significations.

Les centiles sont un moyen de mesurer la position relative d'une valeur dans un ensemble de données. En général, le p-ième centile d'un ensemble de données est une valeur supérieure à p % des données. Par exemple, le 50e centile est la médiane, le 25e centile est le premier quartile et le 75e centile est le troisième quartile. Il représente la valeur qui se situe au-dessus de 75 % des données.

Différentes méthodes existent pour calculer les centiles, et il n'y a pas d'approche universellement acceptée. Cependant, la bonne nouvelle est que toutes les méthodes donnent des résultats très similaires. Pour calculer les centiles, il est préférable de s'appuyer sur une technologie, telle que R, qui offre des calculs efficaces et précis.

Quantiles, d'autre part, sont essentiellement les mêmes que les centiles. Cependant, le terme « quantiles » est souvent utilisé pour désigner des valeurs décimales, tandis que les « centiles » sont associés à des valeurs entières. Par exemple, vous pouvez avoir le 15e centile mais le 0,15 quantile. L'avantage des quantiles est qu'ils permettent une plus grande précision en exprimant des valeurs avec autant de décimales que nécessaire.

Passons maintenant à R et explorons comment calculer les centiles et les quantiles à l'aide de l'ensemble de données "fidèle", qui contient des informations sur la durée de l'éruption et le temps d'attente du geyser Old Faithful aux États-Unis, mesuré en minutes.

Pour calculer les centiles et les quantiles dans R, nous pouvons utiliser la fonction "quantile". Il nécessite deux arguments. Tout d'abord, nous spécifions la variable qui nous intéresse, qui dans ce cas est "faithful$waiting". Ensuite, nous indiquons le quantile souhaité, écrit sous forme décimale. Par exemple, pour calculer le 35e centile (0,35 quantile), nous écrivons 0,35 comme argument quantile. En exécutant la commande, nous obtenons le résultat, tel que 65 dans ce cas. Cela implique qu'environ 35% de toutes les éruptions ont un temps d'attente inférieur ou égal à 65.

Dans R, il est possible de calculer plusieurs quantiles simultanément en fournissant un vecteur de quantiles. Par exemple, en utilisant la fonction "c()", nous pouvons spécifier les quantiles 0,35, 0,70 et 0,95. Le résultat sera un vecteur contenant les quantiles respectifs : 65, 81 et 89.

Une autre commande utile est "summary", qui fournit un résumé de la variable. En passant la variable "fidèle$attente" à la commande, on obtient le premier quartile (25e centile), la médiane (50e centile), le troisième quartile (75e centile), ainsi que les valeurs minimale, maximale et moyenne.

Abordons maintenant la question inverse. Si nous avons une valeur dans l'ensemble de données et que nous voulons déterminer son centile, nous pouvons utiliser la commande "ecdf". En spécifiant la variable d'intérêt, telle que « fidèle $ attente », et en fournissant une valeur spécifique de l'ensemble de données, comme 79, la commande renverra le centile de cette valeur. Dans cet exemple, le résultat est 0,6617647, indiquant qu'un temps d'attente de 79 correspond approximativement au 66e centile.

La compréhension des centiles et des quantiles nous permet d'évaluer la position relative des valeurs dans un ensemble de données, fournissant des informations précieuses sur la distribution et les caractéristiques des données.

Percentiles and Quantiles in R
Percentiles and Quantiles in R
  • 2020.07.18
  • www.youtube.com
Computing percentiles and quantiles by hand is for suckers! If this vid helps you, please help me a tiny bit by mashing that 'like' button. For more #rstats ...
 

Variance de l'échantillon et écart type


Variance de l'échantillon et écart type

Salut tout le monde, aujourd'hui, nous allons approfondir le concept de variance d'échantillon et d'écart type. Ces deux mesures nous aident à comprendre l'étendue de la variabilité ou de la propagation dans un ensemble de données. Ils fournissent des informations sur la mesure dans laquelle les valeurs de l'ensemble de données s'écartent de la moyenne, en moyenne.

Voyons les formules. Dans les formules, "n" représente la taille totale de l'échantillon, "X_i" désigne les valeurs dans l'ensemble de données (par exemple, X_1, X_2, X_3, etc.) et "X bar" (X avec une ligne dessus) représente la moyenne de l'échantillon. Alors que nous utilisons généralement une technologie comme R pour calculer ces mesures, il est crucial de comprendre les concepts sous-jacents, d'autant plus que nous n'effectuons plus ces calculs manuellement.

Le composant clé des deux mesures est le terme "X_i moins X bar", qui représente l'écart de chaque valeur (X_i) par rapport à la moyenne de l'échantillon. En d'autres termes, il quantifie à quel point chaque valeur diffère, positivement ou négativement, de la moyenne. Idéalement, nous voulons déterminer la moyenne de ces écarts, mais prendre une moyenne simple donnerait zéro puisque les écarts positifs et négatifs s'annulent. Pour résoudre ce problème, nous mettons au carré chaque écart (X_i moins X barre) avant de calculer la moyenne. Il en résulte la formule de la variance de l'échantillon, qui représente la moyenne des écarts au carré par rapport à la moyenne.

Cependant, vous avez peut-être remarqué que nous divisons par (n-1) au lieu de n dans la formule de variance. Il y a plusieurs raisons à cela, mais en voici une simple : lors du calcul de la moyenne de l'échantillon (barre X), nous n'avons besoin que de (n-1) des valeurs X_i. En effet, X bar est calculé comme la somme de tous les X_i divisé par n. Ainsi, nous pouvons résoudre n'importe quelle valeur X_i une fois que nous avons X bar. La division par (n-1) en tient compte et garantit que nous calculons la moyenne de (n-1) écarts distincts, et non tous les n. De cette façon, nous obtenons la variance de l'échantillon comme mesure significative de la variabilité.

Un autre problème est que la variance n'est pas à la même échelle que les données d'origine, ce qui la rend abstraite. Pour résoudre ce problème, nous prenons la racine carrée de la variance de l'échantillon, ce qui donne la formule de l'écart type de l'échantillon. Bien que l'écart type nécessite plus de calculs et puisse être théoriquement difficile, il est plus facile à interpréter et à visualiser que la variance. La variance et l'écart type ont leurs utilisations dans différents contextes.

Prenons un exemple avec un ensemble de données de seulement quatre valeurs. Pour calculer la variance et l'écart type de l'échantillon, nous calculons d'abord la moyenne de l'échantillon en additionnant les quatre valeurs et en divisant par quatre, obtenant une moyenne de 121. À l'aide de la formule de variance, nous mettons au carré les écarts (X_i moins X bar) pour chaque valeur et faire la moyenne des écarts au carré, en divisant par trois (un de moins que le nombre de valeurs). Cela donne une variance de 220. Cependant, cette valeur manque d'interprétabilité immédiate. Pour résoudre ce problème, nous prenons la racine carrée de la variance, ce qui donne un écart type de 14,8. Cette valeur est plus logique en tant que mesure de la propagation dans l'ensemble de données.

En termes de technologie, nous pouvons utiliser des commandes telles que "var" et "sd" dans R pour calculer respectivement la variance et l'écart type. Il est fortement recommandé de tirer parti de la technologie pour ces calculs, car cela permet de gagner du temps et fournit des résultats précis. Le calcul manuel de la variance et de l'écart type n'est plus nécessaire dans la plupart des cas.

En outre, il est important de noter que dans la majorité des cas, environ les deux tiers des valeurs de données se situeront à moins d'un écart type de la moyenne. Pour une distribution en forme de cloche (distribution normale), environ 68 % des données se situent dans un écart type, environ 95 % se situent dans deux écarts types et la quasi-totalité (99,7 %) se situe dans trois écarts types de la moyenne. C'est ce qu'on appelle la règle empirique ou la règle 68-95-99.7.

Pour illustrer cela, considérons un ensemble de données de 200 valeurs choisies au hasard parmi des nombres entiers entre 0 et 100. La moyenne de cet ensemble de données est de 49,9 et l'écart type est de 27,3. En appliquant la règle empirique, si nous passons un écart type au-dessus et au-dessous de la moyenne, nous capturerons 68 % des valeurs, ce qui équivaut à 136 valeurs. Si la distribution suit une forme de cloche (distribution normale), nous pouvons faire des estimations encore plus précises. Dans ce cas, environ 95 % des valeurs (190 sur 200) se situeraient à moins de deux écarts-types de la moyenne, et presque toutes les valeurs (199 sur 200) se situeraient à moins de trois écarts-types de la moyenne.

Terminons par un autre exemple utilisant la règle empirique. Supposons que nous ayons des scores d'un test standardisé qui suivent approximativement une distribution en forme de cloche. Le score moyen est de 1060 et l'écart type est de 195. En appliquant la règle empirique, nous pouvons estimer qu'environ 68 % des scores se situeraient entre 865 et 1255 (un écart type au-dessous et au-dessus de la moyenne). Environ 95 % des scores se situeraient entre 670 et 1450 (deux écarts types au-dessous et au-dessus de la moyenne). Enfin, environ 99,7 % des scores seraient compris entre 475 et 1645 (trois écarts-types au-dessous et au-dessus de la moyenne).

Comprendre la variance et l'écart type nous aide à saisir la propagation et la variabilité au sein d'un ensemble de données. Bien que la technologie facilite leur calcul, il est crucial de comprendre les concepts sous-jacents pour interpréter et analyser efficacement les données. En utilisant ces mesures, nous pouvons obtenir des informations précieuses et prendre des décisions éclairées en fonction des caractéristiques des données.

Sample Variance and Standard Deviation
Sample Variance and Standard Deviation
  • 2020.07.15
  • www.youtube.com
Let's measure the spread of data sets! Variance and standard deviation are hugely important in statistics; they're also easy to misunderstand. If this vid he...
 

Scores Z


Scores Z

Bonjour à tous, dans la discussion d'aujourd'hui, nous allons explorer les scores z, également appelés scores standard. Cette méthode nous permet de mesurer la position relative des valeurs dans un ensemble de données.

Un score z représente le nombre d'écarts types par lesquels une valeur s'écarte de la moyenne. Par exemple, si nous avons un ensemble de données avec une moyenne de 50 et un écart type de 8, une valeur de 62 aurait un score z de 1,5. Cela signifie que la valeur de 62 est de 1,5 écart-type au-dessus de la moyenne.

Les scores Z sont particulièrement utiles pour évaluer les positions relatives dans des ensembles de données avec des distributions symétriques, en particulier ceux qui suivent une distribution en forme de cloche ou normale. Cependant, lorsqu'il s'agit de données asymétriques ou d'ensembles de données contenant des valeurs aberrantes, la moyenne et l'écart type peuvent ne pas représenter avec précision le centre et la dispersion des données. Par conséquent, l'utilité des scores z diminue dans de tels cas.

La formule de calcul d'un score z est : z = (x - μ) / σ, où x est la valeur dans l'ensemble de données, μ est la moyenne et σ est l'écart type. La moyenne est parfois représentée par la barre x et l'écart type par s, mais la formule reste la même.

Les scores Z sont particulièrement utiles pour comparer les positions relatives des valeurs dans différents ensembles de données. Prenons un exemple pour illustrer cela. La taille moyenne des hommes adultes aux États-Unis est de 69,4 pouces, avec un écart type de 3,0 pouces. D'autre part, la taille moyenne des femmes adultes aux États-Unis est de 64,2 pouces, avec un écart type de 2,7 pouces. Maintenant, nous pouvons comparer la rareté relative d'un homme de 64,2 pouces et d'une femme de 69,4 pouces.

Pour calculer le score z pour l'homme, nous utilisons la formule (64,2 - 69,4) / 3,0. Le score z résultant est de -1,73, ce qui indique que la taille de l'homme est inférieure de 1,73 écart-type à la taille moyenne des hommes. Pour la femme, le score z est (69,4 - 64,2) / 2,7, ce qui donne un score z de 1,93. Cela signifie que la taille de la femme est supérieure de 1,93 écart-type à la taille moyenne des femmes. En comparant les valeurs absolues des deux scores z, nous pouvons conclure que la taille de la femme est plus inhabituelle par rapport à la taille moyenne des femmes.

Il est important de noter que les scores z ne fournissent pas à eux seuls une distinction définitive entre les valeurs "habituelles" et "inhabituelles". Une convention courante consiste à considérer les valeurs à plus de deux écarts-types de la moyenne comme inhabituelles et les valeurs à plus de trois écarts-types comme très inhabituelles. Cependant, ce n'est qu'une règle empirique, et la décision dépend en fin de compte du contexte et de la distribution spécifique des données.

Pour le démontrer, considérons le cas d'un homme de 76 pouces de haut. En utilisant la même formule et la moyenne et l'écart type donnés pour les hommes, nous calculons un score z de 2,2. Comme cette valeur est supérieure à 2 en valeur absolue, on considérerait la taille de l'homme comme inhabituelle selon la convention.

La règle empirique fournit une ligne directrice lorsqu'il s'agit de distributions approximativement en forme de cloche. Environ 68 % des valeurs se situent à moins d'un écart type de la moyenne (z-scores entre -1 et 1), environ 95 % se situent à moins de deux écarts-types (z-scores entre -2 et 2) et environ 99,7 % se situent à moins de trois écarts-types (z-scores compris entre -3 et 3).

En conclusion, les scores z offrent un moyen utile d'évaluer la position relative des valeurs dans un ensemble de données. Ils sont particulièrement utiles pour comparer les valeurs de différents ensembles de données et déterminer la rareté ou le caractère inhabituel d'une valeur spécifique. Cependant, il est essentiel de prendre en compte la forme de la distribution, les valeurs aberrantes et le contexte des données lors de l'interprétation des scores z.

Terminons par un bref exemple. Supposons que nous ayons un ensemble de données sur la taille des femmes adultes aux États-Unis, qui suit approximativement une distribution en forme de cloche. La hauteur moyenne est de 64,2 pouces, avec un écart type de 2,7 pouces.

En utilisant la règle empirique, nous pouvons estimer les tranches de taille dans lesquelles se situe un certain pourcentage de femmes. À moins d'un écart type de la moyenne, on trouvera environ 68 % de la taille des femmes. En soustrayant 2,7 de 64,2, on obtient 61,5 pouces, et en ajoutant 2,7, on obtient 66,9 pouces. Ainsi, nous pouvons estimer qu'environ 68% de la taille des femmes se situera entre 61,5 et 66,9 pouces.

En élargissant à deux écarts-types, nous constatons qu'environ 95 % de la taille des femmes se situent dans cette fourchette. En soustrayant deux fois 2,7 de la moyenne, nous obtenons 58,8 pouces et en ajoutant deux fois 2,7 nous donnons 69,6 pouces. Par conséquent, on peut s'attendre à ce qu'environ 95% de la taille des femmes se situe entre 58,8 et 69,6 pouces.

Enfin, dans les trois écarts-types, qui couvrent environ 99,7 % des données, nous soustrayons trois fois 2,7 de la moyenne pour obtenir 56,1 pouces, et nous ajoutons trois fois 2,7 pour obtenir 71,7 pouces. Par conséquent, nous pouvons estimer qu'environ 99,7% de la taille des femmes se situera entre 56,1 et 71,7 pouces.

Comprendre les scores z et leur interprétation nous permet d'évaluer la position relative et la rareté des valeurs dans un ensemble de données, fournissant des informations précieuses dans divers domaines tels que les statistiques, la recherche et l'analyse de données.

N'oubliez pas que les scores z fournissent une mesure standardisée de la position relative, en tenant compte de la moyenne et de l'écart type de l'ensemble de données. Ils constituent un outil puissant pour comprendre la distribution et comparer les valeurs entre différents ensembles de données.

Z-Scores
Z-Scores
  • 2020.07.19
  • www.youtube.com
Let's understand z-scores! This is a simple way of describing position within a data set, most appropriate to symmetric (particularly bell-shaped) distributi...
 

Le résumé à cinq chiffres et le test 1,5 x IQR pour les valeurs aberrantes


Le résumé à cinq chiffres et le test 1,5 x IQR pour les valeurs aberrantes

Bonjour à tous! Aujourd'hui, nous allons nous plonger dans les concepts du résumé à cinq chiffres et du test IQR 1,5 fois pour les valeurs aberrantes. Commençons par définir les quartiles d'un jeu de données. Les quartiles sont des valeurs qui divisent un ensemble de données en quatre parties égales. Le premier quartile (Q1) se situe au-dessus d'environ 25 % des données, le deuxième quartile (Q2) se situe au-dessus d'environ la moitié des données (également appelée médiane) et le troisième quartile (Q3) se situe au-dessus d'environ 75 % des données. données.

Il est important de noter que la division en quatre parties égales peut ne pas être exacte si l'ensemble de données ne se divise pas uniformément. Les premier et troisième quartiles peuvent être trouvés en déterminant d'abord la médiane. Pour trouver Q1 et Q3, nous divisons l'ensemble de données en une moitié supérieure et une moitié inférieure et calculons les médianes de ces deux moitiés. La médiane de la moitié supérieure est Q3, tandis que la médiane de la moitié inférieure est Q1.

Prenons un exemple pour illustrer cela. Considérez l'ensemble de données suivant avec 17 valeurs, répertoriées de la plus faible à la plus élevée. La médiane, ou Q2, sera la valeur du milieu, qui dans ce cas est la neuvième valeur (puisque 17 est un nombre impair de valeurs). Par conséquent, la médiane est de 42. Pour trouver Q1, nous considérons les huit valeurs plus petites que la médiane. En les triant, nous trouvons 16, 18, 20 et 22. Comme il s'agit d'un nombre pair de valeurs, nous prenons la moyenne des deux valeurs médianes, ce qui nous donne 18. De même, pour Q3, nous considérons les huit valeurs supérieures à la médiane, qui sont 45, 48, 50 et 55. Encore une fois, en prenant la moyenne des deux valeurs médianes, nous obtenons Q3 comme 52.

Ainsi, pour cet exemple, les quartiles sont Q1 = 18, Q2 = 42 et Q3 = 52. Le résumé à cinq chiffres d'un ensemble de données se compose de ces quartiles ainsi que des valeurs minimale et maximale de l'ensemble de données. Dans notre cas, le résumé à cinq chiffres est 5, 18, 42, 52 et 93, où 5 représente la valeur minimale et 93 représente le maximum.

Une autre mesure utile est l'intervalle interquartile (IQR), qui quantifie la propagation de la moitié médiane des données. Il est calculé comme la différence entre Q3 et Q1. Dans notre exemple, l'IQR est de 52 - 18 = 34. L'IQR se concentre sur la plage de valeurs dans les 50 % médians de l'ensemble de données et est moins affecté par les valeurs extrêmes.

Maintenant, considérons un autre exemple. Supposons que nous ayons les résultats des examens de 22 étudiants répertoriés ci-dessous. Nous voulons décrire la distribution des scores à l'aide du résumé à cinq chiffres et de l'IQR. Premièrement, nous devons être prudents lorsque nous utilisons la moyenne comme mesure du centre, car elle pourrait être influencée par des valeurs extrêmes. Dans ce cas, la moyenne est de 75,3, mais comme quelques élèves ont obtenu des résultats exceptionnellement bas, la moyenne peut ne pas représenter avec précision la performance typique des élèves. De même, la plage, qui est la différence entre les valeurs minimale et maximale (2 et 100, respectivement), peut être trompeuse en raison des valeurs extrêmes.

Pour obtenir une description plus précise, nous calculons le résumé à cinq chiffres. En triant les scores, nous trouvons la valeur minimale comme 2 et la valeur maximale comme 100. La médiane (Q2) est la valeur du milieu, qui dans ce cas est 80. La moitié inférieure de l'ensemble de données se compose des huit valeurs inférieures à la médiane, avec 76 et 83 comme deux valeurs médianes. En prenant leur moyenne, nous trouvons Q1 à 79. De même, pour la moitié supérieure de l'ensemble de données, nous avons la médiane à 83, ce qui donne Q3 à 83.

Par conséquent, le résumé à cinq chiffres pour cet ensemble de données est 2, 79, 80, 83 et 100. À partir de ce résumé, nous observons que la moitié médiane des scores se situe entre 79 et 83, ce qui indique que les scores sont étroitement regroupés autour de la médian.

Pour identifier les valeurs aberrantes dans l'ensemble de données, nous pouvons utiliser le test IQR 1,5 fois. L'IQR, tel que calculé précédemment, est de 83 - 79 = 4. Multiplier l'IQR par 1,5 nous donne 6. Nous soustrayons 6 de Q1 et ajoutons 6 à Q3 pour établir la plage dans laquelle les valeurs ne sont pas considérées comme des valeurs aberrantes. Dans ce cas, toute valeur inférieure à 73 ou supérieure à 89 doit être traitée comme une valeur aberrante selon cette règle.

En appliquant ce test à l'ensemble de données, nous constatons que 2 et 100 doivent être considérés comme des valeurs aberrantes. En tant que professeur, il est conseillé de ne pas tenir compte de ces scores extrêmes ou de leur donner moins de poids lors de la détermination de la courbe d'examen.

En utilisant le résumé à cinq chiffres, l'IQR et le test IQR 1,5 fois, nous acquérons une meilleure compréhension de la distribution des scores et pouvons identifier les valeurs aberrantes potentielles qui pourraient affecter l'analyse globale.

The Five-Number Summary and the 1.5 x IQR Test for Outliers
The Five-Number Summary and the 1.5 x IQR Test for Outliers
  • 2020.07.15
  • www.youtube.com
The Five-Number Summary and the 1.5 x IQR Test for Outliers. If this vid helps you, please help me a tiny bit by mashing that 'like' button. For more statist...
 

Boîtes à moustaches


Boîtes à moustaches

Aujourd'hui, nous allons discuter des box plots, également connus sous le nom de box and whisker plots. Une boîte à moustaches est une représentation graphique d'un ensemble de données à variable unique basée sur le résumé à cinq chiffres. Plongeons-nous directement dans un exemple pour mieux les comprendre.

Supposons que nous ayons un ensemble de données pour lequel nous voulons construire un résumé à cinq chiffres et une boîte à moustaches. L'ensemble de données est le suivant : 34, 42, 48, 51,5 et 58. Tout d'abord, nous organisons les nombres par ordre croissant pour trouver les valeurs minimale (34) et maximale (58). Comme il y a un nombre impair de valeurs, la médiane est la valeur du milieu, qui dans ce cas est 48.

Ensuite, nous divisons le jeu de données en deux moitiés : la moitié inférieure et la moitié supérieure. La médiane de la moitié inférieure est de 42 et la médiane de la moitié supérieure est de 51,5. Ces valeurs sont respectivement appelées premier quartile (Q1) et troisième quartile (Q3).

En utilisant le résumé à cinq chiffres, nous pouvons construire la boîte à moustaches. La boîte à moustaches consiste en une boîte qui représente la plage entre Q1 et Q3. Le bas de la boîte correspond à Q1, le haut de la boîte correspond à Q3 et la ligne horizontale à l'intérieur de la boîte représente la médiane. Les "bras" de la boîte à moustaches s'étendent de la boîte aux valeurs minimales et maximales (34 et 58, respectivement).

Le but de la boîte à moustaches est de visualiser la distribution des données. La boîte représente les 50 % du milieu de l'ensemble de données, tandis que les bras englobent les valeurs restantes. Dans l'exemple donné, puisqu'il n'y a pas de valeurs extrêmes, aucune valeur aberrante n'est affichée sur la boîte à moustaches.

Considérons un autre exemple où nous voulons déterminer le résumé à cinq chiffres, tester les valeurs aberrantes à l'aide du test IQR 1,5 fois et construire une boîte à moustaches. L'ensemble de données est le suivant : 62, 64, 75, 81,5 et 110.

En calculant l'intervalle interquartile (IQR) en soustrayant Q1 de Q3, nous trouvons qu'il est de 17,5. Pour effectuer le test IQR 1,5 fois, nous multiplions l'IQR par 1,5. En soustrayant 1,5 fois l'IQR de Q1 (64 - 1,5 * 17,5), on obtient 37,5. En ajoutant 1,5 fois l'IQR à Q3 (81,5 + 1,5 * 17,5), on obtient 107,75. Toute valeur inférieure à 37,5 ou supérieure à 107,75 doit être considérée comme une valeur aberrante.

Dans ce cas, la valeur 110 dépasse la limite supérieure et est classée comme une valeur aberrante. En construisant la boîte à moustaches, nous dessinons les bras de la boîte à moustaches uniquement jusqu'aux valeurs les plus extrêmes qui ne sont pas des valeurs aberrantes. La valeur aberrante de 110 est indiquée par un point distinct et le bras supérieur ne s'étend que jusqu'à 90, ce qui représente la valeur la plus élevée dans la plage non aberrante.

Les boîtes à moustaches sont particulièrement utiles lors de la comparaison de données entre des groupes, comme le tracé d'une variable catégorique et d'une variable quantitative. Ce type de tracé, souvent appelé boîte à moustaches côte à côte, fournit une comparaison visuelle claire des différents groupes. À titre d'exemple, nous pouvons considérer le célèbre jeu de données sur l'iris, où nous comparons la largeur des pétales de trois espèces : setosa, versicolor et virginica. En examinant la boîte à moustaches, nous pouvons observer que l'espèce setosa a généralement des pétales plus étroits par rapport aux deux autres espèces. De plus, nous pouvons discerner les différences de propagation entre les largeurs de pétales au sein de chaque groupe.

En résumé, les diagrammes en boîte fournissent une visualisation concise du résumé à cinq chiffres et permettent une comparaison facile entre différents groupes. Ils affichent les valeurs minimale, du premier quartile (Q1), médiane, du troisième quartile (Q3) et maximale d'un ensemble de données. La boîte représente les 50 % du milieu des données, avec le bas de la boîte à Q1 et le haut de la boîte à Q3. La ligne à l'intérieur de la boîte représente la médiane.

Les boîtes à moustaches ont également la capacité d'afficher des valeurs aberrantes, qui sont des valeurs qui se situent en dehors de la plage déterminée par le test IQR 1,5 fois. Pour déterminer les valeurs aberrantes, nous calculons l'IQR (Q3 - Q1) et le multiplions par 1,5. Nous soustrayons ensuite 1,5 fois l'IQR de Q1 et ajoutons 1,5 fois l'IQR à Q3. Toutes les valeurs inférieures à la limite inférieure ou supérieures à la limite supérieure sont considérées comme des valeurs aberrantes.

Lors de la construction d'une boîte à moustaches avec des valeurs aberrantes, les bras du graphique ne s'étendent que jusqu'aux valeurs les plus extrêmes qui ne sont pas des valeurs aberrantes. Les valeurs aberrantes sont représentées par des points individuels à l'extérieur des bras de la boîte à moustaches. Cela garantit que la boîte à moustaches représente avec précision la distribution des données non aberrantes et évite les interprétations trompeuses.

Les boîtes à moustaches sont particulièrement utiles pour comparer des données entre différents groupes ou catégories. En traçant plusieurs boîtes à moustaches côte à côte, il devient plus facile de comparer les distributions et de comprendre les différences entre les variables analysées.

Par exemple, en utilisant l'ensemble de données de l'iris, nous pouvons créer une boîte à moustaches côte à côte pour comparer la largeur des pétales des espèces setosa, versicolor et virginica. Cela nous permet d'observer visuellement les différences de largeur des pétales entre les espèces et la répartition des valeurs au sein de chaque groupe.

En résumé, les boîtes à moustaches fournissent un résumé visuel du résumé à cinq chiffres, ce qui facilite la compréhension de la distribution des données et la comparaison des différents groupes. Ils fournissent des informations sur la tendance centrale, la propagation et la présence de valeurs aberrantes dans un ensemble de données, ce qui en fait un outil précieux pour l'analyse et la visualisation des données.

Boxplots
Boxplots
  • 2020.07.16
  • www.youtube.com
What is a boxplot? How can you construct one? Why would you want to? If this vid helps you, please help me a tiny bit by mashing that 'like' button. For more...
 

Boîtes à moustaches en R


Boîtes à moustaches en R

Bonjour à tous! Aujourd'hui, nous allons apprendre à créer de belles boîtes à moustaches dans R à l'aide de la commande qplot. Il existe plusieurs façons de créer des boîtes à moustaches dans R, mais les plus attrayantes visuellement proviennent souvent du package ggplot2, qui fait partie de la famille de packages tidyverse. Alors, plongeons-y !

Si vous n'avez jamais utilisé ces fonctions auparavant, vous devrez installer le package tidyverse sur votre machine à l'aide de la commande install.packages. Cette étape est rapide si vous ne l'avez pas déjà fait. Une fois installé, vous devez charger le package en mémoire à l'aide de la commande library(tidyverse) au début de chaque session pour accéder à ses fonctions.

Dans ce didacticiel, nous nous concentrerons sur l'utilisation de la commande qplot du package ggplot2. Commençons maintenant par deux exemples de création de boîtes à moustaches.

Tout d'abord, entrons manuellement certaines données. Nous allons créer un vecteur appelé "scores" d'une longueur de 21, qui pourrait représenter les scores des élèves à un examen de mathématiques dans une classe de taille 21.

Pour créer une boîte à moustaches des scores, nous utilisons la commande qplot. La syntaxe de base reste la même : spécifiez les variables pour les axes x et y, et utilisez l'argument geom pour indiquer que nous voulons une boîte à moustaches. Dans ce cas, nous tracerons les scores sur l'axe des x.

Pour rendre notre boîte à moustaches plus attrayante visuellement, nous pouvons apporter quelques améliorations. Tout d'abord, nous pouvons supprimer les nombres sans signification sur l'axe des y en utilisant y = "". Ensuite, si nous voulons une boîte à moustaches verticale, nous pouvons changer les axes en utilisant y pour les scores et en supprimant l'étiquette de l'axe des x. Nous pouvons également ajouter de la couleur aux lignes et à l'intérieur de la boîte en utilisant respectivement les arguments de couleur et de remplissage. Enfin, nous pouvons personnaliser les étiquettes et ajouter un titre au graphique en utilisant ylab et les arguments principaux.

Passons maintenant au deuxième exemple utilisant un ensemble de données intégré appelé chickweights. Cet ensemble de données contient 71 observations avec deux variables : les poids des différents poussins et les aliments qui leur ont été donnés. Nous allons créer une boîte à moustaches côte à côte pour comparer les distributions des poids des poussins entre différents types d'aliments.

Comme dans l'exemple précédent, nous utilisons la commande qplot et spécifions le jeu de données en utilisant data = chickweights. Nous indiquons ensuite que nous voulons une boîte à moustaches verticale avec les poids sur l'axe des ordonnées et les flux sur l'axe des abscisses. Pour différencier les boîtes à moustaches par type d'alimentation, nous pouvons utiliser l'argument de remplissage et le mapper à la variable d'alimentation.

Encore une fois, de nombreuses autres options sont disponibles pour la personnalisation, notamment les styles de police, la taille des étiquettes et la taille des points. Vous pouvez explorer davantage en effectuant une recherche en ligne.

Avec seulement quelques modifications, nous pouvons créer des boîtes à moustaches d'aspect professionnel dans R. Ces exemples démontrent la puissance et la flexibilité du package ggplot2 pour la visualisation de données.

Boxplots in R
Boxplots in R
  • 2020.07.17
  • www.youtube.com
In this vid, we use the qplot() command in the {ggplot2} package to produce gorgeous boxplots in R. Note: since I recorded this vid, the qplot() command has ...
 

Expériences de probabilité, résultats, événements et espaces d'échantillons


Expériences de probabilité, résultats, événements et espaces d'échantillons

Bonjour à tous! Aujourd'hui, nous allons nous plonger dans les principes fondamentaux de la probabilité. Nous explorerons des sujets tels que les espaces d'échantillonnage, les résultats, les événements, etc. Une expérience de probabilité, également connue sous le nom d'expérience aléatoire, est un essai dont le résultat ne peut être prédit avec certitude. Cependant, des essais répétés peuvent révéler certaines tendances. Jetons un coup d'œil à quelques exemples.

  1. Lancez une pièce et notez si elle tombe sur pile ou face.
  2. Utilisez un numéroteur aléatoire pour contacter 10 électeurs et leur demander pour qui ils ont l'intention de voter.
  3. Lancez deux dés et notez la somme des nombres.
  4. Lancez deux dés et comptez le nombre de fois qu'un six apparaît.

Notez que dans les deux derniers exemples, bien que l'action soit la même (lancer deux dés), les données enregistrées sont légèrement différentes. Par conséquent, nous les considérons comme des expériences de probabilité distinctes. Maintenant, parlons un peu de vocabulaire.

Le résultat d'un essai spécifique dans une expérience de probabilité est appelé un résultat. La collection de tous les résultats possibles dans une expérience de probabilité est appelée l'espace d'échantillonnage (noté S majuscule). Un sous-ensemble de l'espace échantillon est appelé un événement.

Pour illustrer cela, prenons un exemple. Supposons que nous lancions deux pièces et enregistrions les résultats. L'espace d'échantillonnage se compose de quatre résultats : pile-face, pile-face, pile-face et pile-face. Si nous définissons l'événement E comme "les deux flips sont identiques", alors nous avons deux résultats dans cet événement : pile-face et face-face. Cet événement est un sous-ensemble de l'espace échantillon.

Généralement, un événement représente quelque chose qui peut se produire au cours d'une expérience de probabilité, mais il peut y avoir plusieurs façons pour que cela se produise. Dans l'exemple précédent, l'événement "les deux retournements sont identiques" peut se produire de deux manières différentes.

Si un événement ne peut se produire que d'une seule manière, c'est-à-dire qu'il consiste en un seul résultat, nous l'appelons un événement simple. Le complément d'un événement E, noté E' ou parfois avec une barre sur E, est l'ensemble de tous les résultats dans l'espace échantillon qui ne sont pas dans E. Lorsque E se produit, E' ne se produit pas, et vice versa.

Par exemple, supposons que nous sélectionnions au hasard un entier de 1 à 9 à l'aide d'un spinner. Soit E l'événement "le résultat est un nombre premier". L'espace d'échantillonnage est constitué des nombres entiers de 1 à 9, et E est l'ensemble des nombres premiers inférieurs à 10 : {2, 3, 5, 7}. Le complément de E (E') est l'événement où E ne se produit pas, qui est constitué des nombres inférieurs à 10 qui ne sont pas premiers : {1, 4, 6, 8, 9}.

Deux événements sont disjoints s'ils n'ont aucun résultat en commun, ce qui signifie qu'ils ne peuvent pas se produire simultanément dans un essai de l'expérience de probabilité. Par exemple, envisagez de lancer quatre pièces et d'enregistrer les résultats. Soit E l'événement "les deux premiers flips sont face", et soit F l'événement "il y a au moins trois faces". Ces deux événements peuvent être représentés comme suit :

E : {HHHH, HHHH...} F : {TTTTT, TTTTH, TTTHT, TTTTH...}

Notez qu'il n'y a pas de résultats partagés entre les ensembles E et F. Ainsi, ces événements sont disjoints.

Il existe différentes manières de décrire la probabilité d'un événement, et deux approches courantes sont la probabilité empirique (ou probabilité statistique) et la probabilité classique (ou probabilité théorique).

La probabilité empirique est basée sur l'observation. Nous exécutons une expérience de probabilité plusieurs fois, comptons combien de fois l'événement se produit et le divisons par le nombre total d'essais. Il correspond à la proportion de fois où l'événement s'est produit dans le passé. Par exemple, si nous lançons une pièce 100 fois et qu'elle tombe face 53 fois, la probabilité empirique que la pièce tombe sur face est de 53/100 ou 53 %.

La probabilité classique, en revanche, s'applique lorsque tous les résultats d'un espace échantillon sont également probables. Nous comptons le nombre de résultats dans l'événement et le divisons par le nombre total de résultats dans l'espace échantillon. Mathématiquement, il est exprimé comme la cardinalité (nombre d'éléments) de l'événement E divisé par la cardinalité de l'espace échantillon S. Par exemple, si nous lançons un dé juste, il y a six résultats également probables, et si nous sommes intéressés par le simple événement E d'obtenir un cinq, la probabilité classique est de 1/6.

Prenons un autre exemple. Si nous lançons une pièce juste trois fois, il y a huit résultats également probables : HHH, HHT, HTH, HTT, THH, THT, TTH, TTT. Soit E l'événement d'obtention d'exactement deux faces. Dans l'espace échantillon, il y a trois résultats (HHH, HHT et HTH) dans l'événement E. Par conséquent, la probabilité classique de l'événement E est de 3/8.

Explorons maintenant une question de probabilité en utilisant la distribution de fréquence d'un cours d'introduction aux statistiques dans une grande université. La distribution montre le nombre d'étudiants dans chaque niveau de classe : 67 étudiants de première année, 72 étudiants de deuxième année, etc. Si nous sélectionnons au hasard une personne de cette classe, quelle est la probabilité qu'elle soit en deuxième année ? Il s'agit d'une question de probabilité classique.

Dans la distribution de fréquence donnée, il y a 222 résultats au total (étudiants dans la classe), et parmi ceux-ci, 72 résultats correspondent à des étudiants de deuxième année. Ainsi, la probabilité de sélectionner au hasard un étudiant en deuxième année est de 72/222, soit environ 32,4 %.

Maintenant, concentrons-nous sur une question légèrement différente utilisant la même distribution de fréquence. Quelle est la probabilité que la prochaine personne qui s'inscrira au cours soit un junior ou un senior ? Cette fois, nous nous intéressons à la probabilité empirique puisque nous n'avons aucune certitude quant à l'enregistrement futur.

Nous examinons les données dont nous disposons sur les étudiants déjà inscrits. Parmi eux, on compte 29 juniors et 54 seniors. Pour calculer la probabilité empirique, nous divisons le nombre d'étudiants qui correspondent à l'événement (junior ou senior) par le nombre total d'étudiants inscrits. Par conséquent, la probabilité est (29 + 54) / 222, soit environ 37,7 %.

Il est important de noter que, qu'il s'agisse de probabilité empirique ou classique, certains faits sont vrais. La probabilité de tout événement est comprise entre 0 et 1. Un événement avec une probabilité de 0 est impossible, tandis qu'un événement avec une probabilité de 1 est certain. Si l'espace d'échantillonnage est noté S, la probabilité que S se produise est toujours 1.

Si nous avons des événements disjoints E et F (sans résultat en commun), la probabilité qu'au moins l'un d'entre eux se produise est la somme de leurs probabilités individuelles. Cependant, la probabilité que E et F se produisent simultanément est de 0, car ils s'excluent mutuellement.

De plus, si nous avons des événements complémentaires (événements qui couvrent tous les résultats possibles), la somme de leurs probabilités est toujours 1. Si l'événement E se produit, la probabilité que son complément (E') ne se produise pas est de 1 moins la probabilité que E se produise.

Dans le langage courant, nous utilisons souvent la probabilité de manière informelle basée sur l'intuition et l'expérience personnelle. C'est ce qu'on appelle la probabilité subjective. Cependant, en statistique, nous nous appuyons sur la probabilité empirique et classique pour des calculs rigoureux. La probabilité subjective manque de précision mathématique et n'est pas au centre de l'analyse statistique.

Probability Experiments, Outcomes, Events, and Samples Spaces
Probability Experiments, Outcomes, Events, and Samples Spaces
  • 2020.07.25
  • www.youtube.com
We'll also learn about empirical vs. classical probability, as well as disjoint events. All the good stuff.If this vid helps you, please help me a tiny bit b...
 

La règle d'addition pour les probabilités


La règle d'addition pour les probabilités

Bonjour à tous, aujourd'hui nous allons discuter de la règle d'addition des probabilités. Cette règle permet de calculer les probabilités d'unions d'événements. Commençons par une version simplifiée de la règle.

Supposons que nous ayons deux événements, A et B, qui sont disjoints, ce qui signifie qu'ils n'ont aucun résultat en commun. Dans ce cas, la probabilité que l'un ou l'autre événement se produise est simplement la somme de leurs probabilités individuelles. Cela peut être écrit comme suit :

P(A ∪ B) = P(A) + P(B)

Ici, A ∪ B représente l'ensemble de tous les résultats qui sont dans A ou dans B, signifiant essentiellement "A ou B". Il est important de se rappeler que des événements disjoints ne peuvent pas se produire tous les deux car ils n'ont aucun résultat en commun. Parfois, ces événements sont appelés mutuellement exclusifs.

Pour illustrer cette version de la règle d'addition, prenons un exemple. Supposons que nous lancions un dé équitable deux fois et que nous définissions l'événement A comme le premier lancer étant un six, et l'événement B comme la somme des lancers étant un trois. Ces événements s'excluent mutuellement car si le premier lancer est un six, la somme ne peut pas être trois. Maintenant, pour calculer la probabilité de A ou B (le premier lancer étant un six ou la somme étant trois), nous avons besoin des probabilités individuelles de ces événements.

La probabilité que le premier lancer soit un six est de 1/6 puisqu'il y a six résultats possibles et qu'un seul d'entre eux est un six. La probabilité que la somme des lancers soit de trois est de 2/36, étant donné qu'il y a 36 résultats possibles au total pour deux lancers de dés, et que deux résultats donnent une somme de trois (1+2 et 2+1). En additionnant ces probabilités, nous obtenons une probabilité totale de 2/9.

Passons à un autre exemple, tiré du manuel "Elementary Statistics" de Larson et Farber. Dans une enquête auprès des propriétaires, on leur a demandé le temps qui s'écoule entre les nettoyages de la maison. Les résultats sont résumés dans un graphique à secteurs, montrant différents intervalles de temps. Nous voulons trouver la probabilité qu'un propriétaire sélectionné au hasard laisse passer plus de deux semaines entre les nettoyages.

Dans ce cas, nous nous intéressons à la probabilité de sélectionner un propriétaire dans le segment bleu ou jaune du graphique circulaire. Étant donné que ces segments s'excluent mutuellement (vous ne pouvez pas nettoyer votre maison à la fois toutes les trois semaines et toutes les quatre semaines ou plus), nous pouvons ajouter les probabilités de ces événements. La probabilité de nettoyer la maison toutes les trois semaines est de 10 % et la probabilité de la nettoyer quatre semaines ou plus est de 22 %. L'addition de ces probabilités nous donne une probabilité totale de 32 %.

Considérons maintenant un cas plus général où deux événements, A et B, ne sont pas disjoints. Dans ce scénario, la règle d'addition devient légèrement plus complexe. La probabilité de A ou B est donnée par :

P(A ∪ B) = P(A) + P(B) - P(A ∩ B)

Ici, A ∩ B représente les résultats qui sont à la fois dans A et B. Il est important de soustraire la probabilité de A ∩ B parce que lorsque A et B se chevauchent, les résultats dans A ∩ B sont comptés deux fois (une fois dans A et une fois dans B ).

Pour illustrer cette version de la règle d'addition, prenons un exemple tiré d'une enquête sur les habitudes tabagiques et le port de la ceinture de sécurité. L'enquête a interrogé 242 répondants sur leurs habitudes, et un tableau résume les résultats. Nous voulons trouver la probabilité qu'un répondant choisi au hasard ne fume pas et ne porte pas de ceinture de sécurité.

Soit A l'événement de ne pas fumer et B l'événement de ne pas porter de ceinture de sécurité. Nous nous intéressons à la probabilité de A ou B (A ∪ B). Pour calculer cela, nous avons besoin des probabilités individuelles de A, B et A ∩ B. La probabilité de ne pas fumer est de 169 sur 242, car il y a 169 personnes qui ne fument pas dans l'échantillon de 242 personnes. La probabilité de ne pas porter de ceinture de sécurité est de 114 sur 242. Maintenant, nous avons également besoin de la probabilité de A ∩ B, qui représente les individus qui à la fois ne fument pas et ne portent pas de ceinture de sécurité. D'après le tableau, nous voyons qu'il y a 81 personnes de ce type.

En utilisant la règle d'addition pour les événements qui ne sont pas disjoints, nous pouvons calculer la probabilité de A ou B comme suit :

P(A ∪ B) = P(A) + P(B) - P(A ∩ B)

En substituant les valeurs, on obtient :

P(A ∪ B) = 169/242 + 114/242 - 81/242

En simplifiant l'expression, on trouve que :

P(A ∪ B) = 202/242

Maintenant, calculons la probabilité de A ou B directement en ajoutant les probabilités individuelles. Dans ce cas, nous pouvons utiliser la règle d'addition pour les événements disjoints puisque les événements de chaque cellule du tableau s'excluent mutuellement. En additionnant les probabilités des cinq cellules représentant A ou B, on obtient :

P(A ∪ B) = 88/242 + 81/242 + 9/242 + ... (probabilités restantes)

Après avoir effectué l'addition, nous arrivons à nouveau à la probabilité de 202/242.

Par conséquent, les deux méthodes donnent la même probabilité de A ou B, soit 202/242.

The Addition Rule for Probabilities
The Addition Rule for Probabilities
  • 2021.02.17
  • www.youtube.com
How can we compute P(A or B)? With the addition rule, of course! If this vid helps you, please help me a tiny bit by mashing that 'like' button. For more sta...