Tutoriels de programmation - page 15

 

Intervalles de confiance et théorème central limite


Intervalles de confiance et théorème central limite

Bonjour à tous, aujourd'hui nous allons appliquer le théorème central limite et construire des intervalles de confiance pour la moyenne de la population. La formule de l'intervalle de confiance pour la moyenne de la population, mu, repose sur l'hypothèse que la population échantillonnée suit une distribution parfaitement normale avec la moyenne mu et la variance sigma au carré. Cependant, dans de nombreux cas, cette hypothèse n'est pas raisonnable. Par exemple, lors de la détermination de la durée moyenne des appels d'une banque téléphonique, la distribution des durées d'appels est peu susceptible d'être normale. Il est plus probable d'avoir un histogramme avec une distribution asymétrique, plutôt qu'une courbe en cloche.

Néanmoins, nous pouvons toujours construire un intervalle de confiance pour la moyenne de la population, mu, en utilisant le théorème central limite. Ce théorème stipule que tant que la taille de l'échantillon, n , est suffisamment grande (généralement n ≥ 30), la distribution d'échantillonnage de la moyenne de l'échantillon sera approximativement distribuée normalement, quelle que soit la forme de la distribution de la population. Pour visualiser cela, imaginez prendre à plusieurs reprises des échantillons de taille n, calculer la moyenne de l'échantillon (barre x) à chaque fois et créer un histogramme de ces moyennes d'échantillon. Selon le théorème central limite, cet histogramme présentera une courbe en forme de cloche centrée autour de la moyenne de la population, avec un écart mesuré par la variance de la population divisée par la taille de l'échantillon.

Il est important de noter que cette approximation s'améliore à mesure que la taille de l'échantillon, n, augmente. Prenons quelques exemples pour illustrer ce concept. Supposons que l'écart type des appels à la banque téléphonique est sigma = 1 minute, et que nous obtenons des échantillons de taille 81. La distribution des moyennes d'échantillon (x barre) sera approximativement normale, avec une moyenne égale à la moyenne de la population et une norme écart de sigma divisé par la racine carrée de n (1 / √81 ≈ 0,11 dans ce cas).

Avec ces informations, nous pouvons calculer des intervalles de confiance, comme lorsque la distribution de la population est connue pour être normale. Cependant, il faut se rappeler que ces intervalles de confiance ne sont qu'approximatifs. Par exemple, si nous avons un échantillon de taille 81 et que nous trouvons une moyenne d'échantillon de 1,1 minute, nous pouvons construire un intervalle de confiance à 95 % pour la moyenne de la population en utilisant la formule :

mu ≈ x barre ± z étoile * sigma / √n

En branchant les valeurs (x barre = 1,1, sigma = 1,0, n = 81) et en utilisant la valeur z critique (z étoile) correspondant à 95 % de confiance (1,960), nous constatons que la moyenne de la population (mu) est d'environ 1,1 ± 0,22 minutes avec une confiance de 95 %.

Prenons un autre exemple. Une grande entreprise emploie des milliers de commis dans des magasins de détail à l'échelle nationale. Dans un échantillon de taille 35, le nombre moyen d'heures travaillées par semaine était de 23. Nous voulons construire un intervalle de confiance à 90 % pour le nombre moyen d'heures travaillées par tous les commis employés par cette société, en supposant un écart-type (sigma) de 5 heures. On peut utiliser la même formule :

mu ≈ x barre ± z étoile * sigma / √n

En branchant les valeurs (x barre = 23, sigma = 5, n = 35), et en utilisant la valeur z critique (z étoile) correspondant à 90 % de confiance (1,645), nous constatons que la moyenne de la population (mu) est d'environ 23 ± 1,4 heures avec une confiance de 90 %.

En résumé, même si la distribution de la population n'est pas exactement normale, nous pouvons toujours utiliser le théorème central limite pour construire des intervalles de confiance approximatifs pour la moyenne de la population. Ces intervalles fournissent des informations précieuses et nous aident à faire des inférences statistiques, en comprenant le niveau de confiance associé à nos estimations.

Confidence Intervals and the Central Limit Theorem
Confidence Intervals and the Central Limit Theorem
  • 2020.08.11
  • www.youtube.com
The central limit theorem lets us build confidence intervals for the mean even when the shape of the population distribution isn't known. If this vid helps y...
 

Intervalles de confiance et taille de l'échantillon


Intervalles de confiance et taille de l'échantillon

Bonjour à tous, aujourd'hui, nous allons discuter des intervalles de confiance et de la taille de l'échantillon. Lorsque nous avons un échantillon aléatoire simple de taille "n" avec une moyenne d'échantillon "x barre", nous pouvons construire un intervalle de confiance de niveau "c" pour la moyenne de la population "mu" en utilisant la formule :

mu = x barre ± z étoile * sigma / √n

Ici, "z star" représente le score z critique correspondant au niveau de confiance "c" et "sigma" est l'écart type de la population. Le terme "z star * sigma / √n" est appelé la marge d'erreur, qui est une estimation de l'écart entre la moyenne de notre échantillon et la véritable moyenne de la population "mu".

L'idée derrière la construction d'un intervalle de confiance est que, grosso modo, "mu" tombera dans la marge d'erreur de "x bar" un pourcentage "c" du temps.

Considérons maintenant une question pratique : de quelle taille d'échantillon avons-nous besoin si nous voulons que la marge d'erreur ne soit pas supérieure à un seuil "e" spécifié ? Dans ce cas, nous connaissons "e", la marge d'erreur souhaitée, "c", le niveau de confiance, et "sigma", l'écart type de la population (en supposant qu'il soit connu). Nous devons trouver la taille d'échantillon requise "n" en résolvant l'équation algébriquement.

Pour calculer la taille de l'échantillon, nous multiplions les deux côtés de l'équation par √n, divisons les deux côtés par "e", puis élevons les deux côtés au carré, ce qui nous donne :

n = (z étoile * sigma / e) ^ 2

Si la valeur résultante de "n" n'est pas un nombre entier, ce qui est souvent le cas puisque "z star" a tendance à être irrationnel, nous l'arrondissons au nombre entier le plus proche. Il est important de noter que l'augmentation de la taille de l'échantillon diminue la marge d'erreur, et arrondir "n" pourrait potentiellement augmenter la marge d'erreur au-delà du seuil souhaité "e".

Le score z critique, "z étoile", est déterminé par le niveau de confiance spécifié "c". Cette valeur peut être calculée à l'aide de la technologie ou en se référant à un tableau. Bien que l'utilisation de tableaux pour les calculs statistiques ne soit généralement pas recommandée, dans le cas des niveaux de confiance couramment utilisés, tels qu'un niveau de confiance de 95 % (correspondant à un score z de 1,960), le tableau est petit et raisonnable à utiliser.

Prenons un exemple : supposons que nous voulions déterminer le poids d'un statisticien à la demi-livre près avec une confiance de 95 % en utilisant une échelle avec un écart type de 1,2 livre. Combien de fois devons-nous peser le statisticien ?

En insérant les valeurs données dans la formule de taille d'échantillon, nous constatons que la taille d'échantillon minimale requise est de 23 pesées, que nous arrondissons à 23. Par conséquent, nous devons peser le statisticien 23 fois pour connaître son poids à la demi-livre la plus proche avec 95 % de confiance.

Comme prévu, si nous augmentons le niveau de confiance ou diminuons la marge d'erreur, la taille d'échantillon requise augmentera également. Inversement, si nous augmentons la marge d'erreur, la taille de l'échantillon nécessaire diminuera.

Dans un autre exemple, supposons qu'un fabricant souhaite déterminer le poids moyen d'un certain type de clou en fer à moins de 0,2 gramme avec une confiance de 99 % et que l'écart type de la population est de 0,5 gramme. En appliquant la formule de taille d'échantillon, nous constatons qu'une taille d'échantillon minimale de 42 clous est nécessaire pour atteindre un niveau de confiance de 99 % avec une marge d'erreur ne dépassant pas 0,2 gramme.

Comprendre les intervalles de confiance et leur relation avec la taille de l'échantillon nous permet de planifier efficacement des études et des expériences, garantissant que nos estimations sont exactes et fiables avec le niveau de confiance et de précision souhaité.

Confidence Intervals and Sample Size
Confidence Intervals and Sample Size
  • 2020.08.03
  • www.youtube.com
Choosing the correct sample size to accommodate a required margin of error is easy! Let's see how to do it. If this vid helps you, please help me a tiny bit ...
 

Intervalles de confiance utilisant la distribution t


Intervalles de confiance utilisant la distribution t

Bonjour à tous, dans la session d'aujourd'hui, nous allons construire des intervalles de confiance en utilisant la distribution t. Dans nos discussions précédentes, nous avons utilisé la formule mu est égal à x bar plus ou moins z-star sigma sur la racine carrée de n pour approximer la moyenne de la population mu avec la moyenne de l'échantillon x bar et calculer la marge d'erreur. Cependant, cette formule suppose que nous connaissons l'écart-type sigma de la population, ce qui n'est souvent pas le cas.

Pour surmonter cette limitation, nous pouvons estimer l'écart-type de la population sigma en utilisant l'écart-type de l'échantillon s. La formule de l'intervalle de confiance avec la distribution t est similaire à la précédente, avec une légère modification. Au lieu du score z critique, nous utilisons la valeur t critique basée sur le niveau de confiance choisi. La distribution t décrit la variabilité de la variable t, qui est donnée par t égal à x bar moins mu sur s divisé par la racine carrée de n. La distribution t est symétrique et en forme de cloche, similaire à la distribution normale standard, mais avec un peu plus de dispersion pour les échantillons de petite taille.

Pour construire un intervalle de confiance, nous devons trouver les valeurs seuils pour t, notées t-étoile, telles que la probabilité que t se situe entre t-étoile négative et t-étoile positive soit égale au niveau de confiance choisi. Une fois que nous avons déterminé t-star, nous pouvons calculer l'intervalle de confiance en utilisant la formule mu est égal à x bar plus ou moins t-star s sur la racine carrée de n.

Travaillons à travers un exemple. Un groupe de chercheurs veut étudier les concentrations de sodium dans un lac canadien. Ils ont recueilli 23 échantillons et ont trouvé une moyenne de 24,7 parties par million et un écart type d'échantillon de 4,2 parties par million. Nous voulons construire un intervalle de confiance à 95 % pour la concentration moyenne de sodium dans le lac. Puisque nous ne connaissons pas l'écart-type de la population, nous utiliserons la distribution t.

En branchant les valeurs, nous avons x barre égale à 24,7, s égale à 4,2 et n égale à 23. Pour trouver la valeur t critique, nous devons déterminer la valeur t-étoile qui correspond à laisser 2,5 % de la zone de chaque côté de la distribution t. En utilisant un calcul t inverse, nous constatons que t-star est d'environ 2,074.

Nous pouvons maintenant construire l'intervalle de confiance : 24,7 plus ou moins 2,074 fois 4,2 divisé par la racine carrée de 23. En simplifiant cette expression, nous obtenons un intervalle de confiance de 24,7 plus ou moins 1,8.

Il convient de noter que la valeur t critique, 2,074, est légèrement supérieure à ce que le score z critique aurait été pour le même niveau de confiance. En effet, nous estimons l'écart-type de la population, ce qui introduit une incertitude supplémentaire, ce qui se traduit par un intervalle de confiance légèrement plus large.

En résumé, lors de la construction d'intervalles de confiance sans connaître l'écart type de la population, nous utilisons la distribution t et estimons l'écart type de la population avec l'écart type de l'échantillon. Le reste du processus est similaire à la construction d'intervalles de confiance avec un écart type connu, mais avec des valeurs t critiques au lieu de scores z critiques.

Confidence Intervals Using the t-Distribution
Confidence Intervals Using the t-Distribution
  • 2020.08.15
  • www.youtube.com
How do we construct confidence intervals when the population standard deviation is unknown? Easy! We use the t-distribution. If this vid helps you, please he...
 

Utilisation de R pour calculer dans la distribution t


Utilisation de R pour calculer dans la distribution t

Salut tout le monde, aujourd'hui, nous allons effectuer des calculs en utilisant la distribution t dans R. Nous allons résoudre trois problèmes étape par étape. Plongeons dedans !

Parlons d'abord de la façon dont nous calculons les probabilités dans la distribution t à l'aide de la fonction de distribution cumulative (CDF). En branchant une valeur t spécifique, telle que 0,44, le CDF nous donne la probabilité d'obtenir au hasard un score t inférieur ou égal à cette valeur. Visuellement, cela correspond à la représentation graphique d'une courbe en cloche puisque les distributions t présentent des motifs en forme de cloche.

Pour trouver la probabilité, nous étiquetons le score t d'intérêt (0,44) et ombrons la zone à gauche de ce score. Cette zone ombrée représente la probabilité que nous recherchons. Je recommande fortement d'utiliser R pour les calculs de distribution t au lieu de s'appuyer sur des tableaux, car ils peuvent être difficiles et moins précis. Dans R, la commande correspondant à la CDF d'une distribution t est pt, qui nécessite deux arguments : la valeur t (0,44) et le nombre de degrés de liberté (26).

Passons à R et exécutons la commande pt : pt(0.44, 26). Le résultat est d'environ 0,668, indiquant que la probabilité d'obtenir aléatoirement un t-score inférieur ou égal à 0,44 dans cette distribution t est d'environ 66,8 %.

Passons maintenant au problème deux. Nous voulons trouver la probabilité que t soit compris entre -0,8 et 0,5 dans une distribution t à 19 degrés de liberté. Pour résoudre ce problème, nous calculons l'aire à gauche de t = 0,5 et soustrayons l'aire à gauche de t = -0,8. Nous pouvons y parvenir en utilisant deux commandes pt avec une soustraction entre les deux : pt(0,5, 19) - pt(-0,8, 19). Le résultat est d'environ 0,472, indiquant que la probabilité d'obtenir aléatoirement un score t compris entre -0,8 et 0,5 dans une distribution t à 19 degrés de liberté est d'environ 47,2 %.

Passant au problème trois, nous devons trouver une valeur (tau) dans la distribution t avec 50 degrés de liberté, telle que la probabilité d'obtenir un score t inférieur ou égal à tau soit de 0,3. Cela implique un calcul CDF inverse. Nous pouvons utiliser la fonction qt dans R, fournissant la probabilité (0,3) et le nombre de degrés de liberté (50). Exécutons la commande qt : qt(0.3, 50). Le résultat est d'environ -0,5277. Il est important de noter que l'obtention d'un nombre négatif est raisonnable puisque le centre de la courbe en cloche dans toute distribution t est à t = 0.

N'oubliez pas que ces calculs peuvent être effectués manuellement, mais R fournit des fonctions pratiques (pt et qt) pour simplifier le processus. L'utilisation de ces fonctions permet de gagner du temps et garantit la précision.

Using R to Calculate in the t-Distribution
Using R to Calculate in the t-Distribution
  • 2020.08.15
  • www.youtube.com
R is a fantastic way to do computations in the t-distribution. If this vid helps you, please help me a tiny bit by mashing that 'like' button. For more #rsta...
 

Intervalles de confiance en R


Intervalles de confiance en R

Salut tout le monde, aujourd'hui, nous allons travailler avec des intervalles de confiance dans R, ce qui est particulièrement utile lorsque nous avons un ensemble de données réelles au lieu de simples statistiques récapitulatives. Dans cet exemple, nous allons examiner l'ensemble de données CO2 et nous concentrer sur la variable "absorption".

Auparavant, nous calculions les intervalles de confiance à l'aide de la moyenne de l'échantillon (barre x) et de l'écart type de l'échantillon (s), mais nous allons maintenant apprendre un raccourci à l'aide de la commande "t.test". En fournissant la variable d'intérêt, dans ce cas, "l'absorption" de l'ensemble de données de CO2, la commande sera par défaut à un niveau de confiance de 95 %.

La commande t-test fournit plusieurs informations, dont certaines deviendront plus pertinentes lorsque nous discuterons plus tard des tests d'hypothèse. Pour l'instant, les principaux détails à noter sont l'intervalle de confiance à 95 % et l'estimation ponctuelle. L'intervalle de confiance représente la plage de valeurs dans laquelle nous pouvons estimer la moyenne de la population. L'estimation ponctuelle est la moyenne de l'échantillon, qui sert d'estimation de valeur unique pour la moyenne de la population.

La sortie du test t inclut également les degrés de liberté, soit un de moins que la taille de l'échantillon. D'autres informations, telles que les valeurs p et les hypothèses alternatives, seront abordées dans les futures vidéos sur les tests de signification.

Bien que la sortie du test t ne fournisse pas directement la marge d'erreur, nous pouvons la calculer manuellement. La marge d'erreur d'un intervalle de confiance t suit la formule : T* * (s / sqrt(n)), où s est l'écart type de l'échantillon, n est la taille de l'échantillon et T* est la valeur t critique pour le niveau de confiance souhaité.

Pour trouver T*, nous utilisons la fonction "qt" et spécifions la zone à gauche de T*. Pour un intervalle de confiance de 95 %, nous voulons 97,5 % de la zone à gauche de T*. Par conséquent, nous calculons T* comme "qt(0,975, 83)". En multipliant T* par l'écart-type de l'échantillon et en le divisant par la racine carrée de la taille de l'échantillon, on obtient la marge d'erreur.

Alternativement, nous pouvons utiliser la fonction "t.test" dans R pour calculer automatiquement l'intervalle de confiance. Pour modifier le niveau de confiance, nous ajoutons l'argument "conf.level=" et spécifions le pourcentage souhaité. Par exemple, définir "conf.level = 90" nous donne un intervalle de confiance de 90 %.

Lorsque nous diminuons le niveau de confiance, l'intervalle de confiance résultant devient plus étroit. La limite supérieure de l'intervalle diminue, indiquant un niveau de précision plus élevé dans notre estimation.

En résumé, les intervalles de confiance fournissent une plage de valeurs dans laquelle nous estimons la moyenne de la population. R fournit des fonctions pratiques telles que "t.test" et "qt" pour simplifier les calculs et obtenir des résultats précis.

Confidence Intervals in R
Confidence Intervals in R
  • 2020.03.27
  • www.youtube.com
Quick t-distribution confidence intervals in R. So easy! If this vid helps you, please help me a tiny bit by mashing that 'like' button. For more #rstats joy...
 

Intervalles de confiance pour les proportions


Intervalles de confiance pour les proportions

Bonjour à tous, aujourd'hui nous allons construire des intervalles de confiance pour les proportions. Souvent, nous rencontrons des processus aléatoires avec deux résultats possibles, tels que pile ou face, oui ou non, ou vrai et faux. Nous voulons tirer des conclusions sur les probabilités de ces résultats sur la base de données d'échantillon.

Pour analyser ces résultats, nous attribuons un résultat comme un succès et l'encodons comme un, tandis que l'autre résultat est un échec et encodé comme zéro. Il est important de noter que les termes "succès" et "échec" sont arbitraires et n'impliquent aucun jugement de valeur sur les résultats.

En encodant la variable de cette manière, nous créons une variable aléatoire discrète, que nous appellerons X. X peut prendre deux valeurs, un et zéro, avec des probabilités p et (1 - p) respectivement. Ici, p représente la probabilité de succès.

Pour ce type de variable aléatoire, nous pouvons calculer des informations récapitulatives. La valeur moyenne ou attendue est la somme de toutes les valeurs possibles de la variable aléatoire pondérées par leurs probabilités respectives. Pour un essai de Bernoulli, la moyenne est égale à p.

L'écart type d'une variable aléatoire est la racine carrée de la somme des carrés des différences entre les valeurs individuelles et la valeur attendue, chacune pondérée par ses probabilités. Pour un essai de Bernoulli, l'écart type est donné par la racine carrée de (p * (1 - p)).

Considérons maintenant l'exécution de n essais de Bernoulli identiques et indépendants, où p reste constant d'un essai à l'autre. La proportion de succès dans ces essais est notée p-hat, qui est égal à (1/n) * sum(xi), où xi est un pour le succès et zéro pour l'échec. En d'autres termes, p-hat est la proportion de succès dans les n essais.

Comme p-hat n'est qu'une moyenne d'échantillon, nous pouvons lui appliquer nos connaissances sur les moyennes d'échantillonnage. La moyenne de p-hat est égale à p, identique à la moyenne d'un essai individuel de Bernoulli. L'écart type de p-hat est égal à la racine carrée de ((p * (1 - p)) / n), qui est l'écart type d'un seul essai de Bernoulli divisé par la racine carrée de n. D'après le théorème central limite, la distribution d'échantillonnage de p-hat est approximativement normale lorsque n est grand, généralement 30 ou plus.

Parlons maintenant des intervalles de confiance. Dans le cas d'une moyenne, la structure de base d'un intervalle de confiance est mu = x-bar +/- z-star * sigma-sub-x-bar. De même, pour une proportion, la formule de l'intervalle de confiance est p = p-hat +/- z-star * sqrt((p-hat * (1 - p-hat)) / n).

Dans la formule de proportion, p-hat représente la proportion expérimentale de succès dans notre échantillon, tandis que p est la probabilité globale de succès que nous essayons d'estimer. La marge d'erreur diminue lorsque p-hat est proche de zéro ou de un, il est donc conseillé de ne pas utiliser cet intervalle de confiance dans de tels cas.

Pour déterminer la taille d'échantillon requise pour une marge d'erreur donnée (e), nous utilisons la formule n = (p-hat * (1 - p-hat) * z-star^2) / epsilon^2. Si nous n'avons pas de données préliminaires, nous pouvons utiliser l'estimation la plus prudente, p-hat = 0,5, qui donne la plus grande taille d'échantillon possible. Dans ce cas, la formule devient n = (z-star^2) / (4 * epsilon^2).

Prenons un exemple. Supposons que nous voulions mener une enquête avec une confiance de 95 % et que la marge d'erreur ne devrait pas dépasser 3 %. Comme nous n'avons pas de données préliminaires, nous utiliserons l'estimation prudente p-hat = 0,5. En insérant les valeurs z-star = 1,96 et epsilon = 0,03 dans la formule, nous obtenons :

n = (1,96^2) / (4 * 0,03^2) ≈ 1067,1

Étant donné que la taille de l'échantillon doit être un nombre entier, nous arrondissons la valeur pour nous assurer que la marge d'erreur ne dépasse pas 3 %. Par conséquent, nous aurions besoin d'un échantillon de 1068 pour cette enquête.

En résumé, la construction d'intervalles de confiance pour les proportions implique d'attribuer des valeurs de réussite et d'échec, de calculer des moyennes d'échantillon et des écarts-types et d'utiliser les formules appropriées pour déterminer les intervalles de confiance. Il est important de considérer les conditions d'utilisation de ces intervalles et d'ajuster la taille de l'échantillon en fonction de la marge d'erreur souhaitée.

Confidence Intervals for Proportions
Confidence Intervals for Proportions
  • 2020.10.11
  • www.youtube.com
How can we estimate a population proportion using only a sample proportion? Using a confidence interval, of course! If this vid helps you, please help me a t...
 

Intervalles de confiance pour les proportions : exemples


Intervalles de confiance pour les proportions : exemples

Aujourd'hui, nous allons travailler sur deux exemples de problèmes qui impliquent la construction d'intervalles de confiance pour des proportions. Plongeons dans les problèmes :

Problème 1 : Une enquête auprès de 275 adultes américains sélectionnés au hasard révèle que 29 d'entre eux boivent du café. Nous devons construire un intervalle de confiance à 90 % pour la proportion de tous les adultes américains qui boivent du café.

En utilisant la formule d'un intervalle de confiance pour les proportions : p = p̂ ± z √(p̂(1 - p̂)/n), où p̂ est la proportion de l'échantillon, n est la taille de l'échantillon et z est la valeur z critique correspondant à le niveau de confiance souhaité.

Étant donné p̂ = 29/275 = 0,1055, n = 275 et z* = 1,645 (pour un niveau de confiance de 90 %), nous pouvons ajouter ces valeurs :

p = 0,1055 ± 1,645 * √((0,1055 * (1 - 0,1055))/275)

En calculant cette expression, nous constatons que l'intervalle de confiance pour la proportion d'adultes américains qui boivent du café est d'environ 0,1055 ± 0,045. Ainsi, nous pouvons estimer avec une confiance de 90 % que la vraie proportion tombe dans l'intervalle (0,0605, 0,1505).

Problème 2 : Un chercheur veut étudier la consommation de thé en Amérique et doit déterminer la taille de l'échantillon nécessaire pour garantir une marge d'erreur ne dépassant pas 4 %.

En utilisant la formule de la marge d'erreur dans un intervalle de confiance pour les proportions : e = z*√(p̂(1 - p̂)/n), nous pouvons la réorganiser pour résoudre la taille de l'échantillon :

n = (z*^2 * p̂(1 - p̂)) / e^2.

Dans ce cas, nous n'avons pas de données préliminaires, nous utilisons donc l'estimation la plus prudente pour p̂, qui est de 0,5 (indiquant une variabilité maximale). Étant donné z* = 1,645 (pour un niveau de confiance de 90 %) et e = 0,04, nous pouvons substituer ces valeurs dans la formule :

n = (1,645^2 * 0,5(1 - 0,5)) / 0,04^2

En simplifiant l'expression, nous constatons que la taille d'échantillon minimale requise est d'environ 257,03. Étant donné que la taille de l'échantillon doit être un nombre entier, nous arrondissons pour nous assurer que la marge d'erreur souhaitée n'est pas dépassée. Par conséquent, une taille d'échantillon de 258 est nécessaire pour garantir une marge d'erreur ne dépassant pas 4 %.

En résumé, la construction d'intervalles de confiance pour les proportions implique l'utilisation de formules qui intègrent des proportions d'échantillon, des tailles d'échantillon et des valeurs critiques. En appliquant ces formules, nous pouvons estimer les proportions de la population dans un niveau de confiance spécifié et déterminer la taille de l'échantillon nécessaire pour atteindre une marge d'erreur souhaitée.

Confidence Intervals for Proportions: Examples
Confidence Intervals for Proportions: Examples
  • 2020.10.12
  • www.youtube.com
Constructing a confidence interval for a population proportion using sample data, and planning the sample size of a study. Awesome! If this vid helps you, pl...
 

Introduction aux tests d'hypothèses


Introduction aux tests d'hypothèses

Bonjour à tous, dans la session d'aujourd'hui, nous allons nous plonger dans les tests d'hypothèses, également appelés tests de signification. Pour mieux appréhender le concept, nous allons travailler ensemble sur un exemple. Commençons.

Supposons qu'un fabricant de chocolat affirme que ses tablettes de chocolat pèsent en moyenne 350 grammes. Cependant, je soupçonne que leur affirmation est exagérée et que le véritable poids moyen de leurs barres de chocolat est inférieur à 350 grammes. Pour étudier cela, je prélève un échantillon de 10 barres de chocolat et j'enregistre leurs poids. Si la moyenne de l'échantillon est inférieure à 350 grammes, cela fournira des preuves contre la réclamation de l'entreprise. S'il est égal ou supérieur à 350 grammes, il ne contestera pas leur affirmation.

Supposons que mon échantillon donne un poids moyen de 347 grammes, ce qui est inférieur à 350 grammes. Par conséquent, ce résultat conforte mes soupçons et remet en cause l'affirmation de l'entreprise. Cependant, la société pourrait faire valoir que mon échantillon aurait pu être léger au hasard, et si je devais prélever un autre échantillon, il pourrait donner exactement 350 grammes ou même plus en raison du hasard. Il me faut donc une méthode pour trancher entre ces deux possibilités : l'entreprise ment ou le résultat étant dû au hasard.

Dans une telle situation, le mieux que nous puissions faire est de faire une déclaration de probabilité concernant la réclamation de l'entreprise. Nous voulons déterminer la probabilité que, si l'entreprise dit vrai, nous obtenions une moyenne d'échantillon aussi faible que celle que nous avons observée purement par hasard. Une probabilité plus faible indique une preuve plus solide contre la réclamation de l'entreprise.

Pour procéder mathématiquement, supposons l'hypothèse nulle, notée H0, qui correspond à l'affirmation de l'entreprise. Dans ce cas, l'hypothèse nulle stipule que la moyenne de la population de toutes les barres de chocolat est exactement de 350 grammes. D'autre part, nous avons l'hypothèse alternative, notée Ha, qui représente ce que nous cherchons à établir. Dans ce cas, Ha affirme que le poids moyen de toutes les tablettes de chocolat est inférieur à 350 grammes (Ha : μ < 350).

Il est important de noter que H0 et Ha font référence à des paramètres de population, et non à la moyenne de l'échantillon (barre x). Nous n'avons pas encore mentionné la barre x car nous l'utiliserons pour prendre une décision entre H0 et Ha.

Pour calculer la probabilité, nous devons considérer la distribution d'échantillonnage de la barre x. Nous supposons que l'hypothèse nulle est vraie et envisageons d'obtenir plusieurs échantillons de taille 10. À quoi ressemble la distribution de la barre x ? Alors que les barres de chocolat individuelles peuvent varier en poids, le poids moyen (x-bar) s'alignera, en moyenne, sur la moyenne de la population (μ).

Le théorème central limite nous aide en outre à comprendre la distribution d'échantillonnage. Pour une taille d'échantillon suffisamment grande (souvent n > 30), la distribution d'échantillonnage de la barre x se rapproche d'une distribution normale avec une moyenne μ et un écart type σ/√n. Si la distribution de la population elle-même est normale, l'approximation est exacte et la distribution de la barre x est précisément normale.

Imaginez la courbe bleue représentant des barres de chocolat individuelles, où il y a un poids moyen de 350 grammes sous l'hypothèse nulle. Certaines barres peuvent être légèrement plus lourdes ou plus légères, et quelques-unes peuvent s'écarter considérablement. Visualisez maintenant la courbe verte, qui représente la distribution d'échantillonnage de la barre x. En moyenne, la barre x sera de 350 grammes si l'hypothèse nulle est vraie, avec quelques légères variations. Cependant, la variabilité de la barre x sera moindre par rapport aux barres individuelles car les poids extrêmes ont tendance à s'équilibrer dans un échantillon.

Supposons que nous connaissions l'écart type des barres de chocolat, qui est de 4 grammes. Bien que ce ne soit pas une valeur que nous connaissons généralement, nous en parlerons dans les prochaines vidéos. Avec l'hypothèse nulle de μ = 350 grammes et le théorème central limite, nous avons toutes les informations nécessaires sur la distribution d'échantillonnage de x-bar. Il suivra une distribution normale avec une moyenne de 350 grammes et un écart type de 4 grammes divisé par la racine carrée de 10 (puisque la taille de l'échantillon est de 10), soit environ 1,26 gramme.

Pour calculer la probabilité d'obtenir une moyenne d'échantillon (barre x) inférieure ou égale à 347 grammes uniquement par hasard, nous pouvons calculer un score z. La probabilité que la barre x soit inférieure ou égale à 347 grammes est égale à la probabilité que le score z correspondant soit inférieur ou égal à (347 - 350) / 1,26, qui se simplifie en -2,37.

À l'aide d'un logiciel statistique ou d'un tableau, nous constatons que la probabilité qu'une distribution normale standard soit inférieure ou égale à -2,37 est d'environ 0,0089. Cette probabilité est appelée la valeur p.

Maintenant, discutons de l'interprétation de la valeur p. Dans ce cas, la valeur p de 0,0089 est relativement faible. La valeur p représente la probabilité d'obtenir une moyenne d'échantillon de 347 grammes ou moins si l'hypothèse nulle (μ = 350 grammes) est vraie. Une petite valeur de p suggère qu'il est peu probable d'observer une moyenne d'échantillon aussi faible si l'hypothèse nulle est vraie.

Il y a deux possibilités à considérer : premièrement, il est possible que l'hypothèse nulle soit vraie, et nous avons observé un événement rare (moyenne d'échantillon de 347 grammes ou moins) par hasard, qui se produit environ 0,0089 fois. Deuxièmement, il est possible que l'hypothèse nulle soit fausse (comme nous le soupçonnions initialement) et que l'hypothèse alternative (μ < 350 grammes) soit vraie.

Étant donné que la valeur p de 0,0089 est assez faible, la première possibilité semble peu probable. Par conséquent, nous rejetons l'hypothèse nulle (H0 : μ = 350 grammes) et soutenons l'hypothèse alternative (Ha : μ < 350 grammes). Cela nous amène à conclure qu'il existe des preuves solides suggérant que le poids moyen de la population des barres de chocolat produites par cette société est en effet inférieur à 350 grammes.

En conclusion, nous avons couvert les étapes de base de la réalisation d'un test d'hypothèse. Cependant, il y a des questions supplémentaires que nous n'avons pas encore abordées, telles que la détermination du seuil pour une valeur de p suffisamment petite, l'examen d'hypothèses alternatives et le traitement des situations où les paramètres de la population sont inconnus. Dans de futures vidéos, nous explorerons ces questions et fournirons des informations supplémentaires sur les tests d'hypothèses.

Introduction to Hypothesis Testing
Introduction to Hypothesis Testing
  • 2020.10.29
  • www.youtube.com
Let's talk about hypothesis testing (also known as significance testing). How can we test a claim about a population using just sample data? What is a p-valu...
 

Signification statistique


Signification statistique

Bonne journée tout le monde! Aujourd'hui, nous allons approfondir le concept de test d'hypothèse et discuter de l'idée de signification statistique. Les tests d'hypothèses se présentent sous diverses formes, les plus courantes étant le test z et le test t pour les moyennes de population. Néanmoins, la logique fondamentale reste la même.

Premièrement, nous supposons que l'hypothèse nulle est vraie. Ensuite, nous rassemblons un échantillon de données et calculons la probabilité d'obtenir un échantillon similaire purement par hasard, en supposant que l'hypothèse nulle est correcte. Cette probabilité est connue sous le nom de valeur p du test. Une valeur de p inférieure indique une preuve plus solide contre l'hypothèse nulle.

Cependant, dans la plupart des cas, la simple comparaison des valeurs de p peut ne pas être suffisante pour prendre une décision définitive. Ainsi, il est souvent utile d'établir une valeur p seuil prédéterminée, connue sous le nom de niveau de signification alpha, avant d'effectuer le test d'hypothèse. Généralement, alpha est fixé à 0,05, bien qu'il puisse varier.

Lorsque nous rejetons l'hypothèse nulle basée sur une valeur de p inférieure à alpha, nous considérons que les résultats sont statistiquement significatifs. En d'autres termes, les preuves appuient l'hypothèse alternative. Explorons maintenant quelques exemples pour illustrer ces concepts.

Exemple 1 : Un fabricant de chocolat affirme que le poids moyen de ses tablettes de chocolat est de 350 grammes. Cependant, nous soupçonnons que le véritable poids moyen est inférieur. Nous avons mis en place un test de signification en énonçant une hypothèse nulle selon laquelle l'affirmation de l'entreprise est vraie et une hypothèse alternative selon laquelle le poids moyen est inférieur à 350 grammes. Nous décidons à l'avance d'utiliser un niveau de signification d'alpha égal à 0,05.

Après avoir collecté un échantillon de taille 10 et calculé une moyenne d'échantillon de 347 grammes, nous déterminons la probabilité d'obtenir des résultats aussi extrêmes que celui-ci, en supposant que l'hypothèse nulle est vraie. Il en résulte une valeur p de 0,0089. Puisque cette valeur p est inférieure à 0,05, nous rejetons l'hypothèse nulle et concluons que le poids moyen des tablettes de chocolat de l'entreprise est bien inférieur à 350 grammes.

Exemple 2 : Des chercheurs en médecine mènent une étude pour tester l'efficacité d'un nouveau médicament amaigrissant. Ils choisissent un niveau de signification d'alpha égal à 0,01. L'hypothèse nulle indique que la perte de poids moyenne par rapport à un placebo est nulle, tandis que l'hypothèse alternative suggère une perte de poids moyenne positive. Après analyse des données, ils obtiennent une p-value de 0,045. Comme la valeur de p est supérieure au niveau de signification choisi de 0,01, ils ne peuvent pas rejeter l'hypothèse nulle. Par conséquent, il n'y a pas suffisamment de preuves pour conclure que le traitement est supérieur au placebo en moyenne.

Il est important de noter que la conclusion aurait pu être différente s'ils avaient plutôt choisi un niveau de signification d'alpha égal à 0,05. Cela met en évidence un écueil potentiel des tests de signification et de l'utilisation de seuils alpha. S'appuyer aveuglément sur des tests d'hypothèses pour prendre des décisions peut être risqué. Indiquez toujours la valeur p à côté de toute décision prise en fonction du niveau de signification alpha. De plus, soyez prudent lorsque vous interprétez les valeurs p et tenez compte de divers facteurs, comme je le verrai dans la prochaine vidéo.

Statistical Significance
Statistical Significance
  • 2020.10.30
  • www.youtube.com
Let's talk about statistical significance! What's up with alpha anyway?? If this vid helps you, please help me a tiny bit by mashing that 'like' button. For ...
 

Test d'hypothèse : alternatives unilatérales et bilatérales


Test d'hypothèse : alternatives unilatérales et bilatérales

Dans la discussion d'aujourd'hui, nous approfondirons le concept de test d'hypothèse, en nous concentrant spécifiquement sur les hypothèses alternatives unilatérales et bilatérales. Commençons par revoir la structure fondamentale d'un test d'hypothèse pour la moyenne.

La première étape consiste à identifier l'hypothèse nulle, notée H₀. Cette déclaration se rapporte à la moyenne de la population et représente l'affirmation contre laquelle nous visons à recueillir des preuves. Ensuite, nous établissons une hypothèse alternative, notée Hₐ, qui contredit l'hypothèse nulle et représente typiquement l'hypothèse que nous cherchons à établir. La notion derrière ce processus est qu'en accumulant des preuves contre l'hypothèse nulle, nous accumulons indirectement des preuves en faveur de l'hypothèse alternative.

Par la suite, nous recueillons des données et calculons une moyenne d'échantillon, notée x̄. À partir de là, nous déterminons la probabilité (valeur de p) d'obtenir une moyenne d'échantillon aussi extrême que celle que nous avons observée, en supposant que l'hypothèse nulle est vraie. La valeur p signifie la force des preuves contre l'hypothèse nulle, les valeurs inférieures indiquant des preuves plus solides en faveur de l'hypothèse alternative. Souvent, nous concluons le test d'hypothèse en comparant la valeur de p à un seuil prédéterminé, appelé alpha, qui indique le niveau de signification du test. Si la valeur de p est inférieure à alpha, nous rejetons l'hypothèse nulle. Il est crucial de noter que le niveau de signification alpha doit être choisi avant la collecte des données.

Maintenant, explorons plus en détail les hypothèses alternatives. Dans la discussion précédente, nous avons indiqué que l'hypothèse alternative est choisie pour contredire l'hypothèse nulle. Même pour une simple hypothèse nulle où mu est égal à mu₀, où mu₀ représente une valeur hypothétique, il existe trois hypothèses alternatives potentielles :

  1. mu < mu₀ : Cette hypothèse alternative affirme que la moyenne de la population, mu, est inférieure à la valeur hypothétique, mu₀.
  2. mu > mu₀ : cette hypothèse alternative suggère que la moyenne de la population, mu, est supérieure à la valeur hypothétique, mu₀.
  3. mu ≠ mu₀ : cette hypothèse alternative ne fait aucune hypothèse concernant la valeur spécifique de mu.

Les deux premières hypothèses alternatives sont appelées alternatives unilatérales en raison de leur concentration sur une direction spécifique, tandis que la troisième alternative est connue sous le nom d'hypothèse alternative bilatérale. Chacune de ces alternatives contredit l'hypothèse nulle de manière légèrement différente.

Lors de la réalisation d'un test d'hypothèse pour la moyenne, le choix entre ces options dépend de considérations du monde réel. En règle générale, il est conseillé de sélectionner l'hypothèse alternative bilatérale à moins qu'il n'y ait une raison spécifique, fondée sur des facteurs réels, de supposer que la moyenne de la population ne peut pas ou ne doit pas être supérieure ou inférieure à la valeur fournie par le hypothèse nulle, mu₀.

Pour améliorer notre compréhension, procédons avec quelques exemples. Le premier exemple concerne une entreprise de confiserie affirmant que le poids moyen de ses tablettes de chocolat est de 350 grammes. Si nous soupçonnons que le poids moyen est en fait inférieur, l'hypothèse nulle serait l'affirmation de l'entreprise, tandis que l'hypothèse alternative serait mu < 350 grammes. Dans ce cas, nous nous intéressons uniquement à la possibilité que le poids moyen des tablettes de chocolat soit inférieur à 350 grammes.

Dans le deuxième exemple, un manuel pédagogique affirme qu'un exercice spécifique prend en moyenne 30 minutes. L'hypothèse nulle serait l'affirmation du manuel, mu = 30, et l'hypothèse alternative serait mu ≠ 30. Ici, nous n'avons aucune raison justifiable d'exclure ou d'ignorer la possibilité que mu soit inférieur ou supérieur à 30.

Dans le troisième exemple, une entreprise de vidange d'huile affirme qu'en moyenne, elle effectue une vidange d'huile en 15 minutes. Supposons que nous soupçonnions que le temps réel est plus long.

Si la valeur de p est inférieure ou égale au niveau de signification (alpha), nous rejetons l'hypothèse nulle. Cela signifie que les données fournissent des preuves solides contre l'hypothèse nulle et soutiennent l'hypothèse alternative. En revanche, si la valeur de p est supérieure au seuil de signification, nous ne rejetons pas l'hypothèse nulle. Dans ce cas, les données ne fournissent pas suffisamment de preuves pour rejeter l'hypothèse nulle, et nous n'avons pas suffisamment de preuves pour l'hypothèse alternative.

Il est important de noter que le fait de ne pas rejeter l'hypothèse nulle ne signifie pas nécessairement que l'hypothèse nulle est vraie. Cela signifie simplement que les données ne fournissent pas de preuves significatives pour étayer l'hypothèse alternative. L'absence de preuve contre l'hypothèse nulle ne prouve pas sa véracité.

Le choix entre une hypothèse alternative unilatérale ou bilatérale dépend de la question de recherche spécifique et des hypothèses que vous souhaitez aborder. Si vous souhaitez déterminer si la moyenne de la population est significativement différente d'une valeur spécifique, vous choisirez une hypothèse alternative bilatérale. Cela vous permet de considérer les deux possibilités que la moyenne soit supérieure ou inférieure à la valeur hypothétique.

Cependant, si vous avez une raison spécifique de croire que la moyenne ne peut être que supérieure ou inférieure à la valeur hypothétique, vous pouvez choisir une hypothèse alternative unilatérale. Cela réduit l'objet du test à une seule direction d'écart par rapport à l'hypothèse nulle.

En résumé, le test d'hypothèse implique la formulation d'une hypothèse nulle, qui représente l'énoncé contre lequel vous souhaitez recueillir des preuves, et une hypothèse alternative, qui contredit l'hypothèse nulle. Les données sont collectées et une statistique de test est calculée, telle que la moyenne de l'échantillon. La p-value est ensuite calculée, représentant la probabilité d'obtenir une statistique de test aussi extrême que celle observée, en supposant que l'hypothèse nulle est vraie. Le choix d'une hypothèse alternative unilatérale ou bilatérale dépend de la question de recherche et des hypothèses spécifiques concernant le paramètre de population. Enfin, la valeur de p est comparée au niveau de signification et une décision est prise de rejeter ou non l'hypothèse nulle en fonction des preuves fournies par les données.

Hypothesis Testing: One- and Two-Sided Alternatives
Hypothesis Testing: One- and Two-Sided Alternatives
  • 2020.10.31
  • www.youtube.com
How do we determine the an alternative hypothesis when setting up a hypothesis test? How does our choice affect the way we calculate a p-value?