Tutoriels de programmation - page 17

 

Introduction à la régression linéaire


Introduction à la régression linéaire

Bonjour à tous! Aujourd'hui, nous plongeons dans la régression linéaire. Nous avons examiné des diagrammes de dispersion et discuté de situations où nous observons une relation linéaire entre les variables. En d'autres termes, à mesure que la variable X augmente, la variable Y tend à augmenter ou à diminuer à un rythme constant. Nous pouvons discuter de ce phénomène lorsque nous avons une relation étroite, comme indiqué sur le côté gauche du graphique, ainsi que lorsque la relation est plus dispersée, comme on le voit sur le côté droit.

Pour analyser cette relation linéaire, nous pouvons tracer une ligne sur le nuage de points de manière intelligente. Cette droite est connue sous le nom de droite de meilleur ajustement ou droite de régression. Passons maintenant aux aspects mathématiques de la régression linéaire. L'idée clé implique la notion de résidus. Nous plaçons une ligne sur nos données et choisissons une valeur X spécifique. Ensuite, nous calculons la différence entre la valeur Y réelle dans l'ensemble de données et la valeur Y prévue sur la ligne. Cette différence est appelée le résidu, représentant l'écart entre les hauteurs réelles et prévues. En calculant les résidus pour chaque point de notre ensemble de données, en les mettant au carré et en les additionnant, nous obtenons une quantité qui peut être minimisée.

En utilisant le calcul, nous pouvons minimiser cette quantité et dériver l'équation de la droite de régression des moindres carrés. Il s'avère que cette ligne passe par le point (barre X, barre Y), où la barre X est la moyenne de l'échantillon pour les valeurs X, et la barre Y est la moyenne de l'échantillon pour les valeurs Y. La pente de la droite de régression des moindres carrés est donnée par r × (sy / SX), où r est le coefficient de corrélation, sy est l'écart type des valeurs Y et SX est l'écart type des valeurs X. En résumé, l'équation de la ligne de régression des moindres carrés est fournie au bas de la diapositive.

Le calcul manuel de ces valeurs peut être fastidieux. Pour simplifier le processus, il est fortement recommandé d'utiliser une technologie ou un logiciel. Considérons les données correspondant au nuage de points présenté dans une diapositive précédente. En calculant les moyennes et les écarts-types, nous constatons que la barre X est de 5,4, la barre Y est de 2,4, etc. Le coefficient de corrélation est d'environ 0,34, indiquant une corrélation positive modérée à faible. En branchant ces valeurs, on obtient l'équation de la droite de régression des moindres carrés : 0,19x + 1,34.

Je dois souligner que l'exécution de ces calculs à la main peut être fastidieuse. L'utilisation de la technologie est une approche beaucoup plus efficace. Voici un exemple de ce à quoi ressemble la ligne de régression des moindres carrés pour ces données. Il semble être un ajustement raisonnable aux points de données.

Introduction to Linear Regression
Introduction to Linear Regression
  • 2020.04.17
  • www.youtube.com
Drawing a line of best fit over a scatterplot. So easy and fun! If this vid helps you, please help me a tiny bit by mashing that 'like' button. For more stat...
 

Nuages de points et lignes de régression dans R


Nuages de points et lignes de régression dans R

Bonjour à tous! Dans ce guide de démarrage rapide, je vais vous montrer comment créer de superbes graphismes à l'aide du package ggplot2 dans RStudio. Cette discussion convient aux débutants au premier niveau des statistiques. Bien qu'il existe des méthodes plus puissantes et sophistiquées, je me concentrerai sur les approches les plus intuitives et les plus simples. Nous allons travailler avec un sous-ensemble de l'ensemble de données d'iris, en particulier 50 lignes correspondant à la fleur de virginica. Notre objectif est de créer un nuage de points de la longueur des sépales par rapport à la largeur des sépales.

Avant de commencer, assurez-vous de charger le package tidyverse ou sa famille de packages. Si vous ne l'avez pas encore installé, utilisez la commande "install.packages('tidyverse')". Si des erreurs se produisent lors de l'installation, il est recommandé de rechercher des solutions en ligne. Une fois le paquet chargé, nous sommes prêts à continuer.

Pour créer un nuage de points, nous utiliserons la syntaxe de base "qplot". Tout d'abord, spécifiez la valeur x, qui est "virginica$sepal_length" pour l'axe horizontal, où "virginica" est l'ensemble de données et "sepal_length" est le nom de la colonne. Ensuite, indiquez la valeur y comme "virginica$sepal_width" pour l'axe vertical. Ensuite, nous devons définir comment les données doivent être affichées. Pour un nuage de points, nous utilisons "geom = 'point'". Assurez-vous que vous épelez "point" correctement. Cela générera un nuage de points de base.

Améliorons le tracé en ajustant les étiquettes des axes et en explorant les options de personnalisation telles que la modification des couleurs et des tailles de points. Pour modifier l'étiquette de l'axe des abscisses, utilisez "xlab = 'sepal length'". De même, définissez "ylab = 'sepal width'" pour modifier l'étiquette de l'axe des ordonnées. Pour modifier la couleur du point, ajoutez "color = 'darkred'". Notez que la syntaxe pour spécifier la couleur est un peu particulière en raison de la sophistication de R.

Maintenant que les étiquettes et la couleur des points ont été ajustées, vous pouvez expérimenter davantage. Par exemple, vous pouvez modifier la taille en points en utilisant "taille = ...". De plus, vous pouvez ajouter un titre principal à l'intrigue. Je vous encourage à explorer davantage les fonctionnalités de "qplot" en utilisant "?qplot" ou en effectuant une recherche en ligne.

Allons un peu plus loin et ajoutons une ligne de régression. L'un des avantages de ggplot2 et du tidyverse est que vous pouvez ajouter des couches à votre tracé en étendant simplement la commande existante. Commencez avec la commande "qplot" que nous avons créée précédemment, et ajoutez maintenant "geom_smooth()". Cela générera une ligne ajustée. Puisque nous nous intéressons à la régression linéaire, spécifiez "method = 'lm'" pour utiliser le modèle linéaire. Il est recommandé d'inclure cet argument, en particulier dans les cours d'introduction aux statistiques.

Si vous souhaitez modifier la couleur de la ligne de régression, vous pouvez inclure "color = 'darkgray'" dans la commande "geom_smooth()". Cela se traduira par une couleur différente.

Enfin, abordons la question de savoir ce qui se passe si nous supprimons "se = FALSE". Sans cet argument, R affichera un ruban d'erreur. En gros, ce ruban représente un intervalle de confiance. Si nous devions représenter graphiquement toutes les parcelles de l'ensemble de données à partir desquelles ces 50 observations ont été échantillonnées, nous nous attendrions à ce que la ligne de régression se situe dans ce ruban d'erreur, fournissant une mesure approximative de l'incertitude.

Scatterplots and Regression Lines in R
Scatterplots and Regression Lines in R
  • 2020.04.17
  • www.youtube.com
A quickstart guide to making scatterplots in R using the qplot() command. So easy! So much fun! If this vid helps you, please help me a tiny bit by mashing t...
 

Utiliser des droites de régression pour faire des prédictions


Utiliser des droites de régression pour faire des prédictions

Bonjour à tous! Aujourd'hui, nous allons approfondir les lignes de régression. Nous allons explorer comment les utiliser pour faire des prédictions, discuter des erreurs de prédiction et comprendre quand il est inapproprié de les utiliser pour des prédictions. Commençons!

Vous reconnaîtrez peut-être cet exemple dans ma vidéo précédente. Nous avons un petit ensemble de données avec cinq valeurs, et j'ai tracé une ligne de meilleur ajustement : Ŷ = 0,19X + 1,34. Considérons maintenant une nouvelle valeur d'entrée, x = 6. En utilisant l'équation de régression, nous pouvons prédire la valeur y correspondante. Dans ce cas, la prédiction est de 2,54. Nous pouvons tracer cette valeur prédite sur la ligne sous la forme d'un point bleu à (6, 2,54).

Parfois, nous faisons des prédictions lorsque nous avons une valeur x qui correspond à une valeur y dans l'ensemble de données. Par exemple, à x = 3, nous avons le point (3, 1). Dans ce cas, de quel type d'erreur parlons-nous ? Nous l'appelons le résiduel. Le résidu pour un point de données est la différence entre la valeur y réelle à ce point et la valeur y prédite par la droite de régression. À x = 3, la valeur y réelle est 1 et la valeur y prédite est 1,97, ce qui donne un résidu de -0,97. Cela signifie que le point (3, 1) se situe à environ 0,97 unité sous la ligne de régression.

Lorsque vous utilisez des droites de régression pour faire des prédictions, il est crucial de prendre en compte la plage de l'ensemble de données. Nous ne devrions faire des prédictions que pour les valeurs x qui se situent dans la plage ou une extension raisonnable de l'ensemble de données. Un exemple classique est l'âge par rapport au poids. Comme le montre le graphique, il existe une relation linéaire pour les personnes de moins de 12 ans environ. Dans cette fourchette, nous pouvons faire des prédictions de poids raisonnablement précises en fonction de l'âge en utilisant la relation linéaire. C'est ce qu'on appelle l'interpolation, où nous prévoyons des valeurs dans la plage de l'ensemble de données.

Cependant, il serait erroné d'utiliser cette relation linéaire pour faire des prédictions en dehors de cette fourchette, comme pour un individu de quarante ans. Si nous devions appliquer la relation linéaire pour prédire leur poids, le résultat serait supérieur à trois cent quarante livres, ce qui est clairement irréaliste. C'est ce qu'on appelle l'extrapolation, et il faut l'éviter.

En résumé, lors de l'utilisation de droites de régression, il est essentiel de comprendre les erreurs de prédiction et les limites. Les valeurs résiduelles nous aident à quantifier les écarts entre les valeurs réelles et prédites. Nous ne devrions faire des prédictions que dans la plage de l'ensemble de données ou une extension raisonnable de celui-ci. L'extrapolation, qui implique de prédire des valeurs en dehors de la plage de l'ensemble de données, peut conduire à des résultats inexacts et peu fiables.

Using Regression Lines to Make Predictions
Using Regression Lines to Make Predictions
  • 2020.04.18
  • www.youtube.com
Also discussed: residuals, interpolation and extrapolation. All the good stuff! If this vid helps you, please help me a tiny bit by mashing that 'like' butto...
 

Régression et prédiction dans R à l'aide de la commande lm()


Régression et prédiction dans R à l'aide de la commande lm()

Bonjour à tous! Aujourd'hui, nous allons calculer les lignes de régression dans R à l'aide de l'ensemble de données intégré "cars". Pour commencer, examinons l'ensemble de données et recueillons des informations à son sujet à l'aide des commandes "afficher" et "point d'interrogation". L'ensemble de données "voitures" se compose de 50 entrées représentant les vitesses et les distances d'arrêt des voitures des années 1920. Bien qu'il ne s'agisse pas de données récentes, nous pouvons toujours explorer des relations linéaires.

Pour visualiser les données, nous allons utiliser le package "ggplot2" de la bibliothèque "tidyverse". Assurez-vous de charger le package à l'aide de la commande "library(tidyverse)". Si vous n'avez pas encore installé le package "tidyverse", vous pouvez le faire avec la commande "install.packages('tidyverse')".

Ensuite, nous allons créer un nuage de points des données à l'aide de la commande "qplot". Nous tracerons la vitesse sur l'axe des x (variable explicative) et la distance sur l'axe des y (variable de réponse). Pour indiquer que nous travaillons avec le jeu de données "cars" et que nous voulons un nuage de points, nous utiliserons "geom='point'". Le graphique révèle une relation principalement linéaire, suggérant qu'il est raisonnable d'effectuer une régression linéaire.

Pour ajouter une ligne de régression au tracé, nous utiliserons "geom_smooth(method = 'lm', se = FALSE)". Cela spécifie un lissage de régression linéaire sans la barre d'erreur standard.

Maintenant, déterminons l'équation de la droite de régression. Nous utiliserons la commande "lm", qui signifie modèle linéaire. La syntaxe suit un modèle "y ~ x", où la variable de réponse (distance) est liée à la variable explicative (vitesse). Nous assignerons le résultat à une variable appelée "modèle". En saisissant "résumé (modèle)", nous pouvons obtenir des informations supplémentaires sur la ligne de régression, y compris les coefficients, les résidus et les mesures statistiques comme le R-carré multiple et le R-carré ajusté.

Si nous voulons accéder à des informations spécifiques à partir de l'objet "modèle", nous pouvons le traiter comme un bloc de données et utiliser "$" pour extraire les colonnes souhaitées. Par exemple, "model$residuals" donne un vecteur des 50 résidus.

Nous pouvons même ajouter les résidus et les valeurs ajustées en tant que nouvelles colonnes à l'ensemble de données "cars" d'origine en utilisant respectivement "cars$residuals" et "cars$predicted".

Enfin, utilisons la fonction "predict" pour obtenir des prédictions de vitesses non présentes dans l'ensemble de données. Nous allons fournir le "modèle" comme premier argument et créer un bloc de données avec une colonne nommée "vitesse" (correspondant à la variable explicative). En utilisant la fonction "data.frame", nous allons saisir les valeurs de vitesse souhaitées. Par exemple, nous pouvons prédire les distances d'arrêt pour des vitesses telles que 12,5, 15,5 et 17. Les valeurs prédites seront affichées.

Regression and Prediction in R Using the lm() Command
Regression and Prediction in R Using the lm() Command
  • 2021.02.24
  • www.youtube.com
Let's learn about the lm() and predict() functions in R, which let us create and use linear models for data. If this vid helps you, please help me a tiny bit...
 

Parcelles résiduelles en R


Parcelles résiduelles en R

Bonjour à tous, dans la vidéo d'aujourd'hui, nous allons explorer les tracés résiduels dans R à l'aide de la commande qplot. J'utiliserai principalement les fonctions de base R dans ce didacticiel. Je travaille également sur une autre vidéo sur le package balai, qui est un moyen standard d'effectuer des tâches dans R. Je fournirai un lien vers cette vidéo une fois qu'elle sera prête.

Dans ce didacticiel, nous nous concentrerons sur les variables "vent" et "temp" de l'ensemble de données intégré sur la qualité de l'air dans R. Cet ensemble de données contient des mesures quotidiennes de la qualité de l'air à New York de mai à septembre 1973.

Pour commencer, chargeons le package tidyverse. Bien que nous n'utilisions que la fonction qplot, chargeons l'ensemble du package pour plus de cohérence.

Avant de plonger dans la modélisation, il est essentiel de visualiser nos données. Créons un qplot en définissant "wind" comme variable explicative (air_quality$wind) et "temp" comme variable de réponse (air_quality$temp). Puisque nous avons deux variables, R sera par défaut un nuage de points.

En examinant le graphique, nous pouvons observer une relation linéaire entre les deux variables, même si elle n'est pas particulièrement forte. Pour quantifier cette relation, calculons le coefficient de corrélation à l'aide de la fonction cor. Le coefficient de corrélation résultant est de -0,458, indiquant une corrélation négative.

Maintenant que nous avons établi une relation linéaire, nous pouvons ajouter une ligne de régression au tracé. Nous allons modifier la commande qplot en incluant la fonction geom_smooth avec method = "lm" pour indiquer un modèle linéaire. Excluons le ruban d'erreur pour plus de simplicité.

Avec la droite de régression ajoutée, nous pouvons procéder à la construction d'un modèle linéaire et obtenir l'équation de la droite de régression. Attribuons le modèle linéaire à une variable appelée "modèle" à l'aide de la fonction lm. Nous spécifierons "temp" comme variable de réponse et "wind" comme variable explicative. Il est important de mentionner explicitement le nom de la trame de données.

Pour mieux comprendre le modèle, nous pouvons utiliser la fonction de résumé pour obtenir un résumé du modèle. Le résumé fournit diverses informations, notamment l'ordonnée à l'origine (90,1349) et le coefficient de la pente (-1,23). L'interprétation du coefficient de pente est que pour chaque unité d'augmentation du vent, la température diminue d'environ 1,23 unité. La vérification du fichier d'aide fournira des informations sur les unités utilisées, telles que le vent en miles par heure et la température en degrés Fahrenheit.

Nous pouvons accéder directement aux coefficients à l'aide de la fonction coefficients, qui renvoie l'interception et le coefficient de vent du modèle. De plus, nous pouvons obtenir les valeurs ajustées à l'aide de la fonction fit.values, qui nous fournit un vecteur de températures prévues pour chaque valeur de vent. Nous pouvons l'ajouter en tant que nouvelle colonne, "prédite", au bloc de données sur la qualité de l'air.

De même, nous pouvons obtenir les résidus en utilisant la fonction des résidus, qui nous donne les différences entre les valeurs observées et prédites. L'ajout des résidus dans une autre colonne, "résidus", au bloc de données complète notre exploration. Nous pouvons visualiser à nouveau le bloc de données pour confirmer la présence des nouvelles colonnes.

Pour évaluer la relation entre les valeurs ajustées et les résidus, nous pouvons créer un graphique des résidus. Dans la commande qplot, nous allons définir les valeurs ajustées comme variable de l'axe des x (fitted.values(model)) et les résidus comme variable de l'axe des y (residuals(model)). Un nuage de points sera généré comme spécifié dans les arguments qplot.

Le but du graphique des résidus est d'identifier tout modèle ou tendance dans les résidus. Dans un modèle linéaire valide à variance constante, le tracé doit ressembler à un nuage sans aucun motif perceptible. L'ajout d'une ligne de régression avec geom_smooth et method = "lm" aidera à vérifier cela. Nous définirons également se = FALSE pour supprimer la barre d'erreur standard.

En examinant le graphique des résidus, nous pouvons voir qu'il n'y a pas de modèle ou de tendance perceptible, ce qui indique que notre modèle capture la relation linéaire de manière adéquate. La droite de régression, représentée par y = 0, confirme cette observation.

Cela conclut notre didacticiel sur la création de tracés résiduels dans R à l'aide de la commande qplot. En visualisant et en analysant les résidus, nous pouvons évaluer la qualité de l'ajustement et la pertinence de notre modèle linéaire. N'oubliez pas qu'il existe plusieurs façons d'obtenir les mêmes résultats dans R, et l'exploration de différentes syntaxes et fonctions peut améliorer votre compréhension du langage.

Residual Plots in R
Residual Plots in R
  • 2021.08.11
  • www.youtube.com
It's easy to make beautiful residual plots in R with ggplot. Let's go!If this vid helps you, please help me a tiny bit by mashing that 'like' button. For mor...
 

Valeurs aberrantes : effet de levier, écart et influence


Valeurs aberrantes : effet de levier, écart et influence

Bonjour à tous! Aujourd'hui, nous allons nous plonger dans les concepts d'effet de levier, d'écart et d'influence dans le contexte de la régression linéaire. Bien que je me concentre sur le scénario avec une seule variable explicative, veuillez noter que tout ce qui est discuté ici s'applique également directement aux dimensions supérieures.

Dans un ensemble de données à deux variables, les observations individuelles peuvent présenter des caractéristiques inhabituelles dans leurs valeurs x, leurs valeurs y ou les deux. Lorsque nous utilisons le terme « valeur aberrante », nous nous référons spécifiquement aux observations qui s'écartent considérablement dans la direction y par rapport à la tendance générale des données. Ces valeurs aberrantes sont des points avec un fort écart.

Cependant, dans le langage courant, nous utilisons souvent le terme "aberrant" de manière plus vague. Pour illustrer ce concept, considérons trois ensembles de données, chacun affichant une tendance linéaire avec une observation inhabituelle. Dans les deux premiers graphiques, vous remarquerez un point qui se trouve loin de la ligne de régression, présentant un écart élevé. Dans le troisième cas, la valeur inhabituelle s'aligne assez bien sur la tendance globale des données, de sorte qu'elle ne serait pas considérée comme une valeur aberrante basée uniquement sur l'écart.

Maintenant, concentrons-nous sur l'effet de levier. Les observations avec des valeurs x inhabituelles ont un plus grand potentiel d'impact sur l'ajustement du modèle, et on dit que ces observations ont un effet de levier élevé. En examinant les trois mêmes graphiques du point de vue de l'effet de levier, nous constatons que les deux graphiques les plus à droite contiennent des observations avec un effet de levier élevé. Ces valeurs aberrantes ont des valeurs x qui sont significativement éloignées de la majorité des données. Inversement, le premier graphique présente une valeur aberrante avec un faible effet de levier car sa valeur x s'aligne bien avec les autres valeurs de l'ensemble de données.

Une observation qui modifie considérablement l'ajustement d'un modèle est considérée comme ayant une forte influence. Revenant aux deux premières valeurs aberrantes des graphiques précédents, examinons-les à travers le prisme de l'influence. Dans le premier graphique, on observe une valeur aberrante à faible influence. Si nous supprimons cette valeur de l'ensemble de données, la ligne de régression ne subit pas de changements significatifs. Notamment, la pente reste relativement inchangée. Inversement, dans le graphique le plus à droite, nous voyons une valeur aberrante avec une forte influence. Lors de sa suppression de l'ensemble de données, la ligne de régression subit des changements substantiels. En règle générale, les observations influentes présentent à la fois un écart élevé et un effet de levier élevé.

Bien que tous ces concepts puissent être quantifiés, je ne vais pas entrer dans les détails dans cette vidéo. Cependant, je tiens à vous orienter dans la bonne direction si vous souhaitez approfondir cela. L'écart est souvent mesuré à l'aide de résidus studentisés, qui sont des résidus standardisés qui quantifient l'écart des observations dans la direction y par rapport à la prédiction du modèle. L'effet de levier peut être évalué à l'aide de valeurs chapeau, qui mesurent la distance entre les valeurs x et la valeur x moyenne attendue. Enfin, l'influence est fréquemment quantifiée à l'aide de la distance de Cook.

Heureusement, vous n'avez pas à calculer ces mesures à la main, car R fournit des méthodes pratiques. Le package balai est particulièrement utile à cet égard, et je créerai une vidéo à ce sujet dès que possible.

Outliers: Leverage, Discrepancy, and Influence
Outliers: Leverage, Discrepancy, and Influence
  • 2021.07.14
  • www.youtube.com
How should we think about unusual values in two-variable data sets? How is an unusual x-value different from an unusual y-value? In this vid, we'll learn all...
 

R^2 : le coefficient de détermination


R^2 : le coefficient de détermination

Le sujet d'aujourd'hui est le R au carré, le coefficient de détermination. Il mesure la dispersion des observations autour d'une ligne de régression ou de tout modèle statistique. Il représente la proportion de la variance de la variable de réponse (y) qui peut être attribuée aux changements de la ou des variables explicatives, en particulier dans les cas de dimension supérieure.

Pour les modèles linéaires, le R au carré se situe toujours entre 0 et 1. Les valeurs proches de 1 indiquent que les points de données sont étroitement regroupés autour de la ligne de régression, tandis que les valeurs proches de 0 indiquent une plus grande dispersion.

Pour rendre ce concept plus clair, visualisons trois ensembles de données. Chaque ensemble a une variance de 1 pour les valeurs y, et j'ai tracé la ligne de régression pour chaque cas. À mesure que le R au carré augmente de 0,2 à 0,5 à 0,8, nous observons une répartition de plus en plus étroite des données autour de la ligne de régression.

Passons maintenant à une définition plus précise. Le R au carré est calculé comme la variance des valeurs y ajustées divisée par la variance des valeurs y observées. Algébriquement, cela peut être exprimé comme 1 moins la variance des résidus divisée par la variance des valeurs y observées. D'un point de vue technique, nous pouvons l'écrire ainsi :

R au carré = (variance des résidus) / (variance des valeurs y observées)

Pour simplifier davantage, nous abrégeons souvent cette expression algébrique en R-carré = 1 - (RSS / TSS), où RSS représente la somme résiduelle des carrés et TSS désigne la somme totale des carrés.

Dans un modèle de régression des moindres carrés avec une seule variable explicative, un fait important à noter est que le coefficient de détermination est égal au carré du coefficient de corrélation (R) de l'échantillon. En d'autres termes, R-carré (grand R-carré) est égal à petit r-carré.

Dans le cas des modèles de dimension supérieure, l'énoncé est similaire. Le R au carré est égal au carré de la corrélation entre les valeurs y observées et ajustées. Cela est vrai même pour le cas à une seule variable, bien que nous n'y pensions généralement pas en ces termes.

Il convient de mentionner que le R au carré est souvent mal compris et mal interprété. Précisons donc son sens et ses limites. Le R au carré mesure la proportion de variabilité de y qui peut être expliquée par la variabilité de x. Par définition, il sera plus faible pour les ensembles de données avec une forte variabilité des valeurs y. Par conséquent, les modèles avec un R au carré proche de 1 ne sont pas nécessairement bons, comme le montre un exemple où le R au carré est de 0,93, mais le modèle linéaire est mal ajusté aux données.

De même, les modèles avec un faible R au carré ne sont pas nécessairement mauvais. Par exemple, un modèle avec un R au carré de 0,16 peut très bien s'adapter aux données, mais les données elles-mêmes contiennent intrinsèquement beaucoup de variabilité naturelle et de bruit.

N'oubliez pas que le R au carré ne mesure que la variabilité autour de la ligne de régression et n'indique pas directement l'utilité ou le caractère raisonnable d'un modèle. Pour évaluer correctement les modèles linéaires, tenez compte de plusieurs outils et facteurs, tels que l'erreur type résiduelle (l'écart type des résidus), qui donne un aperçu de la variabilité des données par rapport aux valeurs prédites. En outre, vous pouvez examiner le niveau de signification de la régression à l'aide de la statistique t pour les ajustements linéaires et de la statistique f pour tester l'hypothèse nulle selon laquelle tous les coefficients de régression sont nuls dans les modèles de dimension supérieure.

Lors de l'évaluation des modèles, il est crucial de ne pas se fier uniquement au R au carré, mais de le considérer conjointement avec d'autres mesures et analyses.

R^2: the Coefficient of Determination
R^2: the Coefficient of Determination
  • 2021.10.20
  • www.youtube.com
Let's get to know R^2, the coefficient of determination, which measures the spread of observations about a regression line or other statistical model.If this...
 

Calculs du chi carré en R


Calculs du chi carré en R

Aujourd'hui, nous allons effectuer des calculs du chi carré dans R. Le test du chi carré est couramment utilisé dans les statistiques inférentielles à diverses fins, telles que les tests d'adéquation et les tests d'hypothèses impliquant des variances. Le chi carré est une variable aléatoire continue qui est biaisée vers la droite. Sa valeur attendue est notée "r" et sa variance est 2r. Dans la plupart des applications, r est un entier positif, bien qu'il puisse également être un non entier.

Lorsque la valeur de r augmente, la fonction de densité de probabilité (PDF) de la distribution du chi carré se déplace vers la droite et commence à ressembler à une courbe en cloche en raison du théorème central limite. Le paramètre r est connu comme le nombre de degrés de liberté pour la distribution du chi carré.

Dans R, il existe quatre fonctions de base pour calculer les distributions du chi carré :

  1. rchisq(r, n) : cette fonction génère n valeurs aléatoires à partir de la distribution chi carré avec r degrés de liberté. Par exemple, rchisq(5, 16) génère 16 valeurs aléatoires à partir du chi carré avec 5 degrés de liberté.

  2. pchisq(x, r) : il s'agit de la fonction de distribution cumulative (CDF) pour la distribution chi carré avec r degrés de liberté. Il renvoie la probabilité d'obtenir au hasard une valeur inférieure ou égale à x dans cette distribution. Par exemple, pchisq(8, 5) donne la probabilité d'obtenir une valeur inférieure ou égale à 8 en chi carré avec 5 degrés de liberté, soit environ 0,844.

  3. qchisq(p, r) : il s'agit de la CDF inverse pour la distribution du chi carré avec r degrés de liberté. Il renvoie la valeur x pour laquelle la probabilité d'obtenir une valeur inférieure ou égale à x est égale à p. Par exemple, qchisq(0,5, 12) donne la médiane du chi carré avec 12 degrés de liberté, soit environ 0,5.

  4. dchisq(x, r) : Cette fonction donne la valeur de la fonction de densité de probabilité (PDF) de la distribution chi carré avec r degrés de liberté en x. Le PDF a une importance théorique mais est moins couramment utilisé dans les calculs numériques.

Maintenant, résolvons quelques exemples de problèmes en utilisant ces fonctions :

Problème 1 : Calculez la probabilité d'obtenir au hasard une valeur de x comprise entre 12 et 18 en chi carré avec 15 degrés de liberté.

prob <- pchisq ( 18 , 15 ) - pchisq ( 12 , 15 )

La probabilité est d'environ 0,4163.

Problème 2 : étant donné qu'il y a 80 % de chances qu'un tirage aléatoire du chi carré avec 20 degrés de liberté soit supérieur à x, trouvez la valeur de x.

x <- qchisq ( 0.2 , 20 )

La valeur de x est d'environ 14,57844.

Problème 3 : Simulez dix mille tirages à partir de la distribution du chi carré avec 4 degrés de liberté et générez un histogramme des résultats.

x <- rchisq ( 4 , 10000 )
library ( ggplot2 )
qplot ( x , geom = "histogram" , col = I ( "black" ) )

Cela générera un histogramme des valeurs simulées.

J'espère que cela vous aidera à comprendre et à appliquer les calculs du chi carré dans R.

Chi-Squared Calculations in R
Chi-Squared Calculations in R
  • 2020.10.15
  • www.youtube.com
In the vid, I cover the functions pchisq(), qchisq(), rchisq(), and dchisq(). If this vid helps you, please help me a tiny bit by mashing that 'like' button....
 

Comprendre la distribution du chi carré


Comprendre la distribution du chi carré

Aujourd'hui, nous allons discuter de la distribution du chi carré, un concept fondamental que vous rencontrerez en étudiant l'inférence statistique dans votre voyage à travers la science des données. La distribution du chi carré survient lorsque vous souhaitez mesurer dans quelle mesure un ensemble d'observations numériques indépendantes s'écarte de leurs valeurs attendues.

Pour expliquer cela plus formellement, vous calculez un score z pour chaque observation en soustrayant la valeur attendue de l'observation et en la divisant par l'écart type. Après avoir élevé au carré chacun de ces scores z et les avoir additionnés, vous obtenez la variable aléatoire chi carré. Cette variable quantifie l'écart global de vos observations par rapport à leurs valeurs attendues.

Par exemple, si toutes les observations s'alignent parfaitement sur leurs valeurs attendues, la statistique du chi carré serait nulle. Au fur et à mesure que les résultats s'éloignent des valeurs attendues, la valeur du chi carré augmente. En quadrillant les scores z, nous nous assurons que les écarts faibles et élevés ne s'annulent pas.

La distribution chi carré avec r degrés de liberté représente la distribution d'échantillonnage de cette variable aléatoire. Les degrés de liberté (r) correspondent au nombre d'observations indépendantes ou z-scores. Notez que la variable aléatoire partage le même nom que la distribution, mais le contexte les distingue généralement.

Étant donné que chaque score z est une variable aléatoire continue, la somme de leurs carrés suit une distribution du chi carré. La fonction de densité de probabilité de la distribution du chi carré n'est positive que pour les valeurs chi carré non négatives. La distribution est asymétrique à droite car les valeurs extrêmement élevées des scores z individuels deviennent de moins en moins probables.

Le graphique typique de la distribution du chi carré avec 5 degrés de liberté présente cette forte inclinaison vers la droite. Son support (ensemble de résultats possibles) est strictement constitué de valeurs positives. Deux faits importants à retenir sont que la valeur attendue de la distribution chi carré avec r degrés de liberté est égale à r et que le pic de la distribution se produit à R moins 2, étant donné que R est au moins deux (sinon, c'est zéro ).

À mesure que le nombre de degrés de liberté augmente, la distribution du chi carré se rapproche d'une distribution normale selon le théorème central limite. Cette approximation est observable dans un croquis montrant la distribution du chi carré avec R égal à 50, qui présente toujours une légère inclinaison vers la droite.

La distribution du chi carré est fréquemment utilisée dans les statistiques inférentielles, comme le montre la diapositive initiale. Certaines applications courantes incluent les tests de signification pour la variance sous l'hypothèse d'une distribution normale, les tests d'adéquation pour les variables catégorielles et les tests du chi carré pour l'indépendance.

Pour calculer les probabilités dans une distribution chi carré, vous pouvez utiliser la fonction de distribution cumulative (CDF). Le CDF, noté F(x), fournit la probabilité d'obtenir une valeur inférieure ou égale à x dans la distribution chi carré spécifiée. Cela peut être mieux compris avec une représentation visuelle, où la zone ombrée représente la probabilité.

Dans R, vous pouvez effectuer des calculs chi carré à l'aide de la commande pchisq(), en spécifiant la valeur d'intérêt et le nombre de degrés de liberté. Par exemple, pour calculer la probabilité d'obtenir une valeur inférieure ou égale à 8 dans la distribution du chi carré à cinq degrés de liberté, vous utiliseriez pchisq(8, 5), ce qui donne environ 0,843.

Si vous êtes intéressé par des détails supplémentaires ou des calculs impliquant la distribution du chi carré dans R, j'ai des vidéos spécifiques qui couvrent ces sujets. N'hésitez pas à les consulter pour des explications plus approfondies.

Understanding the chi-squared distribution
Understanding the chi-squared distribution
  • 2022.12.07
  • www.youtube.com
In absolute terms, just how far are your results from their expected values?If this vid helps you, please help me a tiny bit by mashing that 'like' button. F...
 

Test d'adéquation de l'ajustement


Test d'adéquation de l'ajustement

Salut tout le monde, aujourd'hui, nous allons discuter des tests d'adéquation à l'aide de la distribution du chi carré. Supposons que nous ayons une variable catégorielle, telle que l'année des étudiants dans les cours de statistiques d'une grande université, et qu'on nous dise qu'elle suit une distribution spécifique : 50 % étudiants de première année, 30 % étudiants de deuxième année, 10 % juniors et 10 % seniors. Comment pouvons-nous tester si cette distribution correspond à nos données d'échantillon ?

Pour commencer, définissons les hypothèses nulle et alternative. L'hypothèse nulle stipule que la population de tous les étudiants des cours de statistique suit la distribution revendiquée (50% d'étudiants de première année, 30% d'étudiants de deuxième année, etc.), tandis que l'hypothèse alternative suppose une distribution différente. Pour tester entre ces hypothèses, nous comparerons les nombres observés dans nos données d'échantillon aux nombres attendus sous l'hypothèse nulle.

Désignons les comptes observés par « o » et les comptes attendus par « e ». Nous allons calculer une statistique de test appelée chi carré, qui est la somme de (o - e)^2 / e. Si l'hypothèse nulle est vraie, cette statistique de test suit une distribution chi carré avec k - 1 degrés de liberté, où k est le nombre de catégories.

Dans notre cas, nous avons quatre catégories, nous allons donc utiliser la distribution du chi carré avec trois degrés de liberté. Une statistique de test plus grande indique que les données de notre échantillon sont moins compatibles avec l'hypothèse nulle, ce qui suggère un ajustement moins bon.

Pour effectuer le test de signification et calculer le chi carré, nous devons calculer les nombres attendus sous l'hypothèse nulle. Pour une taille d'échantillon de 65, nous multiplions les pourcentages par 65 pour obtenir les nombres attendus de 32,5, 19,5, 6,5 et 6,5.

Ensuite, nous calculons la statistique du test du chi carré en soustrayant le nombre attendu du nombre observé pour chaque cellule, en élevant le résultat au carré, en divisant par le nombre attendu et en additionnant ces valeurs dans toutes les catégories. Dans notre cas, la statistique de test est de 3,58.

Pour trouver la probabilité d'obtenir une valeur supérieure ou égale à notre statistique chi carré observée, nous utilisons la fonction de distribution cumulative dans R, représentée par la commande p chi carré. Soustraire le résultat de un nous donne la valeur p. Dans cet exemple, la valeur de p est d'environ 0,31, ce qui indique que les données ne fournissent pas de preuves solides contre l'hypothèse nulle.

Il est essentiel de noter qu'une grande valeur de p ne prouve pas l'hypothèse nulle ; cela suggère simplement un manque de preuves à son encontre. Enfin, nous devrions considérer quand il est approprié d'utiliser un test de qualité d'ajustement du chi carré. Premièrement, elle s'applique aux variables catégorielles. Si vous avez des variables quantitatives, vous pouvez les transformer en variables catégorielles en les regroupant. De plus, les données doivent être obtenues par échantillonnage aléatoire simple et le nombre de cellules attendu doit généralement être d'au moins cinq. Si de nombreux bacs sont presque vides, des méthodes alternatives peuvent être plus appropriées, telles que le test exact de Fisher dans certaines situations.

Outre les considérations que nous avons mentionnées précédemment, il y a quelques points supplémentaires à garder à l'esprit lorsque vous décidez d'utiliser un test d'adéquation du chi carré. Ceux-ci inclus:

  1. Indépendance : Les observations au sein de chaque catégorie doivent être indépendantes les unes des autres. Cette hypothèse est importante pour la validité du test. Si les observations ne sont pas indépendantes, des tests statistiques alternatifs peuvent être plus appropriés.

  2. Taille de l'échantillon : Bien qu'il n'y ait pas de règle fixe, les tailles d'échantillon plus importantes ont tendance à fournir des résultats plus fiables. Avec des échantillons plus grands, même de petits écarts par rapport à la distribution attendue peuvent produire des résultats statistiquement significatifs. Cependant, de très grandes tailles d'échantillons peuvent parfois conduire à des résultats significatifs, même pour des écarts insignifiants par rapport à la distribution attendue, il est donc essentiel de prendre également en compte la signification pratique.

  3. Estimation des paramètres : dans certains cas, les chiffres attendus pour chaque catégorie ne sont pas connus avec précision, mais sont estimés à partir des données. Lors de l'estimation des paramètres à partir des mêmes données utilisées pour les tests d'hypothèses, cela peut conduire à des résultats biaisés. Dans de telles situations, des ajustements ou des méthodes alternatives doivent être envisagés.

  4. Variables catégorielles à plusieurs niveaux : le test de qualité de l'ajustement du chi carré dont nous avons parlé jusqu'à présent est approprié pour tester l'ajustement d'une seule variable catégorique à une distribution spécifiée. Cependant, si vous avez plusieurs variables catégorielles et que vous souhaitez examiner leur distribution conjointe, d'autres tests comme le test d'indépendance du chi carré ou des modèles log-linéaires peuvent être plus appropriés.

Il convient de noter que le test de qualité de l'ajustement du chi carré est un outil utile pour examiner si les données observées suivent une distribution attendue. Cependant, il ne fournit pas d'informations sur les raisons des écarts et n'identifie pas les catégories spécifiques qui contribuent le plus aux différences.

Comme pour tout test statistique, l'interprétation des résultats doit tenir compte du contexte, des connaissances de base et des objectifs spécifiques de l'analyse. Il est crucial de comprendre les limites et les hypothèses du test et de l'utiliser dans le cadre d'une analyse complète plutôt que de se fier uniquement à son résultat.

En résumé, le test de qualité de l'ajustement du chi carré est une méthode précieuse pour évaluer l'adéquation entre les données observées et une distribution attendue pour les variables catégorielles. En comparant les décomptes observés et attendus, en calculant la statistique de test et en déterminant la valeur de p, nous pouvons évaluer la compatibilité des données avec l'hypothèse nulle. Cependant, il est important de tenir compte des hypothèses, de la taille de l'échantillon et d'autres facteurs pour garantir la validité et la pertinence du test dans un contexte donné.

Goodness-of-Fit Testing
Goodness-of-Fit Testing
  • 2020.11.10
  • www.youtube.com
Let's use the chi-squared distribution to test goodness of fit for categorical data. Yessss! If this vid helps you, please help me a tiny bit by mashing that...