![MQL5 - Langage des stratégies de trading intégré au terminal client MetaTrader 5](https://c.mql5.com/i/registerlandings/logo-2.png)
Vous manquez des opportunités de trading :
- Applications de trading gratuites
- Plus de 8 000 signaux à copier
- Actualités économiques pour explorer les marchés financiers
Inscription
Se connecter
Vous acceptez la politique du site Web et les conditions d'utilisation
Si vous n'avez pas de compte, veuillez vous inscrire
Recodage des données à l'aide de la programmation R. Utilisation des packages tidyverse et dplyr pour créer une nouvelle variable
Recodage des données à l'aide de la programmation R. Utilisation des packages tidyverse et dplyr pour créer une nouvelle variable
Aujourd'hui, nous allons nous plonger dans le sujet fascinant du recodage des données dans R. Mais d'abord, clarifions ce que nous entendons par recodage des données. Pour illustrer ce processus, nous utiliserons l'ensemble de données Star Wars. Si vous avez déjà installé le package tidyverse sur votre ordinateur, vous aurez accès à cet ensemble de données et pourrez suivre à la maison.
L'ensemble de données Star Wars se compose de lignes représentant des personnages de Star Wars tels que Luke Skywalker, la princesse Leia, etc., et de colonnes représentant diverses variables telles que le nom, la taille, la masse et le sexe. Notre objectif est de transformer le jeu de données d'origine en un nouveau qui contient quelques différences clés.
Dans le jeu de données modifié, que nous allons créer, il y a quelques changements à noter. Tout d'abord, la colonne de hauteur est exprimée en mètres carrés au lieu de centimètres comme dans l'ensemble de données d'origine. Deuxièmement, la colonne "sexe" utilise "M" et "F" pour représenter les hommes et les femmes, respectivement, au lieu des valeurs d'origine. De plus, nous avons supprimé toutes les valeurs manquantes de l'ensemble de données. Enfin, nous avons créé une nouvelle variable appelée "taille" qui catégorise les caractères comme étant "grands" ou "petits" en fonction de critères spécifiques : mesurer plus d'un mètre et peser plus de 75 kg.
Pour commencer, assurons-nous que le package tidyverse est chargé, car il fournit les fonctions nécessaires à la manipulation des données. Vous n'avez besoin d'installer le package qu'une seule fois, mais vous pouvez le charger pour chaque session à l'aide de la fonction library() ou require(). Une fois le package tidyverse chargé, vous aurez également accès à l'ensemble de données Star Wars.
Créons un nouvel objet appelé SW pour travailler avec le jeu de données Star Wars. Nous utiliserons l'opérateur d'affectation (<-) pour affecter le jeu de données Star Wars à l'objet SW. De cette façon, nous pouvons apporter des modifications et effectuer des opérations sans modifier l'ensemble de données d'origine. Maintenant, sélectionnons les variables avec lesquelles nous voulons travailler. Pour ce faire, nous utiliserons l'opérateur de canalisation (%>%) pour enchaîner les opérations.
Tout d'abord, nous utiliserons la fonction select() pour choisir les variables que nous désirons : nom, masse et sexe. De plus, nous allons renommer la variable "mass" en "weight" en utilisant la fonction rename(). En exécutant ce code, les variables sélectionnées seront conservées et la colonne "masse" sera renommée "poids" dans le jeu de données SW.
Ensuite, nous aborderons les valeurs manquantes. Bien que nous ne l'aborderons pas en détail ici, il est important de gérer les valeurs manquantes de manière appropriée dans votre analyse de données. Pour l'instant, nous allons simplement supprimer les valeurs manquantes de l'ensemble de données. Nous aborderons les techniques de gestion des valeurs manquantes dans une vidéo distincte.
Maintenant, concentrons-nous sur la transformation de la variable "taille" de centimètres en mètres. En utilisant la fonction mutate() et l'opérateur pipe, nous allons modifier la colonne "height" en divisant chaque valeur par 100. Cette division garantit que les hauteurs sont exprimées en mètres au lieu de centimètres.
Passant à la variable "sexe", nous remarquons qu'elle contient des valeurs autres que "masculin" et "féminin", comme "MAphrodite". Pour résoudre ce problème, nous souhaitons filtrer l'ensemble de données et ne conserver que les observations avec des valeurs "masculines" et "féminines". Nous allons démontrer deux approches de filtrage. La première approche consiste à utiliser la fonction filter() et à préciser les conditions de rétention des observations de genre "masculin" ou "féminin". La deuxième approche, plus élégante, utilise la concaténation à l'aide de l'opérateur %in% pour conserver les observations avec des valeurs "masculines" ou "féminines". Les deux approches donnent le même résultat - seules les observations "masculines" et "féminines" restent dans l'ensemble de données.
Une fois que nous avons filtré la variable "sexe", nous pouvons procéder au recodage des valeurs dans la variable "sexe". Actuellement, il contient des valeurs "masculin" et "féminin", mais nous voulons les représenter respectivement par "M" et "F". Pour ce faire, nous utiliserons la fonction mutate() et la fonction recode().
Dans la fonction recode(), nous spécifierons la variable que nous voulons recoder, qui est "gender" dans ce cas. Ensuite, nous attribuerons les nouvelles valeurs en utilisant la syntaxe old_value = new_value. Dans notre cas, nous définirons "masculin" pour qu'il soit recodé en "M" et "féminin" en "F".
En exécutant ce code, la variable "gender" dans le jeu de données SW sera mise à jour, en remplaçant "male" et "female" par "M" et "F" respectivement.
Enfin, nous allons créer une nouvelle variable appelée "taille" en fonction de certains critères. La variable "taille" classera les caractères en "gros" ou "petits" en fonction de leur taille et de leur poids. Nous utiliserons à nouveau la fonction mutate() et l'opérateur pipe.
Dans mutate(), nous allons créer la variable "taille" en définissant ses conditions. Nous utiliserons des opérateurs logiques pour vérifier si la taille est supérieure à un mètre et si le poids est supérieur à 75 kilogrammes. Si les conditions sont remplies, nous attribuerons "grand" à l'observation correspondante ; sinon, nous attribuerons "petit". Ceci est réalisé en utilisant la fonction if_else() dans mutate().
Une fois ce code exécuté, la variable "taille" sera ajoutée au jeu de données SW, indiquant si chaque personnage est classé comme "grand" ou "petit" en fonction de sa taille et de son poids.
En conclusion, si vous êtes passionné par l'analyse de données et désireux d'apprendre la programmation R, vous êtes au bon endroit. Appuyez sur le bouton d'abonnement et cliquez sur la cloche de notification pour rester à jour sur les futures vidéos.
10 astuces de filtrage de données à l'aide de la programmation R. Utilisez le tidyverse pour filtrer et sous-ensembler vos données.
10 astuces de filtrage de données à l'aide de la programmation R. Utilisez le tidyverse pour filtrer et sous-ensembler vos données.
Dans cette vidéo, nous allons explorer comment filtrer les données dans R à l'aide de la fonction de filtrage. Le filtrage nous permet d'extraire des sous-ensembles spécifiques de données en fonction de certains critères. Pour ce faire, nous utiliserons le package tidyverse, qui fournit un ensemble puissant d'outils pour la manipulation et l'analyse des données dans R. Avant de plonger dans la fonction de filtre, discutons brièvement des bases.
Configuration de l'environnement :
Pour commencer, nous devons charger le package tidyverse à l'aide de la fonction de bibliothèque. Le package tidyverse inclut l'écosystème tidyverse, qui élargit le vocabulaire et les fonctionnalités de R. Si vous n'êtes pas familier avec le tidyverse, je vous recommande de regarder ma vidéo sur les packages pour mieux comprendre.
Exploration des données : pour cette démonstration, nous travaillerons avec l'ensemble de données "msleep", qui est inclus en tant qu'ensemble de données intégré dans le package tidyverse. L'ensemble de données "msleep" contient des informations sur différents mammifères, y compris des variables telles que le nom, le sommeil total, le poids corporel et le poids du cerveau. Cet ensemble de données servira de données d'entraînement pour le filtrage.
Création d'un sous-ensemble de données : Pour créer un sous-ensemble de données, nous allons d'abord faire une copie de l'ensemble de données "msleep" et l'affecter à un nouvel objet appelé "my_data" en utilisant l'opérateur d'affectation "=".
my_data <- msleep
Sélection de variables : Ensuite, nous sélectionnerons des variables spécifiques avec lesquelles nous voulons travailler. Dans ce cas, nous nous intéressons aux colonnes "name" et "sleep_total". Nous utilisons la fonction select pour choisir ces colonnes et stocker le résultat dans l'objet "my_data" à l'aide de l'opérateur d'affectation.
my_data <- my_data %>% select(name, sleep_total)
Filtrage des données : Vient maintenant la partie principale, la fonction de filtrage. Nous utiliserons cette fonction pour extraire des lignes de notre ensemble de données en fonction de critères spécifiques. Il existe plusieurs façons d'utiliser la fonction de filtrage, et je vais vous guider à travers dix exemples différents.
Filtrage par un seul critère :
Pour commencer, filtrons les données pour n'inclure que les mammifères dont le total de sommeil est supérieur à 18. Nous utilisons la fonction de filtrage et spécifions la condition comme "sleep_total > 18".
my_data <- my_data %>% filter(sleep_total > 18)
Filtrage à l'aide du "!" Opérateur:
Nous pouvons également utiliser le "!" opérateur pour filtrer l'opposé d'une condition donnée. Dans ce cas, nous filtrerons les mammifères dont le total de sommeil est inférieur à 18.
my_data <- my_data %>% filter(!(sleep_total < 18))
Filtrage basé sur plusieurs critères utilisant "et":
Nous pouvons filtrer les données en fonction de plusieurs critères en les combinant à l'aide de l'opérateur logique "et" (","). Par exemple, extrayons des mammifères dont l'ordre est "primate" et dont le poids corporel est supérieur à 20.
my_data <- my_data %>% filter(order == "primate", body_weight > 20)
Filtrage basé sur plusieurs critères utilisant "ou":
Dans certains cas, nous pouvons souhaiter extraire des lignes qui répondent à au moins un critère parmi plusieurs. Nous pouvons y parvenir en utilisant l'opérateur logique "ou" ("|"). Par exemple, extrayons des mammifères qui sont soit des vaches, des chiens ou des chèvres.
my_data <- my_data %>% filter(name == "cow" | name == "dog" | name == "goat")
Filtrage à l'aide d'une concaténation :
Au lieu de spécifier chaque critère individuellement, nous pouvons créer une concaténation de valeurs et l'utiliser dans la fonction de filtre. Cette approche offre une manière plus élégante de filtrer plusieurs valeurs. Par exemple, nous pouvons filtrer en créant un vecteur de noms et en l'utilisant dans la fonction de filtrage comme suit :
names_to_filter <- c("cow", "dog", "goat")
my_data <- my_data %>% filter(name %in% names_to_filter)
Filtrage à l'aide de l'opérateur "entre" :
Nous pouvons utiliser l'opérateur "entre" pour filtrer les lignes en fonction d'une plage de valeurs. Filtrons les données pour n'inclure que les mammifères dont le total de sommeil est compris entre 16 et 18 (inclus).
my_data <- my_data %>% filter(between(sleep_total, 16, 18))
Filtrage des valeurs proches d'une valeur spécifique :
Si nous voulons filtrer les observations proches d'une valeur spécifique dans une variable, nous pouvons utiliser la fonction "proche". Par exemple, filtrons les données pour inclure les mammifères avec des totaux de sommeil proches de 17 dans une tolérance de 0,5.
my_data <- my_data %>% filter(near(sleep_total, 17, tolerance = 0.5))
Filtrage des valeurs manquantes :
Pour filtrer les lignes où une variable spécifique a des valeurs manquantes, nous pouvons utiliser la fonction "is.na". Filtrons les données pour n'inclure que les mammifères avec des valeurs manquantes dans la variable "conservation".
my_data <- my_data %>% filter(is.na(conservation))
Filtrage des valeurs non manquantes :
Inversement, si nous voulons filtrer les lignes avec des valeurs manquantes dans une variable spécifique, nous pouvons utiliser le "!" opérateur avec la fonction "is.na". Filtrons les données pour exclure les mammifères avec des valeurs manquantes dans la variable "conservation".
my_data <- my_data %>% filter(!is.na(conservation))
Conclusion : En utilisant la fonction de filtrage et diverses techniques de filtrage, nous pouvons extraire des sous-ensembles spécifiques de données en fonction de nos critères. Le filtrage nous permet de nous concentrer sur les observations pertinentes et de faciliter une analyse plus approfondie. N'oubliez pas d'expérimenter différents critères et combinaisons pour répondre à vos besoins spécifiques de filtrage de données.
Si vous avez trouvé cette vidéo utile et que vous souhaitez en savoir plus sur l'analyse des données et la programmation R, assurez-vous de vous abonner à cette chaîne et d'activer les notifications pour rester à jour sur les futures vidéos.
Nettoyez vos données avec la programmation R.R pour les débutants
Nettoyez vos données avec la programmation R.R pour les débutants
Content de te revoir! Aujourd'hui, nous plongeons dans le sujet du nettoyage des données. Lorsqu'ils travaillent avec des données, de nombreuses personnes sont impatientes de se lancer immédiatement dans l'analyse statistique. Cependant, il est important d'adopter une approche systématique pour garantir des résultats précis et fiables. Dans cette vidéo, nous vous guiderons à travers le processus de nettoyage de vos données, qui est une étape cruciale avant l'analyse.
Tout d'abord, commençons par explorer vos données. J'ai abordé ce sujet dans une vidéo précédente, alors assurez-vous de le vérifier si vous ne l'avez pas déjà fait. L'exploration des données vous aide à vous familiariser avec la structure et le contenu de votre ensemble de données. Une fois que vous avez une bonne compréhension de vos données, vous pouvez passer à leur nettoyage.
Alors, qu'entendons-nous par nettoyer vos données ? Eh bien, il y a quelques tâches clés impliquées. Tout d'abord, il est important de s'assurer que chaque variable est catégorisée correctement. Vous devrez peut-être faire des ajustements et modifier les types de variables si nécessaire. Je vais vous montrer comment faire cela sous peu.
Ensuite, vous pouvez sélectionner les variables avec lesquelles vous souhaitez travailler et filtrer les lignes ou observations indésirables. Cette étape est particulièrement importante lorsqu'il s'agit de grands ensembles de données. Cela vous permet de vous concentrer sur les données spécifiques pertinentes pour votre analyse.
Un autre aspect important du nettoyage des données est la gestion des données manquantes. Nous discuterons des techniques pour trouver et traiter les valeurs manquantes dans cette vidéo. De plus, nous verrons comment identifier et gérer les doublons, ainsi que comment recoder les valeurs si nécessaire.
Avant de continuer, permettez-moi de mentionner que lorsque je travaille avec R, j'utilise toujours les packages tidyverse. Le tidyverse est une collection de packages qui étend les fonctionnalités de R et fournit un large éventail de fonctions utiles. Si vous ne l'avez pas déjà fait, assurez-vous d'installer et de charger les packages tidyverse.
Parlons maintenant des jeux de données que nous allons utiliser. R est livré avec des ensembles de données intégrés que vous pouvez utiliser pour la pratique et l'apprentissage. Dans cette leçon, nous utiliserons le jeu de données Star Wars, qui devient disponible une fois que vous avez installé le tidyverse. Vous pouvez accéder à ces ensembles de données en tapant "data()" et en explorant les options disponibles. Par exemple, vous pouvez afficher le jeu de données Star Wars en tapant "view(starwars)".
Maintenant, concentrons-nous sur les types de variables. Il est important de s'assurer que chaque variable est correctement identifiée et catégorisée. Pour explorer les types de variables dans le jeu de données Star Wars, nous pouvons utiliser la fonction "aperçu (starwars)". Cela fournira un résumé de l'ensemble de données, y compris les noms et les types de variables.
Dans certains cas, vous souhaiterez peut-être convertir une variable de caractère en une variable de facteur. Les facteurs sont des variables catégorielles qui peuvent avoir des niveaux ou des catégories prédéfinis. Pour ce faire, vous pouvez utiliser la fonction "as.factor()". Par exemple, pour convertir la variable "gender" du jeu de données Star Wars en un facteur, vous pouvez utiliser le code "starwars$gender <- as.factor(starwars$gender)". Cela changera le type de variable et mettra à jour l'ensemble de données en conséquence.
Si vous avez besoin de spécifier les niveaux ou les catégories d'une variable factorielle, vous pouvez utiliser la fonction "levels()". Par exemple, si vous voulez changer l'ordre des niveaux dans la variable "gender", vous pouvez utiliser le code "levels(starwars$gender) <- c('masculine', 'feminine')". Cela vous permet de personnaliser l'ordre des catégories en fonction de vos besoins spécifiques.
Ensuite, discutons de la sélection des variables et du filtrage des lignes. Dans R, vous pouvez utiliser la fonction "select()" pour choisir les variables avec lesquelles vous souhaitez travailler. Par exemple, vous pouvez sélectionner des variables telles que "name" et "height" dans l'ensemble de données Star Wars en utilisant le code "select(starwars, name, height, ends_with('color'))".
Pour filtrer les lignes satisfaites. Mais ce n'est pas ce que nous voulons dans ce cas. Nous voulons inclure des observations qui ont des cheveux blonds ou bruns. Par conséquent, nous utilisons l'opérateur logique "ou" (représenté par |) pour spécifier que l'observation doit répondre à l'une ou l'autre des conditions.
Passons maintenant à la partie suivante du nettoyage des données, qui traite des données manquantes. Des données manquantes peuvent se produire dans les ensembles de données pour diverses raisons, et il est important de les gérer de manière appropriée. Dans le cas du jeu de données Star Wars, nous pouvons vérifier les valeurs manquantes en utilisant la fonction is.na().
Pour trouver et traiter les données manquantes, nous pouvons ajouter une autre étape à notre code :
Dans ce code, nous sélectionnons d'abord les variables souhaitées (nom, hauteur et variables se terminant par "couleur"). Ensuite, nous filtrons les valeurs de couleur de cheveux qui sont soit "blondes" soit "brunes". Enfin, nous utilisons la condition !is.na(height) pour exclure toutes les observations où la valeur de hauteur est manquante.
Ensuite, abordons le problème des doublons dans l'ensemble de données. Des doublons peuvent se produire lorsqu'il existe plusieurs observations identiques dans l'ensemble de données. Pour trouver et traiter les doublons, nous pouvons ajouter une autre étape à notre code :
Dans ce code, nous utilisons la fonction distinct() pour supprimer les observations en double de l'ensemble de données star_wars_filtered, en veillant à ce que chaque observation soit unique.
Enfin, discutons de la façon de recoder les valeurs dans l'ensemble de données. Parfois, nous pouvons avoir besoin de modifier les valeurs de certaines variables pour mieux répondre à notre analyse. Dans ce cas, disons que nous voulons recoder la variable de couleur de cheveux pour avoir "blond" comme 1 et "marron" comme 2. Nous pouvons y parvenir en ajoutant une autre étape à notre code :
Ici, nous utilisons la fonction mutate() avec la fonction recode() pour modifier les valeurs de la variable hair_color. Nous précisons que "blond" doit être recodé en 1 et "brun" en 2.
Maintenant, nous avons terminé le processus de nettoyage des données. Nous avons sélectionné les variables souhaitées, filtré les observations indésirables, traité les données manquantes, supprimé les doublons et recodé les valeurs si nécessaire.
N'oubliez pas qu'il ne s'agit que de quelques étapes de base du processus de nettoyage des données, et que les étapes spécifiques peuvent varier en fonction de l'ensemble de données et des exigences d'analyse. Cependant, suivre une approche systématique comme celle-ci peut aider à garantir que vos données sont dans un format propre et approprié pour une analyse plus approfondie.
J'espère que cette explication vous aidera à comprendre le processus de nettoyage de vos données.
Explorez vos données en utilisant la programmation R
Explorez vos données en utilisant la programmation R
Bonjour à tous les passionnés de programmation ! Je m'appelle Greg Martin et je vous souhaite à nouveau la bienvenue à notre session Programmation 101. Aujourd'hui, nous allons aborder le sujet crucial de l'exploration de données avant de plonger dans toute analyse de données. Comprendre les données avec lesquelles vous travaillez est essentiel. Vous devez saisir les dimensions, les paramètres et la taille de votre ensemble de données ou de votre cadre de données. De plus, vous devez être conscient du nombre de variables et de leurs caractéristiques. Cette étape est super importante et remarquablement facile, alors faisons-la ensemble.
Si vous êtes ici pour en savoir plus sur la programmation, vous êtes au bon endroit. Sur cette chaîne YouTube, nous créons des vidéos de programmation couvrant un large éventail de sujets.
Maintenant, permettez-moi de commencer par dire que j'utilise des fonctions et des packages dans le Tidyverse. Si vous n'êtes pas familier avec le Tidyverse, je vous recommande de regarder l'une de mes autres vidéos expliquant sa signification. L'installation du Tidyverse sur votre ordinateur apporte toutes les fonctions, capacités et vocabulaire étendu fournis avec les packages du Tidyverse. Je mentionnerai certains de ces packages au fur et à mesure de notre progression.
Il est important de noter que le Tidyverse comprend également une variété d'ensembles de données intégrés que vous pouvez utiliser pour pratiquer votre analyse de données. Ceci est particulièrement utile, et plus tard, nous utiliserons l'un de ces ensembles de données supplémentaires appelés "guerres des étoiles". L'ensemble de données Star Wars est un peu désordonné, contenant des données manquantes et d'autres problèmes, ce qui en fait un excellent exemple pour explorer et nettoyer les données.
Pour commencer, vous pouvez toujours utiliser le point d'interrogation suivi du nom de la fonction ou du jeu de données pour accéder à la documentation et obtenir des informations sur ce jeu de données particulier. Par exemple, en tapant "?star wars" et en appuyant sur Entrée, vous pouvez accéder aux informations sur les variables présentes dans le jeu de données star wars.
Passons maintenant à certaines fonctions spécifiques. La première fonction que nous allons découvrir est "dim", qui signifie dimensions. En utilisant la commande "dim(star wars)" et en appuyant sur Entrée, nous pouvons déterminer que l'ensemble de données a 87 lignes ou observations et 13 variables.
Une autre fonction courante utilisée pour comprendre la structure d'une trame de données est "str" (structure). Cependant, lorsque nous appliquons "str(star wars)" directement, nous rencontrons une sortie désordonnée en raison de la présence de listes dans l'ensemble de données. Les listes représentent des variables où chaque observation peut être une liste distincte contenant divers points de données ou même une base de données entière. Pour rendre la sortie plus lisible, nous pouvons utiliser la fonction "aperçu" du Tidyverse. Ainsi, en tapant "aperçu (guerres des étoiles)" et en appuyant sur Entrée, nous obtenons un affichage beaucoup plus net de la structure de l'ensemble de données, y compris le nombre d'observations, les variables et leurs types.
Pour afficher l'ensemble de données lui-même, vous pouvez utiliser la fonction « afficher » en tapant « afficher (guerres des étoiles) » et en appuyant sur Entrée. Cela ouvrira une fenêtre affichant l'ensemble de données dans un format soigné et organisé, avec des colonnes représentant des variables et des lignes représentant des observations.
De plus, vous pouvez utiliser les fonctions "head" et "tail" pour afficher rapidement les premières et dernières lignes de l'ensemble de données, respectivement. Par exemple, "head(star wars)" affichera les six premières lignes et "tail(star wars)" affichera les six dernières lignes.
Pour accéder à des variables spécifiques dans l'ensemble de données, vous pouvez utiliser l'opérateur "$". Par exemple, en tapant "star wars$name" et en appuyant sur Entrée, vous pouvez accéder directement à la variable "name".
Une autre fonction utile est "noms", qui vous permet de récupérer les noms de variables dans l'ensemble de données. En tapant "names(star wars)" et en appuyant sur Entrée, vous obtiendrez une liste de toutes les variables présentes. Ceci est avantageux lorsque vous référencez des variables dans votre code, car cela permet d'éviter les fautes de frappe et garantit l'exactitude.
De plus, la fonction "longueur" peut être utilisée pour déterminer le nombre.
La fonction "longueur" peut être utilisée pour déterminer le nombre de variables dans un ensemble de données. Par exemple, en tapant "length(names(star wars))" et en appuyant sur Entrée, vous pouvez connaître le nombre total de variables présentes dans le jeu de données star wars.
Un autre aspect important de l'exploration de données est la compréhension des types de données des variables. La fonction "classe" peut être utilisée pour déterminer la classe ou le type de données d'une variable. Par exemple, si vous voulez connaître le type de données de la variable "name" dans le jeu de données star wars, vous pouvez taper "class(star wars$name)" et appuyer sur Entrée.
Vous pouvez également utiliser la fonction "résumé" pour obtenir des statistiques récapitulatives pour les variables numériques du jeu de données. Par exemple, si vous souhaitez obtenir un résumé de la variable "height", vous pouvez taper "summary(star wars$height)" et appuyer sur Entrée.
Pour filtrer et sous-ensembler l'ensemble de données en fonction de conditions spécifiques, vous pouvez utiliser la fonction "filtrer". Cette fonction vous permet de spécifier des conditions logiques pour sélectionner des lignes répondant à certains critères. Par exemple, si vous souhaitez filtrer l'ensemble de données star wars pour n'inclure que les caractères d'une hauteur supérieure à 150, vous pouvez taper "filter(star wars, height > 150)" et appuyer sur Entrée.
De plus, vous pouvez utiliser la fonction "select" pour choisir des variables ou des colonnes spécifiques dans l'ensemble de données. Ceci est utile lorsque vous souhaitez vous concentrer sur un sous-ensemble de variables pour votre analyse. Par exemple, si vous souhaitez sélectionner uniquement les variables "name" et "height" du jeu de données star wars, vous pouvez taper "select(star wars, name, height)" et appuyer sur Entrée.
L'exploration des données implique également l'examen de la distribution des variables. Le Tidyverse fournit le package "ggplot2", qui offre de puissantes capacités de visualisation de données. Vous pouvez utiliser des fonctions telles que "ggplot" et "geom_histogram" pour créer des histogrammes afin de visualiser la distribution des variables numériques. Par exemple, pour créer un histogramme de la variable "height" dans le jeu de données star wars, vous pouvez utiliser le code suivant :
library(ggplot2)
ggplot(star wars, aes(x = height)) +
geom_histogram()
Ce code générera un histogramme montrant la distribution des hauteurs de caractères dans le jeu de données star wars.
N'oubliez pas d'installer les packages requis si vous ne l'avez pas déjà fait. Vous pouvez utiliser la fonction "install.packages" pour installer des packages. Par exemple, pour installer le package ggplot2, vous pouvez taper "install.packages('ggplot2')" et appuyer sur Entrée.
Voici quelques-unes des fonctions et techniques essentielles que vous pouvez utiliser pour l'exploration de données dans R. En comprenant la structure, les dimensions, les variables et les types de données de votre jeu de données, vous obtenez des informations précieuses qui vous aident à guider votre processus d'analyse de données.
Manipulez vos données. Trafic de données. Programmation R pour débutants.
Manipulez vos données. Trafic de données. Programmation R pour débutants.
Bienvenue à nouveau dans une autre vidéo passionnante sur notre série de programmation. Aujourd'hui, nous allons plonger dans le sujet de la manipulation de votre bloc de données, ensemble de données ou données. Le data wrangling, également connu sous le nom de « data doctoring », peut être très amusant. Il s'agit de la troisième partie de notre série, où nous explorons divers aspects de l'exploration, du nettoyage, de la manipulation, de la description, du résumé, de la visualisation et de l'analyse des données. Ce sont des étapes essentielles dans le pipeline de données lorsque vous rencontrez un nouvel ensemble de données, vous aidant à donner un sens aux données dont vous disposez.
Dans cette vidéo, nous allons couvrir une gamme de techniques. Certains d'entre eux vous sont peut-être déjà familiers, tandis que d'autres peuvent être nouveaux pour vous. Nous allons avancer à un rythme rapide, alors n'hésitez pas à faire une pause, à rembobiner et à revoir la vidéo si nécessaire. La plupart des exemples et des démonstrations que je vais montrer peuvent être facilement reproduits sur votre propre ordinateur. Vous n'avez pas besoin de télécharger des données supplémentaires ou de les rechercher en ligne. Les trames de données intégrées dans R serviront d'ensembles de données d'entraînement tout au long de la vidéo.
Mais avant de continuer, assurons-nous que la bibliothèque tidyverse est installée. Je n'entrerai pas dans le processus d'installation ici, mais si vous ne le connaissez pas, je vous recommande de regarder ma vidéo sur les packages. La bibliothèque tidyverse se compose de plusieurs packages qui fournissent une gamme de fonctionnalités pour la manipulation et l'analyse des données. Une fois installé, vous pouvez charger la bibliothèque à l'aide de la bibliothèque de commandes (tidyverse), qui vous donne accès à tous les packages et à leur vocabulaire étendu dans R. De plus, tidyverse comprend également des ensembles de données préchargés que nous pouvons utiliser pour la pratique. Pour visualiser les jeux de données disponibles, vous pouvez utiliser la commande data(), qui affichera une liste des jeux de données accessibles sur votre ordinateur.
Très bien, plongeons dans le contenu. Nous allons travailler avec l'ensemble de données "m_sleep" pour nos démonstrations. Si vous êtes curieux de connaître les détails de l'ensemble de données, vous pouvez utiliser la commande ?m_sleep pour obtenir un résumé et des informations sur chaque variable de l'ensemble de données. Alternativement, nous pouvons utiliser la fonction d'aperçu du tidyverse pour obtenir un aperçu concis de l'ensemble de données, y compris les noms de variables, les types et quelques exemples d'observations.
Maintenant, commençons par notre première leçon : renommer une variable. Renommer une variable est un jeu d'enfant en utilisant la fonction de renommage dans le tidyverse. Nous suivons généralement une approche de pipeline, en commençant par l'ensemble de données, puis en appliquant des transformations à l'aide de l'opérateur pipe %>%. Pour renommer une variable, nous spécifions le nouveau nom avant le signe égal, suivi du nom existant dans la fonction de renommage. Par exemple, nous pouvons renommer la variable "conservation" en "conserve" en utilisant rename(conserve = conservation). Après avoir exécuté le code, nous pouvons observer le nom de la variable mis à jour dans l'ensemble de données.
Passons à autre chose, explorons comment réorganiser les variables. Comme mentionné précédemment, nous avons déjà discuté de la fonction select, qui nous permet de choisir des variables spécifiques. Cependant, il convient de noter que l'ordre des variables dans la fonction de sélection détermine leur ordre dans l'ensemble de données résultant. En spécifiant les noms de variables dans l'ordre souhaité, séparés par des virgules, nous pouvons réorganiser les variables en conséquence. Par exemple, select(var1, var2, ..., everything()) sélectionnera "var1" et "var2" en premier, suivis des variables restantes dans leur ordre d'origine.
Ensuite, discutons de la modification des types de variables. Nous avons déjà abordé ce sujet, mais examinons brièvement le processus. En utilisant la classe de fonction R de base, nous pouvons déterminer le type actuel d'une variable. Par exemple, class(m_sleep$var) affichera le type de variable sous la forme "caractère". Pour changer le type d'une variable dans une nouvelle ligne à des fins de lisibilité, mais vous pouvez tout écrire sur une seule ligne si vous préférez. Maintenant, appliquons le filtre au bloc de données.
Dans cet exemple, nous avons filtré le bloc de données m_sleep pour n'inclure que les observations où la variable d'ordre est soit "Carnivora" soit "Primates". Le sous-ensemble de données résultant est stocké dans l'objet filtered_data.
Passant à l'organisation des données, nous pouvons utiliser la fonction d'organisation. Cette fonction nous permet de trier les lignes du bloc de données en fonction d'une ou plusieurs variables. Trions les données filtrées par la variable vore dans l'ordre décroissant.
Ici, nous avons utilisé la fonction arrange avec l'argument desc(vore), qui trie la trame de données par ordre décroissant en fonction de la variable vore. Les données arrangées résultantes sont stockées dans l'objet arranged_data.
Maintenant, couvrons les données de recodage. Le recodage consiste à modifier les valeurs d'une variable en fonction de certaines conditions. Nous pouvons utiliser la fonction mutate avec la fonction if_else pour accomplir cela.
Dans cet exemple, nous avons recodé la variable vore dans la trame de données arrange_data. Nous avons remplacé la valeur "carni" par "Carnivorous" et toutes les autres valeurs par "Omnivorous". La trame de données modifiée est stockée dans l'objet recoded_data.
Ensuite, explorons la modification des données à l'aide de la fonction mutate. Nous pouvons créer de nouvelles variables ou modifier celles qui existent déjà. Voici un exemple :
Enfin, discutons du remodelage de votre bloc de données. Le remodelage consiste à modifier la structure du bloc de données de large à long ou vice versa. Les fonctions pivot_longer et pivot_wider du package tidyverse sont utiles pour cette tâche. Voici un exemple :
Dans cet exemple, nous avons transformé le bloc de données du format large au format long. Nous avons sélectionné les variables vore, éveillé et sleep_total pour pivoter. Le bloc de données résultant comporte deux nouvelles colonnes : variable et valeur, qui stockent respectivement les noms des variables et les valeurs correspondantes.
C'est tout pour ce tutoriel ! Nous avons couvert divers aspects de la manipulation de votre bloc de données, y compris le changement de nom des variables, la réorganisation des variables, la modification des types de variables, la sélection des variables, le filtrage et l'organisation des données, le recodage des données, la modification des données à l'aide de mutate et la refonte du bloc de données. N'oubliez pas que vous pouvez mettre en pratique tous ces concepts à l'aide des blocs de données intégrés dans R. Bonne bataille de données !
Décrivez et résumez vos données
Décrivez et résumez vos données
Bienvenue à R101 ! Au cours de cette session, nous discuterons de la façon de décrire et de résumer vos données. Le sujet d'aujourd'hui est super facile, alors restez avec moi, et vous apprendrez beaucoup. Cette session fait partie d'une série où nous explorons, nettoyons, manipulons, décrivons et résumons les données. La prochaine vidéo portera sur la visualisation et l'analyse des données. Alors, commençons.
Dans cette vidéo, nous aborderons divers aspects de la description et de la synthèse des données. Premièrement, lorsqu'il s'agit de variables numériques, il existe des paramètres statistiques spécifiques que nous utilisons pour les décrire. Ceux-ci incluent la plage, la propagation, la centralité et la variance. Ne t'inquiète pas; nous allons parcourir ces concepts d'une manière très simple, et cela ne prendra qu'environ 30 secondes.
Ensuite, nous apprendrons à résumer l'ensemble de données. Je vais partager quelques trucs et astuces pour résumer efficacement vos données. Encore une fois, cela ne prendra qu'environ 30 secondes.
Ensuite, nous nous concentrerons sur la création de tableaux pour résumer nos données. Les tableaux sont un excellent moyen de présenter et de résumer efficacement les informations. Nous apprendrons à créer des tableaux qui résument les variables numériques et des tableaux de contingence qui résument les variables catégorielles. Je vais vous montrer quelques exemples, et vous trouverez cela très facile à suivre.
Pour vous donner un aperçu de ce que nous visons, j'ai affiché un exemple de tableau à l'écran. Ce tableau raconte une histoire convaincante et brosse un tableau clair des données. Il a été créé à l'aide du package "formattable" de R, qui permet de créer de beaux tableaux. Cependant, avant de plonger dans la création de tableaux visuellement attrayants, il est crucial de s'assurer que nos données sont correctement structurées. La clé est d'avoir vos données dans un format qui vous permet de raconter une histoire et de présenter une image de manière efficace.
Maintenant, avançons et couvrons les principaux sujets de cette vidéo. Si vous souhaitez apprendre la programmation R, vous êtes au bon endroit. Sur cette chaîne YouTube, nous créons des vidéos de programmation couvrant un large éventail de sujets.
Tout d'abord, si vous ne l'avez pas déjà fait, assurez-vous d'installer les packages nécessaires. Nous travaillons toujours avec les packages "tidyverse", qui élargissent le vocabulaire et les capacités de R. Ils fournissent des outils utiles comme l'opérateur de conduite, que nous utiliserons dans cette vidéo. Si vous n'êtes pas familier avec le tidyverse et les packages qu'il contient, je vous recommande de regarder ma vidéo sur les packages.
Dans nos exemples, nous utiliserons des données accessibles au public auxquelles vous pouvez accéder sur votre ordinateur. En utilisant ces données, vous pouvez mettre en pratique vos compétences d'analyse, de codage et de gestion des données. R fournit une variété d'ensembles de données auxquels vous pouvez accéder en utilisant la fonction "data". Nous travaillerons spécifiquement avec le jeu de données "msleep" dans cette vidéo. Vous pouvez reproduire les étapes que je montre sur votre ordinateur à la maison. Si vous exécutez la commande "view(msleep)", vous pouvez voir la structure de l'ensemble de données. Il contient des variables telles que herbivore, carnivore, omnivore, temps de sommeil, poids du cerveau, etc. C'est un excellent jeu de données avec lequel travailler.
Pour commencer, résumons les variables numériques dans l'ensemble de données. Nous nous concentrerons sur les paramètres statistiques tels que le minimum, le maximum, l'intervalle, l'intervalle interquartile, la moyenne, la médiane et la variance. Pour obtenir ces valeurs, vous pouvez utiliser la fonction "summary" dans R. En exécutant "summary(msleep)", vous verrez le résumé de toutes les variables avec les paramètres correspondants. Vous pouvez également utiliser "résumé" sur une seule variable si vous souhaitez vous concentrer sur des statistiques spécifiques.
Maintenant, disons que nous voulons sélectionner uniquement les variables "sleep_total" et "brain_weight" et les résumer. Vous pouvez y parvenir en sélectionnant les variables à l'aide de la fonction "select" du package tidyverse.
Introduisons maintenant la deuxième variable catégorique, qui est "airbags". Nous pouvons réutiliser la fonction table, mais cette fois nous inclurons les deux variables dans la fonction. Voici le code :
Lorsque nous exécutons ce code, nous obtenons un tableau de contingence qui montre la fréquence des combinaisons entre les deux variables catégorielles. Il affichera quelque chose comme ceci :
Ce tableau nous indique, par exemple, qu'il y a 15 voitures d'origine non américaine sans airbags, 20 voitures avec airbags pour le conducteur uniquement et 10 voitures avec airbags pour le conducteur et le passager. De même, il y a 25 voitures américaines sans airbags, 30 voitures avec airbags pour le conducteur uniquement et 20 voitures avec airbags pour le conducteur et le passager.
Voyons maintenant comment nous pouvons obtenir le même résultat en utilisant l'approche tidyverse. Nous utiliserons les fonctions count et pivot_wider. Voici le code :
Ce code suit l'opérateur pipe %>% pour effectuer une série d'opérations. Tout d'abord, nous utilisons count pour calculer les fréquences de combinaisons entre l'origine et les airbags. Ensuite, nous appliquons pivot_wider pour remodeler les données, en transformant les différents types d'airbags en colonnes séparées. Le tableau résultant ressemblera à celui produit par le code R de base.
Ces exemples montrent comment vous pouvez résumer et créer des tableaux pour décrire vos données en utilisant à la fois la base R et l'approche tidyverse. Il est important de choisir la méthode qui convient à vos préférences et aux exigences spécifiques de votre analyse.
Test du chi carré en utilisant la programmation R
Test du chi carré en utilisant la programmation R
Aujourd'hui, nous allons nous plonger dans le sujet du test du chi carré, en nous concentrant spécifiquement sur le test d'adéquation. Ce test est super facile, alors restez avec moi et explorons-le ensemble.
Tout d'abord, assurez-vous que le package tidyverse est installé. Si vous n'êtes pas familier avec le tidyverse, vous pouvez consulter mes autres vidéos pour en savoir plus. Le tidyverse est une collection de packages R qui élargit le vocabulaire de R et rend l'analyse des données plus efficace. De plus, nous aurons besoin du package "forcats", qui fournit des fonctionnalités étendues pour travailler avec des variables catégorielles. Dans cette leçon, nous utiliserons le jeu de données "GSS_cat" fourni avec le package "forcats".
Une fois les packages installés, examinons le jeu de données "GSS_cat". Il contient diverses variables, dont l'une est « l'état matrimonial ». Nous allons nous concentrer sur cette variable pour notre analyse. Pour avoir une idée des proportions des différents états matrimoniaux, j'ai créé un graphique sur le côté droit de l'écran, montrant les catégories "jamais marié", "divorcé" et "marié". D'après l'intrigue, nous pouvons observer que les proportions semblent différer.
Passons maintenant au test du chi carré. Le but de ce test est de déterminer s'il existe une différence significative dans les proportions de personnes qui ne sont jamais mariées, divorcées ou mariées. Notre hypothèse nulle suppose qu'il n'y a pas de différence, et nous voulons examiner si les données soutiennent cette hypothèse.
Avant de procéder au test, j'aimerais remercier notre sponsor, Native Knowledge. Il s'agit d'une plate-forme en ligne qui facilite l'examen systématique de la littérature et la méta-analyse. Assurez-vous de les vérifier; ils sont absolument incroyables !
Passons maintenant au code. J'ai fourni du code à l'écran pour le nettoyage et la préparation des données. Cela implique de filtrer les données pour n'inclure que les catégories "jamais marié" et "divorcé" et de supprimer les facteurs inutiles. N'hésitez pas à copier le code si vous souhaitez reproduire cette analyse par vous-même. Après avoir exécuté le code, vous aurez un ensemble de données bien rangé avec une seule variable.
Vient maintenant la partie passionnante : effectuer le test du chi carré. Pour appliquer le test, nous devons créer un tableau de nos données. J'ai créé un nouvel objet appelé "my_table" et lui ai assigné la fonction de table, en utilisant notre ensemble de données préparé comme argument. Lorsque nous exécutons le code et visualisons "my_table", nous pouvons voir un tableau avec les données présentées avec soin.
Ensuite, nous pouvons simplement appliquer le test du chi carré à notre table en utilisant la fonction "chisq.test". L'exécution de cette fonction sur "my_table" nous fournira les résultats du test, y compris la valeur p. Dans ce cas, nous avons obtenu une très petite valeur de p, indiquant qu'il est extrêmement peu probable d'observer les différences observées dans les proportions si les catégories avaient des proportions égales. Par conséquent, nous pouvons rejeter l'hypothèse nulle de proportions égales et conclure qu'il existe une différence statistiquement significative entre les états matrimoniaux.
Si vous préférez une approche plus concise, nous pouvons obtenir les mêmes résultats en utilisant les opérateurs de pipe ("%>%") du package tidyverse. En canalisant les données directement dans le tableau, puis dans le test du chi carré, nous pouvons rationaliser le code et obtenir la même réponse.
J'espère que vous avez trouvé cet aperçu du test du chi carré instructif. Si vous souhaitez approfondir le sujet, je vous recommande de regarder la vidéo plus longue sur le test du chi carré, qui fournira une compréhension plus complète de sa mécanique. Continuez votre excellent travail, restez curieux et n'oubliez pas de toujours vous efforcer d'apprendre en continu.
Programmation R en une heure - un cours accéléré pour les débutants
Programmation R en une heure - un cours accéléré pour les débutants
Le didacticiel vidéo propose un cours accéléré sur la programmation R pour les débutants. Il couvre les bases de R et l'accès aux ensembles de données intégrés, les techniques de manipulation de données, l'exploration de données à l'aide de fonctions telles que l'aperçu et les cas complets, les techniques de nettoyage de données telles que le sous-ensemble et le changement de nom, les techniques de visualisation de données utilisant la grammaire des graphiques, les tests T, Tests ANOVA et Chi-carré, modèles linéaires et comment remodeler les trames de données. L'instructeur souligne l'importance d'explorer les ensembles de données et discute des outils pour rendre l'analyse et la visualisation des données plus intuitives, comme le verset tidy et le package ggplot2. La vidéo se termine par une démonstration d'un test du chi carré et d'un modèle linéaire utilisant l'ensemble de données "voitures", en mettant l'accent sur l'interprétation de la sortie.
Population, Échantillon, Paramètre, Statistique
Population, Échantillon, Paramètre, Statistique
Bonjour à tous! Dans la session d'aujourd'hui, nous couvrirons certains des vocabulaires les plus importants dans le domaine des statistiques. Plongeons-nous dans le vif du sujet et commençons par deux concepts fondamentaux : la population et l'échantillon.
Une population fait référence à toutes les données d'intérêt dans une étude particulière, y compris les observations, les réponses, les mesures, etc. D'autre part, un échantillon est un sous-ensemble de cette population. Pour illustrer cela, considérons un sondage politique réalisé par une entreprise. Ils contactent au hasard 1 200 électeurs et les interrogent sur leurs préférences de vote. Dans ce cas, l'échantillon serait la liste des préférences obtenue auprès de ces 1 200 individus. La population, techniquement parlant, serait la liste des préférences de tous les électeurs inscrits. Il est important de noter que la population et l'échantillon font référence aux préférences elles-mêmes, et non aux individus.
Dans la plupart des cas, il n'est pas possible de collecter des données auprès d'une population entière. Au lieu de cela, nous nous appuyons sur des échantillons pour tirer des conclusions sur les populations. C'est l'essence des statistiques inférentielles - utiliser des données d'échantillon pour faire des inférences sur les populations. Passons maintenant aux définitions clés.
Premièrement, un paramètre est une valeur numérique qui décrit une population. Il renseigne sur l'ensemble de la population. Par exemple, dans notre exemple de sondage, le paramètre serait le pourcentage de tous les électeurs inscrits qui ont l'intention de voter pour un candidat particulier.
Deuxièmement, une statistique est une valeur numérique qui décrit un échantillon. Il représente des caractéristiques ou des mesures dérivées des données d'échantillon. Pour en revenir à notre scénario de sondage, si 38 % des 1 200 électeurs de l'échantillon expriment leur intention de voter pour le candidat A, alors 38 % est une statistique, une représentation des préférences de l'échantillon.
En règle générale, nous n'avons accès qu'à la statistique, car il est souvent impossible d'obtenir des paramètres pour l'ensemble de la population. Cependant, notre intérêt ultime réside dans les paramètres puisqu'ils donnent un aperçu de la population globale. Considérons quelques exemples supplémentaires pour solidifier notre compréhension.
Exemple 1 : L'âge moyen de 50 véhicules sélectionnés au hasard immatriculés auprès du DMV de New York est de 8 ans. Ici, la population serait l'âge de tous les véhicules immatriculés auprès du DMV de New York. L'échantillon, dans ce cas, est constitué des âges des 50 véhicules sélectionnés au hasard. Le paramètre serait l'âge moyen de tous les véhicules immatriculés à New York, tandis que la statistique serait l'âge moyen des 50 véhicules sélectionnés au hasard.
Exemple 2 : En 2018, le revenu médian des ménages aux États-Unis était de 63 937 $, tandis qu'à Chicago, il était de 70 760 $. Dans ce scénario, la population fait référence aux revenus de tous les ménages aux États-Unis en 2018, tandis que l'échantillon représente les revenus des ménages à Chicago au cours de la même année. La première valeur, 63 937 $, est un paramètre décrivant la population, tandis que la seconde valeur, 70 760 $, est une statistique représentant l'échantillon.
Comprendre la distinction entre population et échantillon, ainsi que les paramètres et les statistiques, est crucial dans l'analyse statistique. Bien que nous ayons principalement accès à des statistiques, notre objectif est de déduire et d'estimer des paramètres, car ils offrent une perspective plus large sur l'ensemble de la population.
Types de données
Types de données
Bonjour à tous! Aujourd'hui, nous allons discuter de la classification des données, qui implique deux types fondamentaux : les données quantitatives et catégorielles.
Les données quantitatives consistent en des mesures numériques ou des comptages. Il traite de données qui peuvent être mesurées ou exprimées en termes numériques. Des exemples de données quantitatives incluent la taille des femmes en Amérique du Sud, le poids des nouveau-nés dans les hôpitaux britanniques et le nombre de chômeurs dans chaque nation du monde.
D'autre part, les données catégorielles, également appelées données qualitatives, sont constituées d'étiquettes ou de descripteurs. Il s'agit de données qui peuvent être regroupées en catégories ou classes. Des exemples de données catégorielles incluent la couleur des yeux des chats, les affiliations politiques des électeurs et les marques de boissons gazeuses préférées des consommateurs.
Parfois, il peut être difficile de déterminer le type de données, surtout lorsqu'elles apparaissent sous forme de nombres. Un moyen rapide de faire la distinction entre les données catégorielles et quantitatives consiste à déterminer si les opérations numériques, telles que le calcul de moyennes, ont un sens. Si les données sont simplement étiquetées et ne correspondent pas à des mesures ou des comptages significatifs, elles doivent être considérées comme catégoriques. Par exemple, les numéros portés sur les maillots de baseball n'ont aucune signification quantitative et doivent être classés comme des données catégorielles.
Les données catégorielles peuvent être classées en deux types : ordinales et nominales. Les données ordinales utilisent des catégories qui ont un ordre significatif. Un exemple familier est l'échelle de Likert, qui offre des choix comme fortement en désaccord, en désaccord, neutre, d'accord et fortement d'accord. Ces catégories peuvent être classées dans un ordre naturel. En revanche, les données nominales utilisent des catégories qui n'ont pas d'ordre significatif. Les exemples incluent les affiliations politiques, le sexe et les boissons non alcoolisées préférées. Bien que nous puissions imposer un ordre sur les données nominales, ce serait arbitraire et basé sur une opinion personnelle.
De même, les données quantitatives peuvent être classées en deux types : ratio et intervalle. Les données de ratio permettent des ratios et des multiples significatifs. Des variables comme le revenu, le poids et l'âge entrent dans cette catégorie. Il est logique de dire qu'une personne est deux fois plus âgée qu'une autre ou que quelqu'un gagne deux fois moins d'argent qu'un autre. D'autre part, les données d'intervalle ne prennent pas en charge les ratios et les multiples. Des variables telles que la température et l'année civile sont des exemples de données d'intervalle. Il serait inapproprié de dire qu'une température est deux fois plus chaude qu'une autre car le choix du zéro sur l'échelle est arbitraire et n'indique pas l'absence de l'attribut mesuré.
Pour déterminer le niveau de mesure, une approche rapide consiste à vérifier si zéro sur l'échelle correspond à rien ou à aucun. Si zéro signifie l'absence de l'attribut, il indique un niveau de rapport de mesure. Par exemple, zéro kilogramme, 0 $ ou 0 ans impliquent qu'il n'y a pas de poids, pas d'argent ou pas d'âge. En revanche, si zéro ne dénote pas une absence dans un sens réel, il indique un niveau de mesure d'intervalle. Par exemple, zéro degré Fahrenheit ou zéro degré Celsius ne sont que des points arbitraires sur leurs échelles respectives.
Explorons quelques exemples pour pratiquer la classification et le niveau de mesure. Nous déterminerons si les variables sont quantitatives ou catégorielles et identifierons leur niveau de mesure :
Temps d'attente dans une banque : ces données sont constituées de chiffres et ont du sens pour parler de ratios et de multiples. Il s'agit donc de données quantitatives au niveau du rapport de mesure.
Genre des lauréats de l'Oscar du meilleur réalisateur : ces données sont catégoriques et représentent des identifiants plutôt que des chiffres. Il ne peut pas être classé de manière significative, il s'agit donc de données catégorielles au niveau nominal.
Noms des livres figurant sur la liste des best-sellers du New York Times : puisqu'il s'agit de noms, les données sont catégoriques. De plus, les noms peuvent être naturellement classés en premier, deuxième, troisième best-sellers, etc., indiquant des données ordinales.
Heures de la journée des coups de foudre sur l'Empire State Building : Ces données sont quantitatives car il s'agit de mesurer le temps entre les coups de foudre. Cependant, il relève du niveau d'intervalle de mesure car il n'y a pas de point zéro qui représente l'absence de coups de foudre. Les intervalles de temps peuvent être mesurés et comparés, mais zéro ne signifie pas un manque de frappes.
En résumé, la classification des données consiste à différencier les données quantitatives des données catégorielles. Les données quantitatives sont constituées de mesures numériques ou de décomptes, tandis que les données catégorielles sont constituées d'étiquettes ou de descripteurs. Il est important de déterminer si des opérations numériques et des ratios significatifs s'appliquent pour déterminer le type de données.
Les données catégorielles peuvent en outre être classées comme ordinales ou nominales, selon qu'il existe un ordre significatif entre les catégories. Les données ordinales ont un classement naturel, contrairement aux données nominales. De même, les données quantitatives peuvent être classées en tant que ratio ou intervalle en fonction de l'existence ou non de ratios et de multiples significatifs. Les données de ratio autorisent les ratios et les multiples, contrairement aux données d'intervalle.
Comprendre le niveau de mesure est crucial pour sélectionner les analyses statistiques appropriées et interpréter correctement les données. Le niveau de mesure détermine les opérations mathématiques qui peuvent être effectuées sur les données et la signification du zéro sur l'échelle.
En classant avec précision et en déterminant le niveau de mesure des données, les statisticiens et les chercheurs peuvent choisir des techniques statistiques appropriées et tirer des enseignements significatifs de leurs analyses.