Tutoriels de programmation - page 10

 

Recodage des données à l'aide de la programmation R. Utilisation des packages tidyverse et dplyr pour créer une nouvelle variable


Recodage des données à l'aide de la programmation R. Utilisation des packages tidyverse et dplyr pour créer une nouvelle variable

Aujourd'hui, nous allons nous plonger dans le sujet fascinant du recodage des données dans R. Mais d'abord, clarifions ce que nous entendons par recodage des données. Pour illustrer ce processus, nous utiliserons l'ensemble de données Star Wars. Si vous avez déjà installé le package tidyverse sur votre ordinateur, vous aurez accès à cet ensemble de données et pourrez suivre à la maison.

L'ensemble de données Star Wars se compose de lignes représentant des personnages de Star Wars tels que Luke Skywalker, la princesse Leia, etc., et de colonnes représentant diverses variables telles que le nom, la taille, la masse et le sexe. Notre objectif est de transformer le jeu de données d'origine en un nouveau qui contient quelques différences clés.

Dans le jeu de données modifié, que nous allons créer, il y a quelques changements à noter. Tout d'abord, la colonne de hauteur est exprimée en mètres carrés au lieu de centimètres comme dans l'ensemble de données d'origine. Deuxièmement, la colonne "sexe" utilise "M" et "F" pour représenter les hommes et les femmes, respectivement, au lieu des valeurs d'origine. De plus, nous avons supprimé toutes les valeurs manquantes de l'ensemble de données. Enfin, nous avons créé une nouvelle variable appelée "taille" qui catégorise les caractères comme étant "grands" ou "petits" en fonction de critères spécifiques : mesurer plus d'un mètre et peser plus de 75 kg.

Pour commencer, assurons-nous que le package tidyverse est chargé, car il fournit les fonctions nécessaires à la manipulation des données. Vous n'avez besoin d'installer le package qu'une seule fois, mais vous pouvez le charger pour chaque session à l'aide de la fonction library() ou require(). Une fois le package tidyverse chargé, vous aurez également accès à l'ensemble de données Star Wars.

Créons un nouvel objet appelé SW pour travailler avec le jeu de données Star Wars. Nous utiliserons l'opérateur d'affectation (<-) pour affecter le jeu de données Star Wars à l'objet SW. De cette façon, nous pouvons apporter des modifications et effectuer des opérations sans modifier l'ensemble de données d'origine. Maintenant, sélectionnons les variables avec lesquelles nous voulons travailler. Pour ce faire, nous utiliserons l'opérateur de canalisation (%>%) pour enchaîner les opérations.

Tout d'abord, nous utiliserons la fonction select() pour choisir les variables que nous désirons : nom, masse et sexe. De plus, nous allons renommer la variable "mass" en "weight" en utilisant la fonction rename(). En exécutant ce code, les variables sélectionnées seront conservées et la colonne "masse" sera renommée "poids" dans le jeu de données SW.

Ensuite, nous aborderons les valeurs manquantes. Bien que nous ne l'aborderons pas en détail ici, il est important de gérer les valeurs manquantes de manière appropriée dans votre analyse de données. Pour l'instant, nous allons simplement supprimer les valeurs manquantes de l'ensemble de données. Nous aborderons les techniques de gestion des valeurs manquantes dans une vidéo distincte.

Maintenant, concentrons-nous sur la transformation de la variable "taille" de centimètres en mètres. En utilisant la fonction mutate() et l'opérateur pipe, nous allons modifier la colonne "height" en divisant chaque valeur par 100. Cette division garantit que les hauteurs sont exprimées en mètres au lieu de centimètres.

Passant à la variable "sexe", nous remarquons qu'elle contient des valeurs autres que "masculin" et "féminin", comme "MAphrodite". Pour résoudre ce problème, nous souhaitons filtrer l'ensemble de données et ne conserver que les observations avec des valeurs "masculines" et "féminines". Nous allons démontrer deux approches de filtrage. La première approche consiste à utiliser la fonction filter() et à préciser les conditions de rétention des observations de genre "masculin" ou "féminin". La deuxième approche, plus élégante, utilise la concaténation à l'aide de l'opérateur %in% pour conserver les observations avec des valeurs "masculines" ou "féminines". Les deux approches donnent le même résultat - seules les observations "masculines" et "féminines" restent dans l'ensemble de données.

Une fois que nous avons filtré la variable "sexe", nous pouvons procéder au recodage des valeurs dans la variable "sexe". Actuellement, il contient des valeurs "masculin" et "féminin", mais nous voulons les représenter respectivement par "M" et "F". Pour ce faire, nous utiliserons la fonction mutate() et la fonction recode().

Dans la fonction recode(), nous spécifierons la variable que nous voulons recoder, qui est "gender" dans ce cas. Ensuite, nous attribuerons les nouvelles valeurs en utilisant la syntaxe old_value = new_value. Dans notre cas, nous définirons "masculin" pour qu'il soit recodé en "M" et "féminin" en "F".

En exécutant ce code, la variable "gender" dans le jeu de données SW sera mise à jour, en remplaçant "male" et "female" par "M" et "F" respectivement.

Enfin, nous allons créer une nouvelle variable appelée "taille" en fonction de certains critères. La variable "taille" classera les caractères en "gros" ou "petits" en fonction de leur taille et de leur poids. Nous utiliserons à nouveau la fonction mutate() et l'opérateur pipe.

Dans mutate(), nous allons créer la variable "taille" en définissant ses conditions. Nous utiliserons des opérateurs logiques pour vérifier si la taille est supérieure à un mètre et si le poids est supérieur à 75 kilogrammes. Si les conditions sont remplies, nous attribuerons "grand" à l'observation correspondante ; sinon, nous attribuerons "petit". Ceci est réalisé en utilisant la fonction if_else() dans mutate().

Une fois ce code exécuté, la variable "taille" sera ajoutée au jeu de données SW, indiquant si chaque personnage est classé comme "grand" ou "petit" en fonction de sa taille et de son poids.

En conclusion, si vous êtes passionné par l'analyse de données et désireux d'apprendre la programmation R, vous êtes au bon endroit. Appuyez sur le bouton d'abonnement et cliquez sur la cloche de notification pour rester à jour sur les futures vidéos.

Recoding data using R programming. Using the tidyverse and dplyr packages to create a new variable
Recoding data using R programming. Using the tidyverse and dplyr packages to create a new variable
  • 2020.05.15
  • www.youtube.com
This video is about how to recode data and manipulate data using R programming. It is really an R programming for beginners videos. It provides a demonstrati...
 

10 astuces de filtrage de données à l'aide de la programmation R. Utilisez le tidyverse pour filtrer et sous-ensembler vos données.


10 astuces de filtrage de données à l'aide de la programmation R. Utilisez le tidyverse pour filtrer et sous-ensembler vos données.

Dans cette vidéo, nous allons explorer comment filtrer les données dans R à l'aide de la fonction de filtrage. Le filtrage nous permet d'extraire des sous-ensembles spécifiques de données en fonction de certains critères. Pour ce faire, nous utiliserons le package tidyverse, qui fournit un ensemble puissant d'outils pour la manipulation et l'analyse des données dans R. Avant de plonger dans la fonction de filtre, discutons brièvement des bases.

Configuration de l'environnement :
Pour commencer, nous devons charger le package tidyverse à l'aide de la fonction de bibliothèque. Le package tidyverse inclut l'écosystème tidyverse, qui élargit le vocabulaire et les fonctionnalités de R. Si vous n'êtes pas familier avec le tidyverse, je vous recommande de regarder ma vidéo sur les packages pour mieux comprendre.

Exploration des données : pour cette démonstration, nous travaillerons avec l'ensemble de données "msleep", qui est inclus en tant qu'ensemble de données intégré dans le package tidyverse. L'ensemble de données "msleep" contient des informations sur différents mammifères, y compris des variables telles que le nom, le sommeil total, le poids corporel et le poids du cerveau. Cet ensemble de données servira de données d'entraînement pour le filtrage.

Création d'un sous-ensemble de données : Pour créer un sous-ensemble de données, nous allons d'abord faire une copie de l'ensemble de données "msleep" et l'affecter à un nouvel objet appelé "my_data" en utilisant l'opérateur d'affectation "=".

my_data <- msleep

Sélection de variables : Ensuite, nous sélectionnerons des variables spécifiques avec lesquelles nous voulons travailler. Dans ce cas, nous nous intéressons aux colonnes "name" et "sleep_total". Nous utilisons la fonction select pour choisir ces colonnes et stocker le résultat dans l'objet "my_data" à l'aide de l'opérateur d'affectation.

my_data <- my_data %>% select(name, sleep_total)

Filtrage des données : Vient maintenant la partie principale, la fonction de filtrage. Nous utiliserons cette fonction pour extraire des lignes de notre ensemble de données en fonction de critères spécifiques. Il existe plusieurs façons d'utiliser la fonction de filtrage, et je vais vous guider à travers dix exemples différents.

Filtrage par un seul critère :
Pour commencer, filtrons les données pour n'inclure que les mammifères dont le total de sommeil est supérieur à 18. Nous utilisons la fonction de filtrage et spécifions la condition comme "sleep_total > 18".

my_data <- my_data %>% filter(sleep_total > 18)

Filtrage à l'aide du "!" Opérateur:
Nous pouvons également utiliser le "!" opérateur pour filtrer l'opposé d'une condition donnée. Dans ce cas, nous filtrerons les mammifères dont le total de sommeil est inférieur à 18.

my_data <- my_data %>% filter(!(sleep_total < 18))

Filtrage basé sur plusieurs critères utilisant "et":
Nous pouvons filtrer les données en fonction de plusieurs critères en les combinant à l'aide de l'opérateur logique "et" (","). Par exemple, extrayons des mammifères dont l'ordre est "primate" et dont le poids corporel est supérieur à 20.

my_data <- my_data %>% filter(order == "primate", body_weight > 20)

Filtrage basé sur plusieurs critères utilisant "ou":
Dans certains cas, nous pouvons souhaiter extraire des lignes qui répondent à au moins un critère parmi plusieurs. Nous pouvons y parvenir en utilisant l'opérateur logique "ou" ("|"). Par exemple, extrayons des mammifères qui sont soit des vaches, des chiens ou des chèvres.

my_data <- my_data %>% filter(name == "cow" | name == "dog" | name == "goat")

Filtrage à l'aide d'une concaténation :
Au lieu de spécifier chaque critère individuellement, nous pouvons créer une concaténation de valeurs et l'utiliser dans la fonction de filtre. Cette approche offre une manière plus élégante de filtrer plusieurs valeurs. Par exemple, nous pouvons filtrer en créant un vecteur de noms et en l'utilisant dans la fonction de filtrage comme suit :

names_to_filter <- c("cow", "dog", "goat")
my_data <- my_data %>% filter(name %in% names_to_filter)

Filtrage à l'aide de l'opérateur "entre" :
Nous pouvons utiliser l'opérateur "entre" pour filtrer les lignes en fonction d'une plage de valeurs. Filtrons les données pour n'inclure que les mammifères dont le total de sommeil est compris entre 16 et 18 (inclus).

my_data <- my_data %>% filter(between(sleep_total, 16, 18))

Filtrage des valeurs proches d'une valeur spécifique :
Si nous voulons filtrer les observations proches d'une valeur spécifique dans une variable, nous pouvons utiliser la fonction "proche". Par exemple, filtrons les données pour inclure les mammifères avec des totaux de sommeil proches de 17 dans une tolérance de 0,5.

my_data <- my_data %>% filter(near(sleep_total, 17, tolerance = 0.5))

Filtrage des valeurs manquantes :
Pour filtrer les lignes où une variable spécifique a des valeurs manquantes, nous pouvons utiliser la fonction "is.na". Filtrons les données pour n'inclure que les mammifères avec des valeurs manquantes dans la variable "conservation".

my_data <- my_data %>% filter(is.na(conservation))

Filtrage des valeurs non manquantes :
Inversement, si nous voulons filtrer les lignes avec des valeurs manquantes dans une variable spécifique, nous pouvons utiliser le "!" opérateur avec la fonction "is.na". Filtrons les données pour exclure les mammifères avec des valeurs manquantes dans la variable "conservation".

my_data <- my_data %>% filter(!is.na(conservation))

Conclusion : En utilisant la fonction de filtrage et diverses techniques de filtrage, nous pouvons extraire des sous-ensembles spécifiques de données en fonction de nos critères. Le filtrage nous permet de nous concentrer sur les observations pertinentes et de faciliter une analyse plus approfondie. N'oubliez pas d'expérimenter différents critères et combinaisons pour répondre à vos besoins spécifiques de filtrage de données.

Si vous avez trouvé cette vidéo utile et que vous souhaitez en savoir plus sur l'analyse des données et la programmation R, assurez-vous de vous abonner à cette chaîne et d'activer les notifications pour rester à jour sur les futures vidéos.

10 data filtering tips using R programming. Use the tidyverse to filter and subset your data.
10 data filtering tips using R programming. Use the tidyverse to filter and subset your data.
  • 2020.05.22
  • www.youtube.com
In this video you'll learn 10 different ways to filter and subset your data using R programming. This is an R programming for beginners video and forms part ...
 

Nettoyez vos données avec la programmation R.R pour les débutants


Nettoyez vos données avec la programmation R.R pour les débutants

Content de te revoir! Aujourd'hui, nous plongeons dans le sujet du nettoyage des données. Lorsqu'ils travaillent avec des données, de nombreuses personnes sont impatientes de se lancer immédiatement dans l'analyse statistique. Cependant, il est important d'adopter une approche systématique pour garantir des résultats précis et fiables. Dans cette vidéo, nous vous guiderons à travers le processus de nettoyage de vos données, qui est une étape cruciale avant l'analyse.

Tout d'abord, commençons par explorer vos données. J'ai abordé ce sujet dans une vidéo précédente, alors assurez-vous de le vérifier si vous ne l'avez pas déjà fait. L'exploration des données vous aide à vous familiariser avec la structure et le contenu de votre ensemble de données. Une fois que vous avez une bonne compréhension de vos données, vous pouvez passer à leur nettoyage.

Alors, qu'entendons-nous par nettoyer vos données ? Eh bien, il y a quelques tâches clés impliquées. Tout d'abord, il est important de s'assurer que chaque variable est catégorisée correctement. Vous devrez peut-être faire des ajustements et modifier les types de variables si nécessaire. Je vais vous montrer comment faire cela sous peu.

Ensuite, vous pouvez sélectionner les variables avec lesquelles vous souhaitez travailler et filtrer les lignes ou observations indésirables. Cette étape est particulièrement importante lorsqu'il s'agit de grands ensembles de données. Cela vous permet de vous concentrer sur les données spécifiques pertinentes pour votre analyse.

Un autre aspect important du nettoyage des données est la gestion des données manquantes. Nous discuterons des techniques pour trouver et traiter les valeurs manquantes dans cette vidéo. De plus, nous verrons comment identifier et gérer les doublons, ainsi que comment recoder les valeurs si nécessaire.

Avant de continuer, permettez-moi de mentionner que lorsque je travaille avec R, j'utilise toujours les packages tidyverse. Le tidyverse est une collection de packages qui étend les fonctionnalités de R et fournit un large éventail de fonctions utiles. Si vous ne l'avez pas déjà fait, assurez-vous d'installer et de charger les packages tidyverse.

Parlons maintenant des jeux de données que nous allons utiliser. R est livré avec des ensembles de données intégrés que vous pouvez utiliser pour la pratique et l'apprentissage. Dans cette leçon, nous utiliserons le jeu de données Star Wars, qui devient disponible une fois que vous avez installé le tidyverse. Vous pouvez accéder à ces ensembles de données en tapant "data()" et en explorant les options disponibles. Par exemple, vous pouvez afficher le jeu de données Star Wars en tapant "view(starwars)".

Maintenant, concentrons-nous sur les types de variables. Il est important de s'assurer que chaque variable est correctement identifiée et catégorisée. Pour explorer les types de variables dans le jeu de données Star Wars, nous pouvons utiliser la fonction "aperçu (starwars)". Cela fournira un résumé de l'ensemble de données, y compris les noms et les types de variables.

Dans certains cas, vous souhaiterez peut-être convertir une variable de caractère en une variable de facteur. Les facteurs sont des variables catégorielles qui peuvent avoir des niveaux ou des catégories prédéfinis. Pour ce faire, vous pouvez utiliser la fonction "as.factor()". Par exemple, pour convertir la variable "gender" du jeu de données Star Wars en un facteur, vous pouvez utiliser le code "starwars$gender <- as.factor(starwars$gender)". Cela changera le type de variable et mettra à jour l'ensemble de données en conséquence.

Si vous avez besoin de spécifier les niveaux ou les catégories d'une variable factorielle, vous pouvez utiliser la fonction "levels()". Par exemple, si vous voulez changer l'ordre des niveaux dans la variable "gender", vous pouvez utiliser le code "levels(starwars$gender) <- c('masculine', 'feminine')". Cela vous permet de personnaliser l'ordre des catégories en fonction de vos besoins spécifiques.

Ensuite, discutons de la sélection des variables et du filtrage des lignes. Dans R, vous pouvez utiliser la fonction "select()" pour choisir les variables avec lesquelles vous souhaitez travailler. Par exemple, vous pouvez sélectionner des variables telles que "name" et "height" dans l'ensemble de données Star Wars en utilisant le code "select(starwars, name, height, ends_with('color'))".

Pour filtrer les lignes satisfaites. Mais ce n'est pas ce que nous voulons dans ce cas. Nous voulons inclure des observations qui ont des cheveux blonds ou bruns. Par conséquent, nous utilisons l'opérateur logique "ou" (représenté par |) pour spécifier que l'observation doit répondre à l'une ou l'autre des conditions.

Passons maintenant à la partie suivante du nettoyage des données, qui traite des données manquantes. Des données manquantes peuvent se produire dans les ensembles de données pour diverses raisons, et il est important de les gérer de manière appropriée. Dans le cas du jeu de données Star Wars, nous pouvons vérifier les valeurs manquantes en utilisant la fonction is.na().

Pour trouver et traiter les données manquantes, nous pouvons ajouter une autre étape à notre code :

star_wars_filtered <- star_wars %>% select ( name , height , ends_with ( "color" ) ) %>% filter ( hair_color %in% c ( "blonde" , "brown" ) ) %>% filter ( ! is.na ( height ) )

Dans ce code, nous sélectionnons d'abord les variables souhaitées (nom, hauteur et variables se terminant par "couleur"). Ensuite, nous filtrons les valeurs de couleur de cheveux qui sont soit "blondes" soit "brunes". Enfin, nous utilisons la condition !is.na(height) pour exclure toutes les observations où la valeur de hauteur est manquante.

Ensuite, abordons le problème des doublons dans l'ensemble de données. Des doublons peuvent se produire lorsqu'il existe plusieurs observations identiques dans l'ensemble de données. Pour trouver et traiter les doublons, nous pouvons ajouter une autre étape à notre code :

star_wars_filtered <- star_wars_filtered %>% distinct ( )

Dans ce code, nous utilisons la fonction distinct() pour supprimer les observations en double de l'ensemble de données star_wars_filtered, en veillant à ce que chaque observation soit unique.

Enfin, discutons de la façon de recoder les valeurs dans l'ensemble de données. Parfois, nous pouvons avoir besoin de modifier les valeurs de certaines variables pour mieux répondre à notre analyse. Dans ce cas, disons que nous voulons recoder la variable de couleur de cheveux pour avoir "blond" comme 1 et "marron" comme 2. Nous pouvons y parvenir en ajoutant une autre étape à notre code :

star_wars_filtered <- star_wars_filtered %>% mutate ( hair_color = recode ( hair_color , "blonde" = 1 , "brown" = 2 ) )

Ici, nous utilisons la fonction mutate() avec la fonction recode() pour modifier les valeurs de la variable hair_color. Nous précisons que "blond" doit être recodé en 1 et "brun" en 2.

Maintenant, nous avons terminé le processus de nettoyage des données. Nous avons sélectionné les variables souhaitées, filtré les observations indésirables, traité les données manquantes, supprimé les doublons et recodé les valeurs si nécessaire.

N'oubliez pas qu'il ne s'agit que de quelques étapes de base du processus de nettoyage des données, et que les étapes spécifiques peuvent varier en fonction de l'ensemble de données et des exigences d'analyse. Cependant, suivre une approche systématique comme celle-ci peut aider à garantir que vos données sont dans un format propre et approprié pour une analyse plus approfondie.

J'espère que cette explication vous aidera à comprendre le processus de nettoyage de vos données.

Clean your data with R. R programming for beginners.
Clean your data with R. R programming for beginners.
  • 2021.12.15
  • www.youtube.com
If you are a R programming beginner, this video is for you. In it Dr Greg Martin shows you in a step by step manner how to clean you dataset before doing any...
 

Explorez vos données en utilisant la programmation R


Explorez vos données en utilisant la programmation R

Bonjour à tous les passionnés de programmation ! Je m'appelle Greg Martin et je vous souhaite à nouveau la bienvenue à notre session Programmation 101. Aujourd'hui, nous allons aborder le sujet crucial de l'exploration de données avant de plonger dans toute analyse de données. Comprendre les données avec lesquelles vous travaillez est essentiel. Vous devez saisir les dimensions, les paramètres et la taille de votre ensemble de données ou de votre cadre de données. De plus, vous devez être conscient du nombre de variables et de leurs caractéristiques. Cette étape est super importante et remarquablement facile, alors faisons-la ensemble.

Si vous êtes ici pour en savoir plus sur la programmation, vous êtes au bon endroit. Sur cette chaîne YouTube, nous créons des vidéos de programmation couvrant un large éventail de sujets.

Maintenant, permettez-moi de commencer par dire que j'utilise des fonctions et des packages dans le Tidyverse. Si vous n'êtes pas familier avec le Tidyverse, je vous recommande de regarder l'une de mes autres vidéos expliquant sa signification. L'installation du Tidyverse sur votre ordinateur apporte toutes les fonctions, capacités et vocabulaire étendu fournis avec les packages du Tidyverse. Je mentionnerai certains de ces packages au fur et à mesure de notre progression.

Il est important de noter que le Tidyverse comprend également une variété d'ensembles de données intégrés que vous pouvez utiliser pour pratiquer votre analyse de données. Ceci est particulièrement utile, et plus tard, nous utiliserons l'un de ces ensembles de données supplémentaires appelés "guerres des étoiles". L'ensemble de données Star Wars est un peu désordonné, contenant des données manquantes et d'autres problèmes, ce qui en fait un excellent exemple pour explorer et nettoyer les données.

Pour commencer, vous pouvez toujours utiliser le point d'interrogation suivi du nom de la fonction ou du jeu de données pour accéder à la documentation et obtenir des informations sur ce jeu de données particulier. Par exemple, en tapant "?star wars" et en appuyant sur Entrée, vous pouvez accéder aux informations sur les variables présentes dans le jeu de données star wars.

Passons maintenant à certaines fonctions spécifiques. La première fonction que nous allons découvrir est "dim", qui signifie dimensions. En utilisant la commande "dim(star wars)" et en appuyant sur Entrée, nous pouvons déterminer que l'ensemble de données a 87 lignes ou observations et 13 variables.

Une autre fonction courante utilisée pour comprendre la structure d'une trame de données est "str" (structure). Cependant, lorsque nous appliquons "str(star wars)" directement, nous rencontrons une sortie désordonnée en raison de la présence de listes dans l'ensemble de données. Les listes représentent des variables où chaque observation peut être une liste distincte contenant divers points de données ou même une base de données entière. Pour rendre la sortie plus lisible, nous pouvons utiliser la fonction "aperçu" du Tidyverse. Ainsi, en tapant "aperçu (guerres des étoiles)" et en appuyant sur Entrée, nous obtenons un affichage beaucoup plus net de la structure de l'ensemble de données, y compris le nombre d'observations, les variables et leurs types.

Pour afficher l'ensemble de données lui-même, vous pouvez utiliser la fonction « afficher » en tapant « afficher (guerres des étoiles) » et en appuyant sur Entrée. Cela ouvrira une fenêtre affichant l'ensemble de données dans un format soigné et organisé, avec des colonnes représentant des variables et des lignes représentant des observations.

De plus, vous pouvez utiliser les fonctions "head" et "tail" pour afficher rapidement les premières et dernières lignes de l'ensemble de données, respectivement. Par exemple, "head(star wars)" affichera les six premières lignes et "tail(star wars)" affichera les six dernières lignes.

Pour accéder à des variables spécifiques dans l'ensemble de données, vous pouvez utiliser l'opérateur "$". Par exemple, en tapant "star wars$name" et en appuyant sur Entrée, vous pouvez accéder directement à la variable "name".

Une autre fonction utile est "noms", qui vous permet de récupérer les noms de variables dans l'ensemble de données. En tapant "names(star wars)" et en appuyant sur Entrée, vous obtiendrez une liste de toutes les variables présentes. Ceci est avantageux lorsque vous référencez des variables dans votre code, car cela permet d'éviter les fautes de frappe et garantit l'exactitude.

De plus, la fonction "longueur" peut être utilisée pour déterminer le nombre.

La fonction "longueur" peut être utilisée pour déterminer le nombre de variables dans un ensemble de données. Par exemple, en tapant "length(names(star wars))" et en appuyant sur Entrée, vous pouvez connaître le nombre total de variables présentes dans le jeu de données star wars.

Un autre aspect important de l'exploration de données est la compréhension des types de données des variables. La fonction "classe" peut être utilisée pour déterminer la classe ou le type de données d'une variable. Par exemple, si vous voulez connaître le type de données de la variable "name" dans le jeu de données star wars, vous pouvez taper "class(star wars$name)" et appuyer sur Entrée.

Vous pouvez également utiliser la fonction "résumé" pour obtenir des statistiques récapitulatives pour les variables numériques du jeu de données. Par exemple, si vous souhaitez obtenir un résumé de la variable "height", vous pouvez taper "summary(star wars$height)" et appuyer sur Entrée.

Pour filtrer et sous-ensembler l'ensemble de données en fonction de conditions spécifiques, vous pouvez utiliser la fonction "filtrer". Cette fonction vous permet de spécifier des conditions logiques pour sélectionner des lignes répondant à certains critères. Par exemple, si vous souhaitez filtrer l'ensemble de données star wars pour n'inclure que les caractères d'une hauteur supérieure à 150, vous pouvez taper "filter(star wars, height > 150)" et appuyer sur Entrée.

De plus, vous pouvez utiliser la fonction "select" pour choisir des variables ou des colonnes spécifiques dans l'ensemble de données. Ceci est utile lorsque vous souhaitez vous concentrer sur un sous-ensemble de variables pour votre analyse. Par exemple, si vous souhaitez sélectionner uniquement les variables "name" et "height" du jeu de données star wars, vous pouvez taper "select(star wars, name, height)" et appuyer sur Entrée.

L'exploration des données implique également l'examen de la distribution des variables. Le Tidyverse fournit le package "ggplot2", qui offre de puissantes capacités de visualisation de données. Vous pouvez utiliser des fonctions telles que "ggplot" et "geom_histogram" pour créer des histogrammes afin de visualiser la distribution des variables numériques. Par exemple, pour créer un histogramme de la variable "height" dans le jeu de données star wars, vous pouvez utiliser le code suivant :

library(ggplot2)
ggplot(star wars, aes(x = height)) +
  geom_histogram()

Ce code générera un histogramme montrant la distribution des hauteurs de caractères dans le jeu de données star wars.

N'oubliez pas d'installer les packages requis si vous ne l'avez pas déjà fait. Vous pouvez utiliser la fonction "install.packages" pour installer des packages. Par exemple, pour installer le package ggplot2, vous pouvez taper "install.packages('ggplot2')" et appuyer sur Entrée.

Voici quelques-unes des fonctions et techniques essentielles que vous pouvez utiliser pour l'exploration de données dans R. En comprenant la structure, les dimensions, les variables et les types de données de votre jeu de données, vous obtenez des informations précieuses qui vous aident à guider votre processus d'analyse de données.

Explore your data using R programming
Explore your data using R programming
  • 2021.12.03
  • www.youtube.com
When doing data analysis, you need to start with a good understanding of you data. To explore your data, R has some fantastic and easy to use functions. In t...
 

Manipulez vos données. Trafic de données. Programmation R pour débutants.


Manipulez vos données. Trafic de données. Programmation R pour débutants.

Bienvenue à nouveau dans une autre vidéo passionnante sur notre série de programmation. Aujourd'hui, nous allons plonger dans le sujet de la manipulation de votre bloc de données, ensemble de données ou données. Le data wrangling, également connu sous le nom de « data doctoring », peut être très amusant. Il s'agit de la troisième partie de notre série, où nous explorons divers aspects de l'exploration, du nettoyage, de la manipulation, de la description, du résumé, de la visualisation et de l'analyse des données. Ce sont des étapes essentielles dans le pipeline de données lorsque vous rencontrez un nouvel ensemble de données, vous aidant à donner un sens aux données dont vous disposez.

Dans cette vidéo, nous allons couvrir une gamme de techniques. Certains d'entre eux vous sont peut-être déjà familiers, tandis que d'autres peuvent être nouveaux pour vous. Nous allons avancer à un rythme rapide, alors n'hésitez pas à faire une pause, à rembobiner et à revoir la vidéo si nécessaire. La plupart des exemples et des démonstrations que je vais montrer peuvent être facilement reproduits sur votre propre ordinateur. Vous n'avez pas besoin de télécharger des données supplémentaires ou de les rechercher en ligne. Les trames de données intégrées dans R serviront d'ensembles de données d'entraînement tout au long de la vidéo.

Mais avant de continuer, assurons-nous que la bibliothèque tidyverse est installée. Je n'entrerai pas dans le processus d'installation ici, mais si vous ne le connaissez pas, je vous recommande de regarder ma vidéo sur les packages. La bibliothèque tidyverse se compose de plusieurs packages qui fournissent une gamme de fonctionnalités pour la manipulation et l'analyse des données. Une fois installé, vous pouvez charger la bibliothèque à l'aide de la bibliothèque de commandes (tidyverse), qui vous donne accès à tous les packages et à leur vocabulaire étendu dans R. De plus, tidyverse comprend également des ensembles de données préchargés que nous pouvons utiliser pour la pratique. Pour visualiser les jeux de données disponibles, vous pouvez utiliser la commande data(), qui affichera une liste des jeux de données accessibles sur votre ordinateur.

Très bien, plongeons dans le contenu. Nous allons travailler avec l'ensemble de données "m_sleep" pour nos démonstrations. Si vous êtes curieux de connaître les détails de l'ensemble de données, vous pouvez utiliser la commande ?m_sleep pour obtenir un résumé et des informations sur chaque variable de l'ensemble de données. Alternativement, nous pouvons utiliser la fonction d'aperçu du tidyverse pour obtenir un aperçu concis de l'ensemble de données, y compris les noms de variables, les types et quelques exemples d'observations.

Maintenant, commençons par notre première leçon : renommer une variable. Renommer une variable est un jeu d'enfant en utilisant la fonction de renommage dans le tidyverse. Nous suivons généralement une approche de pipeline, en commençant par l'ensemble de données, puis en appliquant des transformations à l'aide de l'opérateur pipe %>%. Pour renommer une variable, nous spécifions le nouveau nom avant le signe égal, suivi du nom existant dans la fonction de renommage. Par exemple, nous pouvons renommer la variable "conservation" en "conserve" en utilisant rename(conserve = conservation). Après avoir exécuté le code, nous pouvons observer le nom de la variable mis à jour dans l'ensemble de données.

Passons à autre chose, explorons comment réorganiser les variables. Comme mentionné précédemment, nous avons déjà discuté de la fonction select, qui nous permet de choisir des variables spécifiques. Cependant, il convient de noter que l'ordre des variables dans la fonction de sélection détermine leur ordre dans l'ensemble de données résultant. En spécifiant les noms de variables dans l'ordre souhaité, séparés par des virgules, nous pouvons réorganiser les variables en conséquence. Par exemple, select(var1, var2, ..., everything()) sélectionnera "var1" et "var2" en premier, suivis des variables restantes dans leur ordre d'origine.

Ensuite, discutons de la modification des types de variables. Nous avons déjà abordé ce sujet, mais examinons brièvement le processus. En utilisant la classe de fonction R de base, nous pouvons déterminer le type actuel d'une variable. Par exemple, class(m_sleep$var) affichera le type de variable sous la forme "caractère". Pour changer le type d'une variable dans une nouvelle ligne à des fins de lisibilité, mais vous pouvez tout écrire sur une seule ligne si vous préférez. Maintenant, appliquons le filtre au bloc de données.

filtered_data <- m_sleep %>% filter ( order == "Carnivora" | order == "Primates" )

Dans cet exemple, nous avons filtré le bloc de données m_sleep pour n'inclure que les observations où la variable d'ordre est soit "Carnivora" soit "Primates". Le sous-ensemble de données résultant est stocké dans l'objet filtered_data.

Passant à l'organisation des données, nous pouvons utiliser la fonction d'organisation. Cette fonction nous permet de trier les lignes du bloc de données en fonction d'une ou plusieurs variables. Trions les données filtrées par la variable vore dans l'ordre décroissant.

arranged_data <- filtered_data %>% arrange ( desc ( vore ) )

Ici, nous avons utilisé la fonction arrange avec l'argument desc(vore), qui trie la trame de données par ordre décroissant en fonction de la variable vore. Les données arrangées résultantes sont stockées dans l'objet arranged_data.

Maintenant, couvrons les données de recodage. Le recodage consiste à modifier les valeurs d'une variable en fonction de certaines conditions. Nous pouvons utiliser la fonction mutate avec la fonction if_else pour accomplir cela.

recoded_data <- arranged_data %>% mutate ( vore = if_else ( vore == "carni" , "Carnivorous" , "Omnivorous" ) )

Dans cet exemple, nous avons recodé la variable vore dans la trame de données arrange_data. Nous avons remplacé la valeur "carni" par "Carnivorous" et toutes les autres valeurs par "Omnivorous". La trame de données modifiée est stockée dans l'objet recoded_data.

Ensuite, explorons la modification des données à l'aide de la fonction mutate. Nous pouvons créer de nouvelles variables ou modifier celles qui existent déjà. Voici un exemple :

modified_data <- recoded_data %>% mutate ( new_variable = vore == "Carnivorous" & awake > 10 )
Dans ce cas, nous avons créé une nouvelle variable appelée new_variable. Sa valeur est basée sur la condition que vore est égal à "Carnivorous" et que la variable awake est supérieure à 10. La trame de données modifiée est stockée dans l'objet modified_data.

Enfin, discutons du remodelage de votre bloc de données. Le remodelage consiste à modifier la structure du bloc de données de large à long ou vice versa. Les fonctions pivot_longer et pivot_wider du package tidyverse sont utiles pour cette tâche. Voici un exemple :

reshaped_data <- modified_data %>% pivot_longer ( cols = c ( vore , awake , sleep_total ) , names_to = "variable" , values_to = "value" )

Dans cet exemple, nous avons transformé le bloc de données du format large au format long. Nous avons sélectionné les variables vore, éveillé et sleep_total pour pivoter. Le bloc de données résultant comporte deux nouvelles colonnes : variable et valeur, qui stockent respectivement les noms des variables et les valeurs correspondantes.

C'est tout pour ce tutoriel ! Nous avons couvert divers aspects de la manipulation de votre bloc de données, y compris le changement de nom des variables, la réorganisation des variables, la modification des types de variables, la sélection des variables, le filtrage et l'organisation des données, le recodage des données, la modification des données à l'aide de mutate et la refonte du bloc de données. N'oubliez pas que vous pouvez mettre en pratique tous ces concepts à l'aide des blocs de données intégrés dans R. Bonne bataille de données !

Manipulate your data. Data wrangling. R programmning for beginners.
Manipulate your data. Data wrangling. R programmning for beginners.
  • 2022.01.19
  • www.youtube.com
If you are learning to use R programming for data analysis then you're going to love this video. It's an "R programming for beginners" video that deals with ...
 

Décrivez et résumez vos données


Décrivez et résumez vos données

Bienvenue à R101 ! Au cours de cette session, nous discuterons de la façon de décrire et de résumer vos données. Le sujet d'aujourd'hui est super facile, alors restez avec moi, et vous apprendrez beaucoup. Cette session fait partie d'une série où nous explorons, nettoyons, manipulons, décrivons et résumons les données. La prochaine vidéo portera sur la visualisation et l'analyse des données. Alors, commençons.

Dans cette vidéo, nous aborderons divers aspects de la description et de la synthèse des données. Premièrement, lorsqu'il s'agit de variables numériques, il existe des paramètres statistiques spécifiques que nous utilisons pour les décrire. Ceux-ci incluent la plage, la propagation, la centralité et la variance. Ne t'inquiète pas; nous allons parcourir ces concepts d'une manière très simple, et cela ne prendra qu'environ 30 secondes.

Ensuite, nous apprendrons à résumer l'ensemble de données. Je vais partager quelques trucs et astuces pour résumer efficacement vos données. Encore une fois, cela ne prendra qu'environ 30 secondes.

Ensuite, nous nous concentrerons sur la création de tableaux pour résumer nos données. Les tableaux sont un excellent moyen de présenter et de résumer efficacement les informations. Nous apprendrons à créer des tableaux qui résument les variables numériques et des tableaux de contingence qui résument les variables catégorielles. Je vais vous montrer quelques exemples, et vous trouverez cela très facile à suivre.

Pour vous donner un aperçu de ce que nous visons, j'ai affiché un exemple de tableau à l'écran. Ce tableau raconte une histoire convaincante et brosse un tableau clair des données. Il a été créé à l'aide du package "formattable" de R, qui permet de créer de beaux tableaux. Cependant, avant de plonger dans la création de tableaux visuellement attrayants, il est crucial de s'assurer que nos données sont correctement structurées. La clé est d'avoir vos données dans un format qui vous permet de raconter une histoire et de présenter une image de manière efficace.

Maintenant, avançons et couvrons les principaux sujets de cette vidéo. Si vous souhaitez apprendre la programmation R, vous êtes au bon endroit. Sur cette chaîne YouTube, nous créons des vidéos de programmation couvrant un large éventail de sujets.

Tout d'abord, si vous ne l'avez pas déjà fait, assurez-vous d'installer les packages nécessaires. Nous travaillons toujours avec les packages "tidyverse", qui élargissent le vocabulaire et les capacités de R. Ils fournissent des outils utiles comme l'opérateur de conduite, que nous utiliserons dans cette vidéo. Si vous n'êtes pas familier avec le tidyverse et les packages qu'il contient, je vous recommande de regarder ma vidéo sur les packages.

Dans nos exemples, nous utiliserons des données accessibles au public auxquelles vous pouvez accéder sur votre ordinateur. En utilisant ces données, vous pouvez mettre en pratique vos compétences d'analyse, de codage et de gestion des données. R fournit une variété d'ensembles de données auxquels vous pouvez accéder en utilisant la fonction "data". Nous travaillerons spécifiquement avec le jeu de données "msleep" dans cette vidéo. Vous pouvez reproduire les étapes que je montre sur votre ordinateur à la maison. Si vous exécutez la commande "view(msleep)", vous pouvez voir la structure de l'ensemble de données. Il contient des variables telles que herbivore, carnivore, omnivore, temps de sommeil, poids du cerveau, etc. C'est un excellent jeu de données avec lequel travailler.

Pour commencer, résumons les variables numériques dans l'ensemble de données. Nous nous concentrerons sur les paramètres statistiques tels que le minimum, le maximum, l'intervalle, l'intervalle interquartile, la moyenne, la médiane et la variance. Pour obtenir ces valeurs, vous pouvez utiliser la fonction "summary" dans R. En exécutant "summary(msleep)", vous verrez le résumé de toutes les variables avec les paramètres correspondants. Vous pouvez également utiliser "résumé" sur une seule variable si vous souhaitez vous concentrer sur des statistiques spécifiques.

Maintenant, disons que nous voulons sélectionner uniquement les variables "sleep_total" et "brain_weight" et les résumer. Vous pouvez y parvenir en sélectionnant les variables à l'aide de la fonction "select" du package tidyverse.

Introduisons maintenant la deuxième variable catégorique, qui est "airbags". Nous pouvons réutiliser la fonction table, mais cette fois nous inclurons les deux variables dans la fonction. Voici le code :

table ( cars $origin , cars $airbags )

Lorsque nous exécutons ce code, nous obtenons un tableau de contingence qui montre la fréquence des combinaisons entre les deux variables catégorielles. Il affichera quelque chose comme ceci :

airbags origin None Driver Driver & Passenger non-us 15 20 10 us 25 30 20

Ce tableau nous indique, par exemple, qu'il y a 15 voitures d'origine non américaine sans airbags, 20 voitures avec airbags pour le conducteur uniquement et 10 voitures avec airbags pour le conducteur et le passager. De même, il y a 25 voitures américaines sans airbags, 30 voitures avec airbags pour le conducteur uniquement et 20 voitures avec airbags pour le conducteur et le passager.

Voyons maintenant comment nous pouvons obtenir le même résultat en utilisant l'approche tidyverse. Nous utiliserons les fonctions count et pivot_wider. Voici le code :

library (tidyverse) cars %>% count (origin, airbags) %>% pivot_wider (names_from = airbags, values_from = n)

Ce code suit l'opérateur pipe %>% pour effectuer une série d'opérations. Tout d'abord, nous utilisons count pour calculer les fréquences de combinaisons entre l'origine et les airbags. Ensuite, nous appliquons pivot_wider pour remodeler les données, en transformant les différents types d'airbags en colonnes séparées. Le tableau résultant ressemblera à celui produit par le code R de base.

Ces exemples montrent comment vous pouvez résumer et créer des tableaux pour décrire vos données en utilisant à la fois la base R et l'approche tidyverse. Il est important de choisir la méthode qui convient à vos préférences et aux exigences spécifiques de votre analyse.

Describe and Summarise your data
Describe and Summarise your data
  • 2022.02.01
  • www.youtube.com
If you want to learn about to summarise your data by making tables in R or provide descriptive statistics of your dataset, then this video is for you. R prog...
 

Test du chi carré en utilisant la programmation R


Test du chi carré en utilisant la programmation R

Aujourd'hui, nous allons nous plonger dans le sujet du test du chi carré, en nous concentrant spécifiquement sur le test d'adéquation. Ce test est super facile, alors restez avec moi et explorons-le ensemble.

Tout d'abord, assurez-vous que le package tidyverse est installé. Si vous n'êtes pas familier avec le tidyverse, vous pouvez consulter mes autres vidéos pour en savoir plus. Le tidyverse est une collection de packages R qui élargit le vocabulaire de R et rend l'analyse des données plus efficace. De plus, nous aurons besoin du package "forcats", qui fournit des fonctionnalités étendues pour travailler avec des variables catégorielles. Dans cette leçon, nous utiliserons le jeu de données "GSS_cat" fourni avec le package "forcats".

Une fois les packages installés, examinons le jeu de données "GSS_cat". Il contient diverses variables, dont l'une est « l'état matrimonial ». Nous allons nous concentrer sur cette variable pour notre analyse. Pour avoir une idée des proportions des différents états matrimoniaux, j'ai créé un graphique sur le côté droit de l'écran, montrant les catégories "jamais marié", "divorcé" et "marié". D'après l'intrigue, nous pouvons observer que les proportions semblent différer.

Passons maintenant au test du chi carré. Le but de ce test est de déterminer s'il existe une différence significative dans les proportions de personnes qui ne sont jamais mariées, divorcées ou mariées. Notre hypothèse nulle suppose qu'il n'y a pas de différence, et nous voulons examiner si les données soutiennent cette hypothèse.

Avant de procéder au test, j'aimerais remercier notre sponsor, Native Knowledge. Il s'agit d'une plate-forme en ligne qui facilite l'examen systématique de la littérature et la méta-analyse. Assurez-vous de les vérifier; ils sont absolument incroyables !

Passons maintenant au code. J'ai fourni du code à l'écran pour le nettoyage et la préparation des données. Cela implique de filtrer les données pour n'inclure que les catégories "jamais marié" et "divorcé" et de supprimer les facteurs inutiles. N'hésitez pas à copier le code si vous souhaitez reproduire cette analyse par vous-même. Après avoir exécuté le code, vous aurez un ensemble de données bien rangé avec une seule variable.

Vient maintenant la partie passionnante : effectuer le test du chi carré. Pour appliquer le test, nous devons créer un tableau de nos données. J'ai créé un nouvel objet appelé "my_table" et lui ai assigné la fonction de table, en utilisant notre ensemble de données préparé comme argument. Lorsque nous exécutons le code et visualisons "my_table", nous pouvons voir un tableau avec les données présentées avec soin.

Ensuite, nous pouvons simplement appliquer le test du chi carré à notre table en utilisant la fonction "chisq.test". L'exécution de cette fonction sur "my_table" nous fournira les résultats du test, y compris la valeur p. Dans ce cas, nous avons obtenu une très petite valeur de p, indiquant qu'il est extrêmement peu probable d'observer les différences observées dans les proportions si les catégories avaient des proportions égales. Par conséquent, nous pouvons rejeter l'hypothèse nulle de proportions égales et conclure qu'il existe une différence statistiquement significative entre les états matrimoniaux.

Si vous préférez une approche plus concise, nous pouvons obtenir les mêmes résultats en utilisant les opérateurs de pipe ("%>%") du package tidyverse. En canalisant les données directement dans le tableau, puis dans le test du chi carré, nous pouvons rationaliser le code et obtenir la même réponse.

J'espère que vous avez trouvé cet aperçu du test du chi carré instructif. Si vous souhaitez approfondir le sujet, je vous recommande de regarder la vidéo plus longue sur le test du chi carré, qui fournira une compréhension plus complète de sa mécanique. Continuez votre excellent travail, restez curieux et n'oubliez pas de toujours vous efforcer d'apprendre en continu.

Chi squared test using R programming
Chi squared test using R programming
  • 2022.11.07
  • www.youtube.com
If you're learning about statistical analysis using R programming then you'll love this video. In it Dr Martin explains how to use R studio and R programming...
 

Programmation R en une heure - un cours accéléré pour les débutants


Programmation R en une heure - un cours accéléré pour les débutants

Le didacticiel vidéo propose un cours accéléré sur la programmation R pour les débutants. Il couvre les bases de R et l'accès aux ensembles de données intégrés, les techniques de manipulation de données, l'exploration de données à l'aide de fonctions telles que l'aperçu et les cas complets, les techniques de nettoyage de données telles que le sous-ensemble et le changement de nom, les techniques de visualisation de données utilisant la grammaire des graphiques, les tests T, Tests ANOVA et Chi-carré, modèles linéaires et comment remodeler les trames de données. L'instructeur souligne l'importance d'explorer les ensembles de données et discute des outils pour rendre l'analyse et la visualisation des données plus intuitives, comme le verset tidy et le package ggplot2. La vidéo se termine par une démonstration d'un test du chi carré et d'un modèle linéaire utilisant l'ensemble de données "voitures", en mettant l'accent sur l'interprétation de la sortie.

  • 00: 00: 00 L'orateur décrit ce qu'il couvrira dans le didacticiel, qui est un cours accéléré pour les débutants en programmation R. Le cours comprendra les bases de R, l'exploration et l'accès aux ensembles de données intégrés, la manipulation des données en les nettoyant, les sélectionnant, les filtrant et les remodelant, décrivant les données à l'aide de variables numériques, visualisant les données à l'aide de différents types de tracés et analysant les données à l'aide d'hypothèses. tests et divers tests tels que les tests t, l'ANOVA, le chi carré et les modèles linéaires. De plus, l'orateur explique les quatre quadrants de RStudio, en se concentrant sur la console et l'environnement, et comment accéder à l'aide à l'aide de la commande de point d'interrogation et des ressources communautaires comme Stack Overflow. Enfin, l'orateur montre comment utiliser R comme calculatrice en attribuant des valeurs à des objets et en leur appliquant des fonctions simples.

  • 00:05:00 L'instructeur présente les trames de données, qui peuvent être créées en combinant des variables à l'aide de la fonction "data.frame" dans R. Il montre comment créer une trame de données et comment afficher sa structure à l'aide de la "vue" et " fonctions str". L'instructeur explique également comment créer des sous-ensembles de parties spécifiques d'un bloc de données à l'aide de la notation "ligne, colonne" et montre comment utiliser les ensembles de données intégrés dans R. De plus, il présente le verset bien rangé, une collection de packages le vocabulaire et les ensembles de données disponibles pour les utilisateurs R, et montre comment utiliser l'opérateur pipe et des fonctions telles que filtrer et muter pour rendre l'analyse et la visualisation des données plus intuitives.

  • 00:10:00 L'instructeur parle de l'exploration d'un jeu de données en utilisant le jeu de données "m sleep" comme exemple. Il montre comment utiliser diverses fonctions, telles que l'aperçu, la longueur, les noms, les cas uniques et complets pour obtenir un aperçu de la structure, des dimensions et des valeurs uniques des données. Il montre également comment créer un objet appelé "manquant" qui inclut toutes les lignes qui ont des données manquantes. L'instructeur insiste sur l'importance d'explorer un ensemble de données pour mieux comprendre son contenu et comment l'exploiter pour l'analyse. Il remercie également Nested Knowledge, une plateforme qui soutient le processus de recherche, pour avoir parrainé la vidéo.

  • 00: 15: 00 L'orateur présente des techniques de nettoyage des données à l'aide de la programmation R, telles que la sélection de variables et la modification de leur ordre avec la fonction select, le renommage des variables avec la fonction rename et la modification des types de variables à l'aide des fonctions as character et mutate. L'orateur explique également comment modifier les niveaux de facteur et utiliser la fonction de filtre pour sélectionner des observations spécifiques en fonction de certains critères.

  • 00: 20: 00 L'instructeur explique comment filtrer les données en fonction de conditions telles que la masse étant inférieure à 55 et le sexe masculin à l'aide de la fonction de recodage. Ils montrent ensuite comment gérer les données manquantes et supprimer les doublons d'un bloc de données à l'aide de la fonction distincte. L'instructeur explique également comment muter des données, à la fois en écrasant des variables existantes et en en créant de nouvelles basées sur des instructions conditionnelles à l'aide de la fonction if else. Enfin, ils introduisent le concept de remodelage des données et montrent comment manipuler un ensemble de données à l'aide du package gap minder.

  • 00:25:00 L'instructeur explique comment remodeler les blocs de données à l'aide des fonctions de pivotement plus large et de pivotement plus long. Tout d'abord, un cadre de données est créé, puis la fonction pivot plus large est utilisée pour le remodeler afin que les années deviennent des en-têtes de colonne et que les espérances de vie se trouvent dans les cellules. Le code est ensuite exécuté en sens inverse pour créer une longue trame de données. L'instructeur montre ensuite comment résumer les données à l'aide de variables numériques, telles que le temps de réveil des mammifères, en calculant la moyenne, la médiane et l'intervalle interquartile. Enfin, l'instructeur fournit un code pour regrouper les données par catégories et calculer les valeurs statistiques pour chaque groupe, telles que les valeurs minimales et maximales, la différence entre elles et la moyenne.

  • 00:30:00 L'instructeur passe en revue la visualisation des données dans R, en commençant par le concept de "grammaire des graphiques". Cela implique de comprendre comment les données sont cartographiées par rapport à l'esthétique comme les axes x et y, la couleur, la forme et la taille, et comment les géométries telles que la ligne, le graphique à barres et l'histogramme peuvent être appliquées pour produire des tracés. Le package ggplot est également présenté comme un outil permettant de créer des graphiques plus sophistiqués. L'instructeur fournit des exemples de codes pour créer des tracés de base et explique comment l'esthétique et la géométrie interagissent pour produire le résultat final.

  • 00:35:00 L'orateur explique comment utiliser ggplot2 pour créer différents types de tracés. Ils commencent par définir les données et la cartographie dans ggplot, puis en ajoutant des géométries telles que des diagrammes à barres et des histogrammes. Ils montrent également comment canaliser les données et comment les manipuler avant de créer un tracé. Ils vont ensuite plus loin en ajoutant de l'esthétique et de la coloration pour tracer avec différentes nuances en fonction des catégories. La vidéo comprend également une brève discussion sur les thèmes et les étiquettes, et utilise des exemples de l'ensemble de données Star Wars tout au long.

  • 00:40:00 Le didacticiel vidéo montre comment créer un nuage de points à l'aide de 'ggplot2' et ajouter une couche supplémentaire à l'aide de 'geom_smooth'. En utilisant 'facet_wrap' avec la variable 'sex', le tutoriel montre comment regarder le nuage de points dans différentes facettes. La section couvre également les tests d'hypothèses à l'aide d'un test T, d'une ANOVA, de tests du chi carré et de modèles linéaires avec des exemples tirés de l'ensemble de données "gap-minder" qui comprend des données sur l'espérance de vie, la population, le PIB par habitant et d'autres facteurs à travers différents pays et régions. Le didacticiel explique comment tester les différences d'espérance de vie entre l'Afrique et l'Europe à l'aide d'un test T, en supposant qu'il n'y a pas de différence comme hypothèse nulle.

  • 00: 45: 00 Ceci est connu sous le nom de test des différences significatives honnêtes de Tukey qui compare toutes les paires de moyennes possibles pour voir s'il existe des différences significatives. Dans cet exemple, nous pouvons voir qu'il existe des différences significatives entre les trois continents, l'Europe ayant l'espérance de vie la plus élevée et l'Afrique la plus faible. Les valeurs de p ajustées nous aident à éviter de tirer de fausses conclusions en tenant compte de plusieurs comparaisons. Dans l'ensemble, le test t et l'ANOVA sont des outils puissants pour analyser les différences entre les groupes dans R.

  • 00: 50: 00 L'instructeur fait la démonstration d'une analyse statistique sur un ensemble de données de différentes espèces d'iris. La première analyse est un test de qualité d'ajustement du chi carré pour déterminer si la proportion des iris qui entrent dans les catégories petit, moyen et grand est égale. Les résultats du test ont montré que les proportions ne sont pas égales, et l'hypothèse nulle est rejetée. La deuxième analyse est un test d'indépendance du chi carré, qui détermine si la valeur d'une variable dépend de la valeur de l'autre. Dans ce cas, l'analyse porte sur la taille et l'espèce des iris. Il ressort des résultats qu'il existe une dépendance entre les deux variables, et l'hypothèse nulle est rejetée.

  • 00: 55: 00 L'instructeur passe en revue un modèle linéaire simple à l'aide de l'ensemble de données "cars" dans R et explique comment interpréter la sortie. La ligne la mieux ajustée est créée à l'aide d'une ordonnée à l'origine et d'une pente, l'ordonnée à l'origine n'ayant pas de sens dans ce cas mais nécessaire pour tracer la ligne. La pente de 3,9 est importante, représentant la distance supplémentaire requise pour chaque augmentation d'une unité de vitesse, et a une valeur p de 0,00 (extrêmement significative sur le plan statistique), rejetant l'hypothèse nulle selon laquelle il n'y a pas de relation entre la vitesse et la distance. La valeur R au carré de 0,65 représente la part du changement de distance jusqu'à l'arrêt qui peut être expliquée par la vitesse de la voiture. La sortie comprend également des résidus et des coefficients, la pente étant la plus importante dans ce contexte. L'instructeur fournit un lien vers une feuille de triche de visualisation de données gratuite et encourage les téléspectateurs à aimer, commenter et s'abonner.
R programming in one hour - a crash course for beginners
R programming in one hour - a crash course for beginners
  • 2022.04.27
  • www.youtube.com
R programming is easy. In this video, I'll walk you though how to clean your data; how to manipulate (or wrangle) your data; how to summarize your data; how ...
 

Population, Échantillon, Paramètre, Statistique


Population, Échantillon, Paramètre, Statistique

Bonjour à tous! Dans la session d'aujourd'hui, nous couvrirons certains des vocabulaires les plus importants dans le domaine des statistiques. Plongeons-nous dans le vif du sujet et commençons par deux concepts fondamentaux : la population et l'échantillon.

Une population fait référence à toutes les données d'intérêt dans une étude particulière, y compris les observations, les réponses, les mesures, etc. D'autre part, un échantillon est un sous-ensemble de cette population. Pour illustrer cela, considérons un sondage politique réalisé par une entreprise. Ils contactent au hasard 1 200 électeurs et les interrogent sur leurs préférences de vote. Dans ce cas, l'échantillon serait la liste des préférences obtenue auprès de ces 1 200 individus. La population, techniquement parlant, serait la liste des préférences de tous les électeurs inscrits. Il est important de noter que la population et l'échantillon font référence aux préférences elles-mêmes, et non aux individus.

Dans la plupart des cas, il n'est pas possible de collecter des données auprès d'une population entière. Au lieu de cela, nous nous appuyons sur des échantillons pour tirer des conclusions sur les populations. C'est l'essence des statistiques inférentielles - utiliser des données d'échantillon pour faire des inférences sur les populations. Passons maintenant aux définitions clés.

Premièrement, un paramètre est une valeur numérique qui décrit une population. Il renseigne sur l'ensemble de la population. Par exemple, dans notre exemple de sondage, le paramètre serait le pourcentage de tous les électeurs inscrits qui ont l'intention de voter pour un candidat particulier.

Deuxièmement, une statistique est une valeur numérique qui décrit un échantillon. Il représente des caractéristiques ou des mesures dérivées des données d'échantillon. Pour en revenir à notre scénario de sondage, si 38 % des 1 200 électeurs de l'échantillon expriment leur intention de voter pour le candidat A, alors 38 % est une statistique, une représentation des préférences de l'échantillon.

En règle générale, nous n'avons accès qu'à la statistique, car il est souvent impossible d'obtenir des paramètres pour l'ensemble de la population. Cependant, notre intérêt ultime réside dans les paramètres puisqu'ils donnent un aperçu de la population globale. Considérons quelques exemples supplémentaires pour solidifier notre compréhension.

Exemple 1 : L'âge moyen de 50 véhicules sélectionnés au hasard immatriculés auprès du DMV de New York est de 8 ans. Ici, la population serait l'âge de tous les véhicules immatriculés auprès du DMV de New York. L'échantillon, dans ce cas, est constitué des âges des 50 véhicules sélectionnés au hasard. Le paramètre serait l'âge moyen de tous les véhicules immatriculés à New York, tandis que la statistique serait l'âge moyen des 50 véhicules sélectionnés au hasard.

Exemple 2 : En 2018, le revenu médian des ménages aux États-Unis était de 63 937 $, tandis qu'à Chicago, il était de 70 760 $. Dans ce scénario, la population fait référence aux revenus de tous les ménages aux États-Unis en 2018, tandis que l'échantillon représente les revenus des ménages à Chicago au cours de la même année. La première valeur, 63 937 $, est un paramètre décrivant la population, tandis que la seconde valeur, 70 760 $, est une statistique représentant l'échantillon.

Comprendre la distinction entre population et échantillon, ainsi que les paramètres et les statistiques, est crucial dans l'analyse statistique. Bien que nous ayons principalement accès à des statistiques, notre objectif est de déduire et d'estimer des paramètres, car ils offrent une perspective plus large sur l'ensemble de la population.

Population, Sample, Parameter, Statistic
Population, Sample, Parameter, Statistic
  • 2020.06.14
  • www.youtube.com
Check out my whole Stats 101 playlist: https://youtube.com/playlist?list=PLKBUk9FL4nBalLCSWT6zQyw19EmIVInT6If this vid helps you, please help me a tiny bit b...
 

Types de données


Types de données

Bonjour à tous! Aujourd'hui, nous allons discuter de la classification des données, qui implique deux types fondamentaux : les données quantitatives et catégorielles.

Les données quantitatives consistent en des mesures numériques ou des comptages. Il traite de données qui peuvent être mesurées ou exprimées en termes numériques. Des exemples de données quantitatives incluent la taille des femmes en Amérique du Sud, le poids des nouveau-nés dans les hôpitaux britanniques et le nombre de chômeurs dans chaque nation du monde.

D'autre part, les données catégorielles, également appelées données qualitatives, sont constituées d'étiquettes ou de descripteurs. Il s'agit de données qui peuvent être regroupées en catégories ou classes. Des exemples de données catégorielles incluent la couleur des yeux des chats, les affiliations politiques des électeurs et les marques de boissons gazeuses préférées des consommateurs.

Parfois, il peut être difficile de déterminer le type de données, surtout lorsqu'elles apparaissent sous forme de nombres. Un moyen rapide de faire la distinction entre les données catégorielles et quantitatives consiste à déterminer si les opérations numériques, telles que le calcul de moyennes, ont un sens. Si les données sont simplement étiquetées et ne correspondent pas à des mesures ou des comptages significatifs, elles doivent être considérées comme catégoriques. Par exemple, les numéros portés sur les maillots de baseball n'ont aucune signification quantitative et doivent être classés comme des données catégorielles.

Les données catégorielles peuvent être classées en deux types : ordinales et nominales. Les données ordinales utilisent des catégories qui ont un ordre significatif. Un exemple familier est l'échelle de Likert, qui offre des choix comme fortement en désaccord, en désaccord, neutre, d'accord et fortement d'accord. Ces catégories peuvent être classées dans un ordre naturel. En revanche, les données nominales utilisent des catégories qui n'ont pas d'ordre significatif. Les exemples incluent les affiliations politiques, le sexe et les boissons non alcoolisées préférées. Bien que nous puissions imposer un ordre sur les données nominales, ce serait arbitraire et basé sur une opinion personnelle.

De même, les données quantitatives peuvent être classées en deux types : ratio et intervalle. Les données de ratio permettent des ratios et des multiples significatifs. Des variables comme le revenu, le poids et l'âge entrent dans cette catégorie. Il est logique de dire qu'une personne est deux fois plus âgée qu'une autre ou que quelqu'un gagne deux fois moins d'argent qu'un autre. D'autre part, les données d'intervalle ne prennent pas en charge les ratios et les multiples. Des variables telles que la température et l'année civile sont des exemples de données d'intervalle. Il serait inapproprié de dire qu'une température est deux fois plus chaude qu'une autre car le choix du zéro sur l'échelle est arbitraire et n'indique pas l'absence de l'attribut mesuré.

Pour déterminer le niveau de mesure, une approche rapide consiste à vérifier si zéro sur l'échelle correspond à rien ou à aucun. Si zéro signifie l'absence de l'attribut, il indique un niveau de rapport de mesure. Par exemple, zéro kilogramme, 0 $ ou 0 ans impliquent qu'il n'y a pas de poids, pas d'argent ou pas d'âge. En revanche, si zéro ne dénote pas une absence dans un sens réel, il indique un niveau de mesure d'intervalle. Par exemple, zéro degré Fahrenheit ou zéro degré Celsius ne sont que des points arbitraires sur leurs échelles respectives.

Explorons quelques exemples pour pratiquer la classification et le niveau de mesure. Nous déterminerons si les variables sont quantitatives ou catégorielles et identifierons leur niveau de mesure :

  1. Temps d'attente dans une banque : ces données sont constituées de chiffres et ont du sens pour parler de ratios et de multiples. Il s'agit donc de données quantitatives au niveau du rapport de mesure.

  2. Genre des lauréats de l'Oscar du meilleur réalisateur : ces données sont catégoriques et représentent des identifiants plutôt que des chiffres. Il ne peut pas être classé de manière significative, il s'agit donc de données catégorielles au niveau nominal.

  3. Noms des livres figurant sur la liste des best-sellers du New York Times : puisqu'il s'agit de noms, les données sont catégoriques. De plus, les noms peuvent être naturellement classés en premier, deuxième, troisième best-sellers, etc., indiquant des données ordinales.

  4. Heures de la journée des coups de foudre sur l'Empire State Building : Ces données sont quantitatives car il s'agit de mesurer le temps entre les coups de foudre. Cependant, il relève du niveau d'intervalle de mesure car il n'y a pas de point zéro qui représente l'absence de coups de foudre. Les intervalles de temps peuvent être mesurés et comparés, mais zéro ne signifie pas un manque de frappes.

En résumé, la classification des données consiste à différencier les données quantitatives des données catégorielles. Les données quantitatives sont constituées de mesures numériques ou de décomptes, tandis que les données catégorielles sont constituées d'étiquettes ou de descripteurs. Il est important de déterminer si des opérations numériques et des ratios significatifs s'appliquent pour déterminer le type de données.

Les données catégorielles peuvent en outre être classées comme ordinales ou nominales, selon qu'il existe un ordre significatif entre les catégories. Les données ordinales ont un classement naturel, contrairement aux données nominales. De même, les données quantitatives peuvent être classées en tant que ratio ou intervalle en fonction de l'existence ou non de ratios et de multiples significatifs. Les données de ratio autorisent les ratios et les multiples, contrairement aux données d'intervalle.

Comprendre le niveau de mesure est crucial pour sélectionner les analyses statistiques appropriées et interpréter correctement les données. Le niveau de mesure détermine les opérations mathématiques qui peuvent être effectuées sur les données et la signification du zéro sur l'échelle.

En classant avec précision et en déterminant le niveau de mesure des données, les statisticiens et les chercheurs peuvent choisir des techniques statistiques appropriées et tirer des enseignements significatifs de leurs analyses.

Types of Data
Types of Data
  • 2020.07.01
  • www.youtube.com
Quantitative vs. categorical data, and the levels of measurement of each. This is some of the fundamental vocabulary of science! If this vid helps you, pleas...