Tutorial di programmazione - pagina 10

 

Ricodifica dei dati utilizzando la programmazione R. Utilizzo dei pacchetti tidyverse e dplyr per creare una nuova variabile


Ricodifica dei dati utilizzando la programmazione R. Utilizzo dei pacchetti tidyverse e dplyr per creare una nuova variabile

Oggi approfondiremo l'affascinante argomento della ricodifica dei dati in R. Ma prima chiariamo cosa intendiamo per ricodifica dei dati. Per illustrare questo processo, utilizzeremo il set di dati di Star Wars. Se hai già installato il pacchetto tidyverse sul tuo computer, avrai accesso a questo set di dati e potrai seguirlo a casa.

Il set di dati di Star Wars è costituito da righe che rappresentano personaggi di Star Wars come Luke Skywalker, la Principessa Leia e altri e colonne che rappresentano varie variabili come nome, altezza, massa e sesso. Il nostro obiettivo è trasformare il set di dati originale in uno nuovo che contenga alcune differenze fondamentali.

Nel set di dati modificato, che creeremo, ci sono alcune modifiche da notare. Innanzitutto, la colonna dell'altezza è espressa in metri quadrati anziché in centimetri come nel set di dati originale. In secondo luogo, la colonna del genere utilizza "M" e "F" per rappresentare rispettivamente maschio e femmina, invece dei valori originali. Inoltre, abbiamo rimosso tutti i valori mancanti dal set di dati. Infine, abbiamo creato una nuova variabile chiamata "dimensione" che classifica i caratteri come "grandi" o "piccoli" in base a criteri specifici: essere più alti di un metro e pesare più di 75 chilogrammi.

Per iniziare, assicuriamoci di aver caricato il pacchetto tidyverse, in quanto fornisce le funzioni necessarie per la manipolazione dei dati. Devi solo installare il pacchetto una volta, ma puoi caricarlo per ogni sessione usando la funzione library() o require(). Una volta caricato il pacchetto tidyverse, avrai anche accesso al set di dati di Star Wars.

Creiamo un nuovo oggetto chiamato SW per lavorare con il set di dati di Star Wars. Useremo l'operatore di assegnazione (<-) per assegnare il set di dati di Star Wars all'oggetto SW. In questo modo, possiamo apportare modifiche ed eseguire operazioni senza modificare il set di dati originale. Ora, selezioniamo le variabili con cui vogliamo lavorare. Per raggiungere questo obiettivo, utilizzeremo l'operatore pipe (%>%) per concatenare le operazioni.

Innanzitutto, utilizzeremo la funzione select() per scegliere le variabili che desideriamo: nome, massa e genere. Inoltre, rinomineremo la variabile "mass" in "weight" usando la funzione rename(). Eseguendo questo codice, le variabili selezionate verranno mantenute e la colonna "massa" verrà rinominata "peso" nel dataset SW.

Successivamente, affronteremo i valori mancanti. Sebbene non ne parleremo in dettaglio qui, è importante gestire i valori mancanti in modo appropriato nell'analisi dei dati. Per ora, rimuoveremo semplicemente i valori mancanti dal set di dati. Tratteremo le tecniche per gestire i valori mancanti in un video separato.

Concentriamoci ora sulla trasformazione della variabile "altezza" da centimetri a metri. Usando la funzione mutate() e l'operatore pipe, modificheremo la colonna "height" dividendo ogni valore per 100. Questa divisione assicura che le altezze siano espresse in metri invece che in centimetri.

Passando alla variabile "genere", notiamo che contiene valori diversi da "maschio" e "femmina", come "MAphrodite". Per risolvere questo problema, vogliamo filtrare il set di dati e mantenere solo le osservazioni con valori "maschili" e "femminili". Dimostreremo due approcci per il filtraggio. Il primo approccio prevede l'utilizzo della funzione filter() e la specifica delle condizioni per conservare le osservazioni con genere "maschile" o "femminile". Il secondo approccio più elegante utilizza la concatenazione utilizzando l'operatore %in% per conservare le osservazioni con valori "maschili" o "femminili". Entrambi gli approcci producono lo stesso risultato: nel set di dati rimangono solo le osservazioni "maschili" e "femminili".

Una volta filtrata la variabile "genere", possiamo procedere alla ricodifica dei valori nella variabile "genere". Attualmente contiene valori "maschio" e "femmina", ma vogliamo rappresentarli rispettivamente come "M" e "F". Per ottenere questo, useremo la funzione mutate() e la funzione recode().

All'interno della funzione recode(), specificheremo la variabile che vogliamo ricodificare, che in questo caso è "gender". Quindi, assegneremo i nuovi valori usando la sintassi vecchio_valore = nuovo_valore. Nel nostro caso, imposteremo "maschio" da ricodificare come "M" e "femmina" come "F".

Eseguendo questo codice, la variabile "genere" nel dataset SW verrà aggiornata, sostituendo rispettivamente "maschio" e "femmina" con "M" e "F".

Infine, creeremo una nuova variabile chiamata "size" basata su determinati criteri. La variabile "size" classificherà i caratteri come "grandi" o "piccoli" a seconda della loro altezza e peso. Useremo ancora la funzione mutate() e l'operatore pipe.

All'interno di mutate(), creeremo la variabile "size" definendone le condizioni. Useremo gli operatori logici per verificare se l'altezza è maggiore di un metro e il peso è maggiore di 75 chilogrammi. Se le condizioni sono soddisfatte, assegneremo "grande" all'osservazione corrispondente; in caso contrario, assegneremo "piccolo". Ciò si ottiene utilizzando la funzione if_else() all'interno di mutate().

Una volta eseguito questo codice, la variabile "size" verrà aggiunta al dataset SW, indicando se ogni carattere è classificato come "grande" o "piccolo" in base alla loro altezza e peso.

In conclusione, se sei appassionato di analisi dei dati e desideroso di imparare la programmazione in R, sei nel posto giusto. Premi il pulsante iscriviti e fai clic sulla campanella delle notifiche per rimanere aggiornato sui video futuri.

Recoding data using R programming. Using the tidyverse and dplyr packages to create a new variable
Recoding data using R programming. Using the tidyverse and dplyr packages to create a new variable
  • 2020.05.15
  • www.youtube.com
This video is about how to recode data and manipulate data using R programming. It is really an R programming for beginners videos. It provides a demonstrati...
 

10 suggerimenti per il filtraggio dei dati utilizzando la programmazione R. Usa il tidyverse per filtrare e creare sottoinsiemi di dati.


10 suggerimenti per il filtraggio dei dati utilizzando la programmazione R. Usa il tidyverse per filtrare e creare sottoinsiemi di dati.

In questo video, esploreremo come filtrare i dati in R utilizzando la funzione filtro. Il filtraggio ci consente di estrarre specifici sottoinsiemi di dati in base a determinati criteri. Per fare ciò, utilizzeremo il pacchetto tidyverse, che fornisce un potente set di strumenti per la manipolazione e l'analisi dei dati in R. Prima di immergerci nella funzione filtro, discutiamo brevemente le basi.

Configurazione dell'ambiente:
Per iniziare, dobbiamo caricare il pacchetto tidyverse usando la funzione libreria. Il pacchetto tidyverse include l'ecosistema tidyverse, che espande il vocabolario e la funzionalità di R. Se non hai familiarità con il tidyverse, ti consiglio di guardare il mio video sui pacchetti per avere una migliore comprensione.

Esplorazione dei dati: per questa dimostrazione, lavoreremo con il set di dati "msleep", che è incluso come set di dati integrato nel pacchetto tidyverse. Il set di dati "msleep" contiene informazioni su diversi mammiferi, incluse variabili come nome, sonno totale, peso corporeo e peso cerebrale. Questo set di dati servirà come dati pratici per il filtraggio.

Creazione di un sottoinsieme di dati: per creare un sottoinsieme di dati, prima creeremo una copia del set di dati "msleep" e lo assegneremo a un nuovo oggetto chiamato "my_data" utilizzando l'operatore di assegnazione "=".

my_data <- msleep

Selezione delle variabili: Successivamente, selezioneremo le variabili specifiche con cui vogliamo lavorare. In questo caso, siamo interessati alle colonne "name" e "sleep_total". Utilizziamo la funzione select per scegliere queste colonne e archiviare il risultato nell'oggetto "my_data" utilizzando l'operatore di assegnazione.

my_data <- my_data %>% select(name, sleep_total)

Filtraggio dei dati: ora arriva la parte principale, la funzione di filtro. Useremo questa funzione per estrarre righe dal nostro set di dati in base a criteri specifici. Esistono diversi modi in cui possiamo utilizzare la funzione filtro e ti guiderò attraverso dieci diversi esempi.

Filtraggio in base a un singolo criterio:
Per iniziare, filtriamo i dati per includere solo i mammiferi in cui il totale del sonno è superiore a 18. Usiamo la funzione filtro e specifichiamo la condizione come "sleep_total > 18".

my_data <- my_data %>% filter(sleep_total > 18)

Filtraggio utilizzando il "!" Operatore:
Possiamo anche usare il "!" operatore per filtrare l'opposto di una data condizione. In questo caso, filtreremo i mammiferi con un totale di ore di sonno inferiore a 18.

my_data <- my_data %>% filter(!(sleep_total < 18))

Filtraggio basato su criteri multipli utilizzando "e":
Possiamo filtrare i dati in base a più criteri combinandoli utilizzando l'operatore logico "e" (","). Ad esempio, estraiamo i mammiferi in cui l'ordine è "primate" e il peso corporeo è superiore a 20.

my_data <- my_data %>% filter(order == "primate", body_weight > 20)

Filtraggio basato su più criteri utilizzando "o":
In alcuni casi, potremmo voler estrarre le righe che soddisfano almeno uno dei diversi criteri. Possiamo ottenere ciò utilizzando l'operatore logico "o" ("|"). Ad esempio, estraiamo mammiferi che sono mucche, cani o capre.

my_data <- my_data %>% filter(name == "cow" | name == "dog" | name == "goat")

Filtraggio utilizzando una concatenazione:
Invece di specificare ogni criterio individualmente, possiamo creare una concatenazione di valori e utilizzarla all'interno della funzione filtro. Questo approccio fornisce un modo più elegante per filtrare più valori. Ad esempio, possiamo filtrare creando un vettore di nomi e utilizzandolo nella funzione filtro come segue:

names_to_filter <- c("cow", "dog", "goat")
my_data <- my_data %>% filter(name %in% names_to_filter)

Filtraggio utilizzando l'operatore "tra":
Possiamo utilizzare l'operatore "tra" per filtrare le righe in base a un intervallo di valori. Filtriamo i dati per includere solo i mammiferi con totali di sonno compresi tra 16 e 18 (inclusi).

my_data <- my_data %>% filter(between(sleep_total, 16, 18))

Filtraggio per valori vicini a un valore specifico:
Se vogliamo filtrare le osservazioni vicine a un valore specifico all'interno di una variabile, possiamo utilizzare la funzione "near". Ad esempio, filtriamo i dati per includere i mammiferi con un totale di sonno vicino a 17 entro una tolleranza di 0,5.

my_data <- my_data %>% filter(near(sleep_total, 17, tolerance = 0.5))

Filtraggio per valori mancanti:
Per filtrare le righe in cui una variabile specifica ha valori mancanti, possiamo utilizzare la funzione "is.na". Filtriamo i dati per includere solo i mammiferi con valori mancanti nella variabile "conservazione".

my_data <- my_data %>% filter(is.na(conservation))

Filtraggio per valori non mancanti:
Al contrario, se vogliamo filtrare le righe con valori mancanti in una variabile specifica, possiamo usare il "!" operatore insieme alla funzione "is.na". Filtriamo i dati per escludere i mammiferi con valori mancanti nella variabile "conservazione".

my_data <- my_data %>% filter(!is.na(conservation))

Conclusione: utilizzando la funzione filtro e varie tecniche di filtraggio, possiamo estrarre specifici sottoinsiemi di dati in base ai nostri criteri. Il filtraggio ci consente di concentrarci sulle osservazioni rilevanti e facilitare ulteriori analisi. Ricordati di sperimentare criteri e combinazioni diversi per soddisfare le tue specifiche esigenze di filtraggio dei dati.

Se hai trovato utile questo video e vuoi saperne di più sull'analisi dei dati e sulla programmazione R, assicurati di iscriverti a questo canale e abilitare le notifiche per rimanere aggiornato sui video futuri.

10 data filtering tips using R programming. Use the tidyverse to filter and subset your data.
10 data filtering tips using R programming. Use the tidyverse to filter and subset your data.
  • 2020.05.22
  • www.youtube.com
In this video you'll learn 10 different ways to filter and subset your data using R programming. This is an R programming for beginners video and forms part ...
 

Pulisci i tuoi dati con la programmazione R.R per principianti


Pulisci i tuoi dati con la programmazione R.R per principianti

Bentornato! Oggi ci addentreremo nell'argomento della pulizia dei dati. Quando si lavora con i dati, molte persone sono ansiose di lanciarsi subito nell'analisi statistica. Tuttavia, è importante adottare un approccio sistematico per garantire risultati accurati e affidabili. In questo video, ti guideremo attraverso il processo di pulizia dei tuoi dati, che è un passaggio cruciale prima dell'analisi.

Innanzitutto, iniziamo esplorando i tuoi dati. Ho trattato questo argomento in un video precedente, quindi assicurati di dare un'occhiata se non l'hai già fatto. L'esplorazione dei dati ti aiuta a familiarizzare con la struttura e il contenuto del tuo set di dati. Una volta che hai una buona comprensione dei tuoi dati, puoi passare alla loro pulizia.

Quindi, cosa intendiamo per pulizia dei dati? Bene, ci sono alcuni compiti chiave coinvolti. Innanzitutto, è importante assicurarsi che ogni variabile sia classificata correttamente. Potrebbe essere necessario apportare modifiche e modificare i tipi di variabile secondo necessità. Ti mostrerò come farlo a breve.

Successivamente, potresti voler selezionare le variabili con cui vuoi lavorare e filtrare eventuali righe o osservazioni indesiderate. Questo passaggio è particolarmente importante quando si ha a che fare con set di dati di grandi dimensioni. Ti consente di concentrarti sui dati specifici rilevanti per la tua analisi.

Un altro aspetto importante della pulizia dei dati è la gestione dei dati mancanti. Discuteremo le tecniche per trovare e gestire i valori mancanti in questo video. Inoltre, tratteremo come identificare e gestire i duplicati, nonché come ricodificare i valori se necessario.

Prima di procedere, vorrei menzionare che quando lavoro con R, utilizzo sempre i pacchetti tidyverse. Il tidyverse è una raccolta di pacchetti che estende le funzionalità di R e fornisce un'ampia gamma di funzioni utili. Se non l'hai già fatto, assicurati di installare e caricare i pacchetti tidyverse.

Ora parliamo dei set di dati che utilizzeremo. R viene fornito con set di dati integrati che puoi utilizzare per la pratica e l'apprendimento. In questa lezione utilizzeremo il set di dati di Star Wars, che diventa disponibile una volta installato il tidyverse. Puoi accedere a questi set di dati digitando "data()" ed esplorando le opzioni disponibili. Ad esempio, puoi visualizzare il set di dati di Star Wars digitando "view(starwars)".

Ora concentriamoci sui tipi di variabili. È importante assicurarsi che ogni variabile sia correttamente identificata e classificata. Per esplorare i tipi di variabili nel set di dati di Star Wars, possiamo utilizzare la funzione "glimpse(starwars)". Ciò fornirà un riepilogo del set di dati, inclusi i nomi e i tipi di variabili.

In alcuni casi, potresti voler convertire una variabile carattere in una variabile fattore. I fattori sono variabili categoriali che possono avere livelli o categorie predefiniti. Per fare questo, puoi usare la funzione "as.factor()". Ad esempio, per convertire la variabile "gender" nel set di dati di Star Wars in un fattore, puoi utilizzare il codice "starwars$gender <- as.factor(starwars$gender)". Questo cambierà il tipo di variabile e aggiornerà il set di dati di conseguenza.

Se è necessario specificare i livelli o le categorie di una variabile fattore, è possibile utilizzare la funzione "livelli()". Per esempio, se vuoi cambiare l'ordine dei livelli nella variabile "gender", puoi usare il codice "levels(starwars$gender) <- c('masculine', 'feminine')". Ciò consente di personalizzare l'ordine delle categorie in base alle proprie esigenze specifiche.

Successivamente, discuteremo la selezione delle variabili e il filtraggio delle righe. In R, puoi usare la funzione "select ()" per scegliere le variabili con cui vuoi lavorare. Ad esempio, puoi selezionare variabili come "nome" e "altezza" dal set di dati di Star Wars utilizzando il codice "seleziona(starwars, nome, altezza, estremità_con('colore'))".

Per filtrare le righe soddisfatte. Ma non è quello che vogliamo in questo caso. Vogliamo includere le osservazioni che hanno il colore dei capelli biondi o castani. Pertanto, utilizziamo l'operatore logico "o" (rappresentato da |) per specificare che l'osservazione deve soddisfare una delle condizioni.

Passiamo ora alla parte successiva della pulizia dei dati, che riguarda i dati mancanti. I dati mancanti possono verificarsi nei set di dati per vari motivi ed è importante gestirli in modo appropriato. Nel caso del set di dati di Star Wars, possiamo controllare i valori mancanti utilizzando la funzione is.na().

Per trovare e gestire i dati mancanti, possiamo aggiungere un altro passaggio al nostro codice:

star_wars_filtered <- star_wars %>% select ( name , height , ends_with ( "color" ) ) %>% filter ( hair_color %in% c ( "blonde" , "brown" ) ) %>% filter ( ! is.na ( height ) )

In questo codice, selezioniamo prima le variabili desiderate (nome, altezza e variabili che terminano con "color"). Quindi filtriamo i valori del colore dei capelli che sono "biondi" o "castani". Infine, utilizziamo la condizione !is.na(height) per escludere qualsiasi osservazione in cui manca il valore dell'altezza.

Successivamente, affrontiamo il problema dei duplicati nel set di dati. I duplicati possono verificarsi quando sono presenti più osservazioni identiche nel set di dati. Per trovare e gestire i duplicati, possiamo aggiungere un altro passaggio al nostro codice:

star_wars_filtered <- star_wars_filtered %>% distinct ( )

In questo codice, utilizziamo la funzione distinte() per rimuovere le osservazioni duplicate dal set di dati star_wars_filtered, assicurandoci che ogni osservazione sia univoca.

Infine, discutiamo come ricodificare i valori nel set di dati. A volte, potremmo aver bisogno di modificare i valori di determinate variabili per adattarle meglio alla nostra analisi. In questo caso, supponiamo di voler ricodificare la variabile del colore dei capelli in modo da avere "biondo" come 1 e "castano" come 2. Possiamo ottenere ciò aggiungendo un altro passaggio al nostro codice:

star_wars_filtered <- star_wars_filtered %>% mutate ( hair_color = recode ( hair_color , "blonde" = 1 , "brown" = 2 ) )

Qui usiamo la funzione mutate() insieme alla funzione recode() per modificare i valori della variabile hair_color. Precisiamo che "biondo" va ricodificato come 1 e "marrone" come 2.

Ora abbiamo completato il processo di pulizia dei dati. Abbiamo selezionato le variabili desiderate, filtrato le osservazioni indesiderate, gestito i dati mancanti, rimosso i duplicati e ricodificato i valori se necessario.

Ricorda, questi sono solo alcuni passaggi di base nel processo di pulizia dei dati e i passaggi specifici possono variare a seconda del set di dati e dei requisiti di analisi. Tuttavia, seguire un approccio sistematico come questo può aiutare a garantire che i dati siano in un formato pulito e adatto per ulteriori analisi.

Spero che questa spiegazione ti aiuti a capire il processo di pulizia dei tuoi dati.

Clean your data with R. R programming for beginners.
Clean your data with R. R programming for beginners.
  • 2021.12.15
  • www.youtube.com
If you are a R programming beginner, this video is for you. In it Dr Greg Martin shows you in a step by step manner how to clean you dataset before doing any...
 

Esplora i tuoi dati utilizzando la programmazione R


Esplora i tuoi dati utilizzando la programmazione R

Ciao a tutti voi appassionati di programmazione! Mi chiamo Greg Martin e vi do il bentornato alla nostra sessione di Programmazione 101. Oggi discuteremo l'argomento cruciale dell'esplorazione dei dati prima di immergerci in qualsiasi analisi dei dati. Comprendere i dati con cui stai lavorando è essenziale. Devi cogliere le dimensioni, i parametri e le dimensioni del tuo set di dati o frame di dati. Inoltre, dovresti essere consapevole del numero di variabili e delle loro caratteristiche. Questo passaggio è estremamente importante e straordinariamente facile, quindi facciamolo insieme.

Se sei qui per conoscere la programmazione, sei nel posto giusto. Su questo canale YouTube, creiamo video di programmazione che coprono una vasta gamma di argomenti.

Ora, vorrei iniziare dicendo che utilizzo funzioni e pacchetti all'interno di Tidyverse. Se non hai familiarità con il Tidyverse, ti consiglio di guardare uno dei miei altri video che ne spiegano il significato. L'installazione di Tidyverse sul tuo computer offre tutte le funzioni, le capacità e il vocabolario ampliato forniti con i pacchetti di Tidyverse. Citerò alcuni di questi pacchetti man mano che avanziamo.

È importante sottolineare che Tidyverse include anche una varietà di set di dati integrati che puoi utilizzare per esercitarti nell'analisi dei dati. Questo è particolarmente utile e in seguito utilizzeremo uno di questi set di dati aggiuntivi chiamati "guerre stellari". Il set di dati di Star Wars è un po' disordinato, contiene dati mancanti e altri problemi, il che lo rende un ottimo esempio per l'esplorazione e la pulizia dei dati.

Per iniziare, puoi sempre utilizzare il punto interrogativo seguito dalla funzione o dal nome del dataset per accedere alla documentazione e ottenere informazioni su quel particolare dataset. Ad esempio, digitando "?star wars" e premendo Invio, è possibile accedere alle informazioni sulle variabili presenti nel dataset di star wars.

Passiamo ora ad alcune funzioni specifiche. La prima funzione che impareremo è "dim", che sta per dimensioni. Usando il comando "dim(star wars)" e premendo Invio, possiamo determinare che il set di dati ha 87 righe o osservazioni e 13 variabili.

Un'altra funzione comune utilizzata per comprendere la struttura di un frame di dati è "str" (struttura). Tuttavia, quando applichiamo "str(star wars)" direttamente, incontriamo un output disordinato a causa della presenza di elenchi all'interno del set di dati. Gli elenchi rappresentano variabili in cui ogni osservazione può essere un elenco separato contenente vari punti dati o anche un intero dataframe. Per rendere l'output più leggibile, possiamo usare la funzione "glimpse" dal Tidyverse. Quindi, digitando "glimpse(star wars)" e premendo Invio, otteniamo una visualizzazione molto più ordinata della struttura del set di dati, incluso il numero di osservazioni, variabili e i loro tipi.

Per visualizzare il set di dati stesso, puoi utilizzare la funzione "view" digitando "view(star wars)" e premendo Invio. Si aprirà una finestra che mostra il set di dati in un formato ordinato e organizzato, con colonne che rappresentano le variabili e righe che rappresentano le osservazioni.

Inoltre, puoi utilizzare le funzioni "head" e "tail" per visualizzare rapidamente rispettivamente la prima e l'ultima riga del set di dati. Ad esempio, "head(star wars)" visualizzerà le prime sei righe e "tail(star wars)" mostrerà le ultime sei righe.

Per accedere a variabili specifiche all'interno del set di dati, è possibile utilizzare l'operatore "$". Ad esempio, digitando "star wars$name" e premendo Invio, puoi accedere direttamente alla variabile "name".

Un'altra funzione utile è "nomi", che consente di recuperare i nomi delle variabili all'interno del set di dati. Digitando "names(star wars)" e premendo Invio si otterrà un elenco di tutte le variabili presenti. Ciò è utile quando si fa riferimento a variabili nel codice, poiché aiuta a evitare errori di battitura e garantisce la precisione.

Inoltre, la funzione "lunghezza" può essere utilizzata per determinare il numero.

La funzione "lunghezza" può essere utilizzata per determinare il numero di variabili all'interno di un set di dati. Ad esempio, digitando "length(names(star wars))" e premendo Invio, puoi scoprire il numero totale di variabili presenti nel set di dati di Star Wars.

Un altro aspetto importante dell'esplorazione dei dati è la comprensione dei tipi di dati delle variabili. La funzione "classe" può essere utilizzata per determinare la classe o il tipo di dati di una variabile. Ad esempio, se desideri conoscere il tipo di dati della variabile "name" nel set di dati di Star Wars, puoi digitare "class(star wars$name)" e premere Invio.

È inoltre possibile utilizzare la funzione "riepilogo" per ottenere statistiche di riepilogo per le variabili numeriche nel set di dati. Ad esempio, se desideri ottenere un riepilogo della variabile "height", puoi digitare "summary(star wars$height)" e premere Invio.

Per filtrare e creare sottoinsiemi del set di dati in base a condizioni specifiche, è possibile utilizzare la funzione "filtro". Questa funzione consente di specificare le condizioni logiche per selezionare le righe che soddisfano determinati criteri. Ad esempio, se desideri filtrare il set di dati di Star Wars per includere solo caratteri con un'altezza maggiore di 150, puoi digitare "filter(star wars, height > 150)" e premere Invio.

Inoltre, puoi utilizzare la funzione "seleziona" per scegliere variabili o colonne specifiche dal set di dati. Questo è utile quando vuoi concentrarti su un sottoinsieme di variabili per la tua analisi. Ad esempio, se desideri selezionare solo le variabili "name" e "height" dal set di dati di Star Wars, puoi digitare "select(star wars, name, height)" e premere Invio.

L'esplorazione dei dati implica anche l'esame della distribuzione delle variabili. Tidyverse fornisce il pacchetto "ggplot2", che offre potenti capacità di visualizzazione dei dati. Puoi utilizzare funzioni come "ggplot" e "geom_histogram" per creare istogrammi per visualizzare la distribuzione delle variabili numeriche. Ad esempio, per creare un istogramma della variabile "altezza" nel set di dati di Star Wars, puoi utilizzare il seguente codice:

library(ggplot2)
ggplot(star wars, aes(x = height)) +
  geom_histogram()

Questo codice genererà un istogramma che mostra la distribuzione delle altezze dei caratteri nel set di dati di Star Wars.

Ricordati di installare i pacchetti richiesti se non lo hai già fatto. È possibile utilizzare la funzione "install.packages" per installare i pacchetti. Ad esempio, per installare il pacchetto ggplot2, puoi digitare "install.packages('ggplot2')" e premere Invio.

Queste sono alcune delle funzioni e delle tecniche essenziali che puoi utilizzare per l'esplorazione dei dati in R. Comprendendo la struttura, le dimensioni, le variabili e i tipi di dati del tuo set di dati, ottieni preziose informazioni che aiutano a guidare il tuo processo di analisi dei dati.

Explore your data using R programming
Explore your data using R programming
  • 2021.12.03
  • www.youtube.com
When doing data analysis, you need to start with a good understanding of you data. To explore your data, R has some fantastic and easy to use functions. In t...
 

Manipola i tuoi dati. Conflitto di dati. Programmazione R per principianti.


Manipola i tuoi dati. Conflitto di dati. Programmazione R per principianti.

Bentornati a un altro entusiasmante video sulla nostra serie di programmazione. Oggi approfondiremo l'argomento della manipolazione del frame di dati, del set di dati o dei dati. Il data wrangling, noto anche come "data doctoring", può essere molto divertente. Questa è la terza parte della nostra serie, in cui esploriamo vari aspetti dell'esplorazione, pulizia, manipolazione, descrizione, riepilogo, visualizzazione e analisi dei dati. Questi sono passaggi essenziali nella pipeline dei dati quando incontri un nuovo set di dati, aiutandoti a dare un senso ai dati che hai.

In questo video tratteremo una serie di tecniche. Alcuni di loro potresti già conoscerli, mentre altri potrebbero essere nuovi per te. Ci muoveremo a un ritmo veloce, quindi sentiti libero di mettere in pausa, riavvolgere e rivedere il video se necessario. La maggior parte degli esempi e delle dimostrazioni che mostrerò possono essere facilmente replicati sul proprio computer. Non è necessario scaricare dati aggiuntivi o cercarli online. I frame di dati incorporati in R serviranno come set di dati di esercitazione in tutto il video.

Ma prima di procedere, assicuriamoci di aver installato la libreria tidyverse. Non entrerò nel processo di installazione qui, ma se non lo conosci, ti consiglio di guardare il mio video sui pacchetti. La libreria tidyverse è composta da più pacchetti che forniscono una gamma di funzionalità per la manipolazione e l'analisi dei dati. Una volta installata, puoi caricare la libreria usando il comando library(tidyverse), che ti dà accesso a tutti i pacchetti e al loro vocabolario esteso all'interno di R. Inoltre, tidyverse include anche set di dati precaricati che possiamo utilizzare per fare pratica. Per visualizzare i set di dati disponibili, puoi utilizzare il comando data(), che visualizzerà un elenco di set di dati accessibili sul tuo computer.

Bene, tuffiamoci nel contenuto. Lavoreremo con il set di dati "m_sleep" per le nostre dimostrazioni. Se sei curioso di conoscere i dettagli del set di dati, puoi utilizzare il comando ?m_sleep per ottenere un riepilogo e informazioni su ciascuna variabile nel set di dati. In alternativa, possiamo utilizzare la funzione di occhiata dal tidyverse per ottenere una panoramica concisa del set di dati, inclusi nomi di variabili, tipi e alcune osservazioni di esempio.

Ora, iniziamo con la nostra prima lezione: rinominare una variabile. Rinominare una variabile è un gioco da ragazzi usando la funzione rename nel tidyverse. In genere seguiamo un approccio alla pipeline, partendo dal set di dati e quindi applicando le trasformazioni utilizzando l'operatore pipe %>%. Per rinominare una variabile, specifichiamo il nuovo nome prima del segno uguale, seguito dal nome esistente all'interno della funzione rename. Ad esempio, possiamo rinominare la variabile "conservation" in "conserve" utilizzando rename(conserve = saving). Dopo aver eseguito il codice, possiamo osservare il nome della variabile aggiornato nel set di dati.

Andando avanti, esploriamo come riordinare le variabili. Come accennato in precedenza, abbiamo discusso in precedenza della funzione select, che ci consente di scegliere variabili specifiche. Tuttavia, vale la pena notare che l'ordine delle variabili nella funzione select determina il loro ordine nel set di dati risultante. Specificando i nomi delle variabili nell'ordine desiderato, separati da virgole, possiamo riorganizzare le variabili di conseguenza. Ad esempio, select(var1, var2, ..., everything()) selezionerà prima "var1" e "var2", seguite dalle restanti variabili nel loro ordine originale.

Successivamente, discutiamo della modifica dei tipi di variabile. Abbiamo già toccato questo argomento, ma esaminiamo brevemente il processo. Usando la classe funzione base R, possiamo determinare il tipo corrente di una variabile. Ad esempio, class(m_sleep$var) visualizzerà il tipo di variabile come "carattere". Per cambiare il tipo di una variabile in una nuova riga per motivi di leggibilità, ma puoi scrivere tutto in una riga se preferisci. Ora applichiamo il filtro al frame di dati.

filtered_data <- m_sleep %>% filter ( order == "Carnivora" | order == "Primates" )

In questo esempio, abbiamo filtrato il frame di dati m_sleep per includere solo le osservazioni in cui la variabile di ordine è "Carnivora" o "Primates". Il sottoinsieme di dati risultante viene memorizzato nell'oggetto filtered_data.

Passando all'organizzazione dei dati, possiamo utilizzare la funzione di organizzazione. Questa funzione ci permette di ordinare le righe del data frame in base a una o più variabili. Ordiniamo filtered_data in base alla variabile vore in ordine decrescente.

arranged_data <- filtered_data %>% arrange ( desc ( vore ) )

Qui, abbiamo usato la funzione di arrangiamento con l'argomento desc(vore), che ordina il frame di dati in ordine decrescente in base alla variabile vore. I dati organizzati risultanti vengono archiviati nell'oggetto arrange_data.

Ora, copriamo i dati di ricodifica. La ricodifica comporta la modifica dei valori di una variabile in base a determinate condizioni. Possiamo usare la funzione mutate insieme alla funzione if_else per ottenere questo risultato.

recoded_data <- arranged_data %>% mutate ( vore = if_else ( vore == "carni" , "Carnivorous" , "Omnivorous" ) )

In questo esempio, abbiamo ricodificato la variabile vore nel frame di dati arrange_data. Abbiamo sostituito il valore "carni" con "Carnivoro" e tutti gli altri valori con "Onnivoro". Il frame di dati modificato viene memorizzato nell'oggetto recoded_data.

Successivamente, esploriamo la modifica dei dati utilizzando la funzione mutate. Possiamo creare nuove variabili o modificare quelle esistenti. Ecco un esempio:

modified_data <- recoded_data %>% mutate ( new_variable = vore == "Carnivorous" & awake > 10 )
In questo caso, abbiamo creato una nuova variabile chiamata nuova_variabile. Il suo valore si basa sulla condizione che vore sia uguale a "Carnivorous" e che la variabile awake sia maggiore di 10. Il data frame modificato viene memorizzato nell'oggetto Modified_data.

Infine, discutiamo di rimodellare il data frame. Il rimodellamento comporta la modifica della struttura del frame di dati da largo a lungo o viceversa. Le funzioni pivot_longer e pivot_wider del pacchetto tidyverse sono utili per questo compito. Ecco un esempio:

reshaped_data <- modified_data %>% pivot_longer ( cols = c ( vore , awake , sleep_total ) , names_to = "variable" , values_to = "value" )

In questo esempio, abbiamo trasformato il data frame dal formato wide al formato long. Abbiamo selezionato le variabili vore, awake e sleep_total per eseguire il pivot. Il frame di dati risultante ha due nuove colonne: variabile e valore, che memorizzano rispettivamente i nomi delle variabili ei valori corrispondenti.

Questo è tutto per questo tutorial! Abbiamo coperto vari aspetti della manipolazione del data frame, tra cui la ridenominazione delle variabili, il riordino delle variabili, la modifica dei tipi di variabili, la selezione delle variabili, il filtraggio e l'organizzazione dei dati, la ricodifica dei dati, la modifica dei dati utilizzando mutate e la rimodellatura del data frame. Ricorda, puoi mettere in pratica tutti questi concetti utilizzando i frame di dati incorporati in R. Happy data wrangling!

Manipulate your data. Data wrangling. R programmning for beginners.
Manipulate your data. Data wrangling. R programmning for beginners.
  • 2022.01.19
  • www.youtube.com
If you are learning to use R programming for data analysis then you're going to love this video. It's an "R programming for beginners" video that deals with ...
 

Descrivi e riassumi i tuoi dati


Descrivi e riassumi i tuoi dati

Bentornati a R101! In questa sessione, discuteremo come descrivere e riassumere i tuoi dati. L'argomento di oggi è semplicissimo, quindi resta con me e imparerai molto. Questa sessione fa parte di una serie in cui esploriamo, puliamo, manipoliamo, descriviamo e riassumiamo i dati. Il prossimo video riguarderà la visualizzazione e l'analisi dei dati. Quindi iniziamo.

In questo video tratteremo vari aspetti della descrizione e del riepilogo dei dati. In primo luogo, quando si tratta di variabili numeriche, ci sono parametri statistici specifici che usiamo per descriverle. Questi includono gamma, diffusione, centralità e varianza. Non preoccuparti; esamineremo questi concetti in modo semplicissimo e ci vorranno solo circa 30 secondi.

Successivamente, impareremo come riassumere l'intero set di dati. Condividerò alcuni suggerimenti e trucchi per riassumere in modo efficiente i tuoi dati. Ancora una volta, ci vorranno solo circa 30 secondi.

Quindi, ci concentreremo sulla creazione di tabelle per riassumere i nostri dati. Le tabelle sono un ottimo modo per presentare e riassumere le informazioni in modo efficace. Impareremo come creare tabelle che riassumono variabili numeriche e tabelle di contingenza che riassumono variabili categoriali. Ti mostrerò alcuni esempi e troverai super facile da seguire.

Per darti un'idea di ciò a cui miriamo, ho mostrato una tabella di esempio sullo schermo. Questa tabella racconta una storia avvincente e dipinge un quadro chiaro dei dati. È stato creato utilizzando il pacchetto "formattabile" in R, che consente di creare bellissime tabelle. Tuttavia, prima di immergerci nella creazione di tabelle visivamente accattivanti, è fondamentale garantire che i nostri dati siano strutturati correttamente. La chiave è disporre dei dati in un formato che consenta di raccontare una storia e presentare un'immagine in modo efficace.

Ora andiamo avanti e trattiamo gli argomenti principali di questo video. Se sei interessato a imparare la programmazione in R, sei nel posto giusto. Su questo canale YouTube, creiamo video di programmazione che coprono una vasta gamma di argomenti.

Prima di tutto, se non l'hai già fatto, assicurati di installare i pacchetti necessari. Lavoriamo sempre con i pacchetti "tidyverse", che ampliano il vocabolario e le capacità di R. Forniscono strumenti utili come l'operatore pipe, che useremo in questo video. Se non hai familiarità con il tidyverse e i pacchetti al suo interno, ti consiglio di guardare il mio video sui pacchetti.

Nei nostri esempi, utilizzeremo dati pubblicamente disponibili a cui puoi accedere sul tuo computer. Utilizzando questi dati, puoi esercitare le tue capacità di analisi, codifica e gestione dei dati. R fornisce una varietà di set di dati a cui è possibile accedere utilizzando la funzione "dati". Lavoreremo specificamente con il set di dati "msleep" in questo video. Puoi replicare i passaggi che mostro sul tuo computer a casa. Se esegui il comando "view(msleep)", puoi vedere la struttura del set di dati. Contiene variabili come erbivoro, carnivoro, onnivoro, tempo di sonno, peso del cervello e altro. È un ottimo set di dati con cui lavorare.

Per cominciare, riassumiamo le variabili numeriche nel set di dati. Ci concentreremo su parametri statistici come minimo, massimo, intervallo, intervallo interquartile, media, mediana e varianza. Per ottenere questi valori, puoi utilizzare la funzione "summary" in R. Eseguendo "summary(msleep)", vedrai il riepilogo di tutte le variabili con i relativi parametri. Puoi anche utilizzare "riepilogo" su una singola variabile se vuoi concentrarti su statistiche specifiche.

Ora, supponiamo di voler selezionare solo le variabili "sleep_total" e "brain_weight" e riassumerle. Puoi farlo selezionando le variabili usando la funzione "select" dal pacchetto tidyverse.

Ora introduciamo la seconda variabile categorica, che è "airbag". Possiamo usare di nuovo la funzione table, ma questa volta includeremo entrambe le variabili all'interno della funzione. Ecco il codice:

table ( cars $origin , cars $airbags )

Quando eseguiamo questo codice, otteniamo una tabella di contingenza che mostra la frequenza delle combinazioni tra le due variabili categoriali. Visualizzerà qualcosa del genere:

airbags origin None Driver Driver & Passenger non-us 15 20 10 us 25 30 20

Questa tabella ci dice, ad esempio, che ci sono 15 auto di origine non statunitense senza airbag, 20 auto con airbag solo per il guidatore e 10 auto con airbag sia per il guidatore che per il passeggero. Allo stesso modo, ci sono 25 auto dagli Stati Uniti senza airbag, 30 auto con airbag solo per il conducente e 20 auto con airbag sia per il conducente che per il passeggero.

Ora vediamo come possiamo ottenere lo stesso risultato utilizzando l'approccio tidyverse. Useremo le funzioni count e pivot_wider. Ecco il codice:

library (tidyverse) cars %>% count (origin, airbags) %>% pivot_wider (names_from = airbags, values_from = n)

Questo codice segue l'operatore pipe %>% per eseguire una serie di operazioni. Innanzitutto, usiamo il conteggio per calcolare le frequenze delle combinazioni tra origine e airbag. Quindi, applichiamo pivot_wider per rimodellare i dati, trasformando i diversi tipi di airbag in colonne separate. La tabella risultante sarà simile a quella prodotta dal codice base R.

Questi esempi dimostrano come è possibile riepilogare e creare tabelle per descrivere i dati utilizzando sia la base R che l'approccio tidyverse. È importante scegliere il metodo che si adatta alle tue preferenze e ai requisiti specifici della tua analisi.

Describe and Summarise your data
Describe and Summarise your data
  • 2022.02.01
  • www.youtube.com
If you want to learn about to summarise your data by making tables in R or provide descriptive statistics of your dataset, then this video is for you. R prog...
 

Test del chi quadrato utilizzando la programmazione R


Test del chi quadrato utilizzando la programmazione R

Oggi ci addentreremo nell'argomento del test del chi-quadrato, concentrandoci in particolare sul test della bontà di adattamento. Questo test è semplicissimo, quindi resta con me ed esploriamolo insieme.

Per prima cosa, assicurati di aver installato il pacchetto tidyverse. Se non hai familiarità con il tidyverse, puoi dare un'occhiata agli altri miei video per saperne di più. Il tidyverse è una raccolta di pacchetti R che espande il vocabolario di R e rende l'analisi dei dati più efficiente. Inoltre, avremo bisogno del pacchetto "forcats", che fornisce funzionalità estese per lavorare con variabili categoriali. In questa lezione utilizzeremo il set di dati "GSS_cat" fornito con il pacchetto "forcats".

Dopo aver installato i pacchetti, diamo un'occhiata al set di dati "GSS_cat". Contiene varie variabili, una delle quali è lo "stato civile". Ci concentreremo su questa variabile per la nostra analisi. Per avere un'idea delle proporzioni dei diversi stati coniugali, ho creato una trama sul lato destro dello schermo, mostrando le categorie "mai sposato", "divorziato" e "sposato". Dalla trama possiamo osservare che le proporzioni sembrano differire.

Passiamo ora al test del chi quadro. Lo scopo di questo test è determinare se esiste una differenza significativa nelle proporzioni di persone che non sono mai sposate, divorziate o sposate. La nostra ipotesi nulla presuppone che non vi sia alcuna differenza e vogliamo esaminare se i dati supportano questa ipotesi.

Prima di condurre il test, vorrei ringraziare il nostro sponsor, Native Knowledge. Sono una piattaforma online che facilita la revisione sistematica della letteratura e la meta-analisi. Assicurati di controllarli; sono assolutamente incredibili!

Ora passiamo al codice. Ho fornito del codice sullo schermo per la pulizia e la preparazione dei dati. Implica il filtraggio dei dati per includere solo le categorie "mai sposati" e "divorziati" e la rimozione di fattori non necessari. Sentiti libero di copiare il codice se vuoi replicare questa analisi da solo. Dopo aver eseguito il codice, avrai un set di dati piacevole e ordinato con una singola variabile.

Ora arriva la parte eccitante: condurre il test del chi-quadrato. Per applicare il test, dobbiamo creare una tabella dei nostri dati. Ho creato un nuovo oggetto chiamato "my_table" e gli ho assegnato la funzione table, utilizzando il nostro set di dati preparato come argomento. Quando eseguiamo il codice e visualizziamo "my_table", possiamo vedere una tabella con i dati presentati in modo ordinato.

Successivamente, possiamo semplicemente applicare il test chi-quadrato alla nostra tabella utilizzando la funzione "chisq.test". L'esecuzione di questa funzione su "my_table" ci fornirà i risultati del test, incluso il valore p. In questo caso, abbiamo ottenuto un valore p molto piccolo, indicando che è estremamente improbabile osservare le differenze osservate nelle proporzioni se le categorie avevano proporzioni uguali. Pertanto, possiamo rifiutare l'ipotesi nulla di proporzioni uguali e concludere che esiste una differenza statisticamente significativa tra gli stati coniugali.

Se preferisci un approccio più conciso, possiamo ottenere gli stessi risultati utilizzando gli operatori pipe ("%>%") dal pacchetto tidyverse. Convogliando i dati direttamente nella tabella e quindi nel test chi-quadro, possiamo semplificare il codice e ottenere la stessa risposta.

Spero che tu abbia trovato informativa questa panoramica del test del chi-quadrato. Se sei interessato ad approfondire l'argomento, ti consiglio di guardare il video più lungo sul test del chi-quadrato, che fornirà una comprensione più completa dei suoi meccanismi. Continuate così, rimanete curiosi e ricordate di impegnarvi sempre per l'apprendimento continuo.

Chi squared test using R programming
Chi squared test using R programming
  • 2022.11.07
  • www.youtube.com
If you're learning about statistical analysis using R programming then you'll love this video. In it Dr Martin explains how to use R studio and R programming...
 

Programmazione R in un'ora: un corso intensivo per principianti


Programmazione R in un'ora: un corso intensivo per principianti

L'esercitazione video offre un corso accelerato di programmazione R per principianti. Copre le basi di R e l'accesso a set di dati integrati, tecniche di manipolazione dei dati, esplorazione dei dati utilizzando funzioni come scorcio e casi completi, tecniche di pulizia dei dati come subsetting e ridenominazione, tecniche di visualizzazione dei dati utilizzando la grammatica della grafica, test T, Test ANOVA e Chi-quadrato, modelli lineari e come rimodellare i frame di dati. L'istruttore sottolinea l'importanza di esplorare i set di dati e discute gli strumenti per rendere l'analisi e la visualizzazione dei dati più intuitive, come il verso ordinato e il pacchetto ggplot2. Il video si conclude con una dimostrazione di un test del chi quadrato e di un modello lineare utilizzando il set di dati "automobili", con particolare attenzione all'interpretazione dell'output.

  • 00:00:00 Il relatore delinea ciò che tratteranno nel tutorial, che è un corso accelerato per i principianti della programmazione R. Il corso includerà le basi di R, l'esplorazione e l'accesso a set di dati integrati, la manipolazione dei dati mediante pulizia, selezione, filtraggio e rimodellamento, la descrizione dei dati utilizzando variabili numeriche, la visualizzazione dei dati utilizzando diversi tipi di grafici e l'analisi dei dati utilizzando ipotesi test e vari test come test t, ANOVA, chi-quadrato e modelli lineari. Inoltre, il relatore spiega i quattro quadranti di RStudio, concentrandosi sulla console e sull'ambiente, e su come accedere alla guida utilizzando il comando punto interrogativo e le risorse della community come Stack Overflow. Infine, il relatore dimostra come utilizzare R come calcolatrice assegnando valori agli oggetti e applicando loro semplici funzioni.

  • 00:05:00 L'istruttore introduce i frame di dati, che possono essere creati combinando variabili utilizzando la funzione "data.frame" in R. Mostra come creare un frame di dati e come visualizzarne la struttura utilizzando "view" e " funzioni str". L'istruttore spiega anche come creare sottoinsiemi di parti specifiche di un frame di dati utilizzando la notazione "riga, colonna" e dimostra come utilizzare i set di dati incorporati in R. Inoltre, presenta il versetto ordinato, una raccolta di pacchetti che espandono il vocabolario e i set di dati disponibili per gli utenti R e dimostra come utilizzare l'operatore pipe e funzioni come filtro e mutazione per rendere l'analisi e la visualizzazione dei dati più intuitive.

  • 00:10:00 L'istruttore parla dell'esplorazione di un set di dati utilizzando il set di dati "m sleep" come esempio. Dimostra come utilizzare varie funzioni, come scorcio, lunghezza, nomi, casi univoci e completi per ottenere una panoramica della struttura, delle dimensioni e dei valori univoci dei dati. Mostra anche come creare un oggetto chiamato "mancante" che includa tutte le righe con dati mancanti. L'istruttore sottolinea l'importanza di esplorare un set di dati per ottenere una migliore comprensione del suo contenuto e come sfruttarlo per l'analisi. Ringrazia anche Nested Knowledge, una piattaforma che supporta il processo di ricerca, per aver sponsorizzato il video.

  • 00:15:00 Il relatore introduce le tecniche di pulizia dei dati utilizzando la programmazione R, come selezionare le variabili e modificarne l'ordine con la funzione select, rinominare le variabili con la funzione rename e modificare i tipi di variabile utilizzando le funzioni as character e mutate. Il relatore spiega anche come modificare i livelli dei fattori e utilizzare la funzione filtro per selezionare osservazioni specifiche in base a determinati criteri.

  • 00:20:00 L'istruttore spiega come filtrare i dati in base a condizioni come la massa inferiore a 55 e il sesso maschile utilizzando la funzione di ricodifica. Proseguono dimostrando come gestire i dati mancanti e rimuovere i duplicati da un frame di dati utilizzando la funzione distinta. L'istruttore spiega anche come mutare i dati, sia sovrascrivendo le variabili esistenti sia creandone di nuove basate su istruzioni condizionali utilizzando la funzione if else. Infine, introducono il concetto di rimodellamento dei dati e mostrano come manipolare un set di dati utilizzando il pacchetto gap minder.

  • 00:25:00 L'istruttore spiega come rimodellare i frame di dati utilizzando le funzioni pivot più ampio e pivot più lungo. Innanzitutto, viene creato un frame di dati e quindi viene utilizzata la funzione pivot più ampia per rimodellarlo in modo che gli anni diventino intestazioni di colonna e le aspettative di vita siano all'interno delle celle. Il codice viene quindi eseguito al contrario per creare un lungo frame di dati. L'istruttore mostra quindi come riassumere i dati utilizzando variabili numeriche, come il tempo di veglia per i mammiferi, calcolando la media, la mediana e l'intervallo interquartile. Infine, l'istruttore fornisce un codice per raggruppare i dati per categorie e calcolare i valori statistici per ciascun gruppo, come i valori minimo e massimo, la loro differenza e la media.

  • 00:30:00 L'istruttore esamina la visualizzazione dei dati in R, partendo dal concetto di "grammatica della grafica". Ciò comporta la comprensione di come i dati vengono mappati rispetto all'estetica come l'asse x e y, il colore, la forma e le dimensioni e come le geometrie come la linea, il grafico a barre e l'istogramma possono essere applicate per produrre grafici. Viene introdotto anche il pacchetto ggplot come strumento per la creazione di grafici più sofisticati. L'istruttore fornisce codici di esempio per la creazione di grafici di base e discute come l'estetica e la geometria interagiscono per produrre il risultato finale.

  • 00:35:00 Il relatore spiega come utilizzare ggplot2 per creare diversi tipi di grafici. Iniziano definendo i dati e mappando in ggplot, quindi aggiungendo geometrie come grafici a barre e istogrammi. Dimostrano anche come inserire i dati e come manipolarli prima di creare un grafico. Quindi fanno un ulteriore passo avanti aggiungendo estetica e colorazione alla trama con sfumature diverse in base alle categorie. Il video include anche una breve discussione su temi ed etichette e utilizza esempi tratti dal set di dati di Star Wars.

  • 00:40:00 Il video tutorial mostra come creare un grafico a dispersione utilizzando 'ggplot2' e aggiungere un livello aggiuntivo utilizzando 'geom_smooth'. Utilizzando 'facet_wrap' con la variabile 'sex', il tutorial mostra come osservare il grafico a dispersione in diverse sfaccettature. La sezione copre anche la verifica delle ipotesi utilizzando un test T, ANOVA, test Chi-quadrato e modelli lineari con esempi dal set di dati "gap-minder" che include dati sull'aspettativa di vita, popolazione, PIL pro capite e altri fattori in tutto diversi paesi e regioni. Il tutorial spiega come testare le differenze nell'aspettativa di vita tra Africa ed Europa utilizzando un test T, assumendo che non vi sia alcuna differenza come ipotesi nulla.

  • 00:45:00 Questo è noto come test delle differenze oneste e significative di Tukey che confronta tutte le possibili coppie di medie per vedere se ci sono differenze significative. In questo esempio, possiamo vedere che ci sono differenze significative tra tutti e tre i continenti, con l'Europa che ha la più alta aspettativa di vita e l'Africa quella più bassa. I valori p aggiustati ci aiutano a evitare di trarre conclusioni errate tenendo conto di confronti multipli. Nel complesso, il t-test e ANOVA sono potenti strumenti per analizzare le differenze tra i gruppi in R.

  • 00:50:00 L'istruttore dimostra un'analisi statistica su un set di dati di diverse specie di iris. La prima analisi è un test di bontà di adattamento del chi quadrato per determinare se la proporzione delle iridi che rientrano nelle categorie di piccole, medie e grandi è uguale. I risultati del test hanno mostrato che le proporzioni non sono uguali e l'ipotesi nulla viene respinta. La seconda analisi è un test di indipendenza del chi quadrato, che determina se il valore di una variabile dipende dal valore dell'altra. In questo caso, l'analisi viene eseguita sulla dimensione e sulla specie delle iridi. È evidente dai risultati che esiste una dipendenza tra le due variabili e l'ipotesi nulla è respinta.

  • 00:55:00 L'istruttore esamina un semplice modello lineare utilizzando il set di dati "cars" in R e spiega come interpretare l'output. La linea più adatta viene creata utilizzando un'intercetta y e una pendenza, con l'intercetta y in questo caso priva di significato ma necessaria per tracciare la linea. La pendenza di 3,9 è importante, rappresenta la distanza aggiuntiva richiesta per ogni aumento di velocità di un'unità, e ha un valore p di 0,00 (estremamente significativo dal punto di vista statistico), rifiutando l'ipotesi nulla che non vi sia alcuna relazione tra velocità e distanza. Il valore R-quadrato di 0,65 rappresenta quanto del cambiamento nella distanza da fermare può essere spiegato dalla velocità dell'auto. L'output include anche residui e coefficienti, con la pendenza che è la più importante in questo contesto. L'istruttore fornisce un collegamento a un cheat sheet di visualizzazione dei dati gratuito e incoraggia gli spettatori a mettere mi piace, commentare e iscriversi.
R programming in one hour - a crash course for beginners
R programming in one hour - a crash course for beginners
  • 2022.04.27
  • www.youtube.com
R programming is easy. In this video, I'll walk you though how to clean your data; how to manipulate (or wrangle) your data; how to summarize your data; how ...
 

Popolazione, Campione, Parametro, Statistica


Popolazione, Campione, Parametro, Statistica

Ciao a tutti! Nella sessione di oggi tratteremo alcuni dei vocaboli più importanti nel campo della statistica. Entriamo subito nel dettaglio e iniziamo con due concetti fondamentali: popolazione e campione.

Una popolazione si riferisce a tutti i dati di interesse in un particolare studio, incluse osservazioni, risposte, misurazioni e così via. D'altra parte, un campione è un sottoinsieme di quella popolazione. Per illustrare questo, consideriamo un sondaggio politico condotto da un'azienda. Contattano casualmente 1.200 elettori e chiedono loro le loro preferenze di voto. In questo caso, il campione sarebbe l'elenco delle preferenze ottenute da quei 1.200 individui. La popolazione, tecnicamente parlando, sarebbe l'elenco delle preferenze di tutti gli elettori registrati. È importante notare che sia la popolazione che il campione si riferiscono alle preferenze stesse, non agli individui.

Nella maggior parte dei casi, non è possibile raccogliere dati da un'intera popolazione. Invece, ci affidiamo a campioni per trarre conclusioni sulle popolazioni. Questa è l'essenza della statistica inferenziale: utilizzare dati campione per fare inferenze sulle popolazioni. Passiamo ora alle definizioni chiave.

In primo luogo, un parametro è un valore numerico che descrive una popolazione. Fornisce informazioni sulla popolazione nel suo insieme. Ad esempio, nel nostro esempio di sondaggio, il parametro sarebbe la percentuale di tutti gli elettori registrati che intendono votare per un particolare candidato.

In secondo luogo, una statistica è un valore numerico che descrive un campione. Rappresenta caratteristiche o misurazioni derivate dai dati del campione. Tornando allo scenario del nostro sondaggio, se il 38% dei 1.200 elettori campionati esprime la propria intenzione di votare per il candidato A, allora il 38% è una statistica, una rappresentazione delle preferenze del campione.

In genere, abbiamo accesso solo alla statistica, poiché spesso è poco pratico ottenere parametri per l'intera popolazione. Tuttavia, il nostro interesse ultimo risiede nei parametri poiché forniscono approfondimenti sulla popolazione complessiva. Consideriamo un altro paio di esempi per consolidare la nostra comprensione.

Esempio 1: l'età media di 50 veicoli scelti a caso e immatricolati presso il DMV di New York è di 8 anni. Qui, la popolazione sarebbe l'età di tutti i veicoli immatricolati con il DMV di New York. Il campione, in questo caso, è costituito dall'età dei 50 veicoli selezionati a caso. Il parametro sarebbe l'età media di tutti i veicoli immatricolati a New York, mentre la statistica sarebbe l'età media dei 50 selezionati a caso.

Esempio 2: nel 2018, il reddito familiare medio negli Stati Uniti era di $ 63.937, mentre a Chicago era di $ 70.760. In questo scenario, la popolazione si riferisce ai redditi di tutte le famiglie negli Stati Uniti nel 2018, mentre il campione rappresenta i redditi delle famiglie di Chicago nello stesso anno. Il primo valore, $63.937, è un parametro che descrive la popolazione, mentre il secondo valore, $70.760, è una statistica che rappresenta il campione.

Comprendere la distinzione tra popolazione e campione, nonché parametri e statistiche, è fondamentale nell'analisi statistica. Sebbene possiamo avere principalmente accesso alle statistiche, il nostro obiettivo è dedurre e stimare i parametri, in quanto forniscono una prospettiva più ampia sull'intera popolazione.

Population, Sample, Parameter, Statistic
Population, Sample, Parameter, Statistic
  • 2020.06.14
  • www.youtube.com
Check out my whole Stats 101 playlist: https://youtube.com/playlist?list=PLKBUk9FL4nBalLCSWT6zQyw19EmIVInT6If this vid helps you, please help me a tiny bit b...
 

Tipi di dati


Tipi di dati

Ciao a tutti! Oggi parleremo della classificazione dei dati, che coinvolge due tipi fondamentali: dati quantitativi e dati categoriali.

I dati quantitativi consistono in misurazioni o conteggi numerici. Si tratta di dati che possono essere misurati o espressi in termini numerici. Esempi di dati quantitativi includono l'altezza delle donne in Sud America, il peso dei neonati negli ospedali britannici e il numero di disoccupati in ogni nazione del mondo.

D'altra parte, i dati categorici, noti anche come dati qualitativi, sono costituiti da etichette o descrittori. Si tratta di dati che possono essere raggruppati in categorie o classi. Esempi di dati categorici includono il colore degli occhi dei gatti, le affiliazioni a partiti politici degli elettori e le marche preferite di bevande analcoliche tra i consumatori.

A volte può essere complicato determinare il tipo di dati, specialmente quando appaiono come numeri. Un modo rapido per distinguere tra dati categorici e quantitativi è considerare se le operazioni numeriche, come il calcolo delle medie, hanno senso. Se i dati sono semplicemente etichettati e non corrispondono a misurazioni o conteggi significativi, devono essere considerati categorici. Ad esempio, i numeri indossati sulle maglie da baseball non hanno alcun significato quantitativo e dovrebbero essere classificati come dati categorici.

I dati categorici possono essere ulteriormente classificati in due tipi: ordinali e nominali. I dati ordinali utilizzano categorie che hanno un ordine significativo. Un esempio familiare è la scala Likert, che offre scelte come fortemente in disaccordo, in disaccordo, neutrale, d'accordo e fortemente d'accordo. Queste categorie possono essere classificate in un ordine naturale. Al contrario, i dati nominali utilizzano categorie che non hanno un ordine significativo. Gli esempi includono affiliazioni politiche, genere e bevande analcoliche preferite. Sebbene potremmo imporre un ordine sui dati nominali, sarebbe arbitrario e basato sull'opinione personale.

Allo stesso modo, i dati quantitativi possono essere classificati in due tipi: rapporto e intervallo. I dati sui rapporti consentono rapporti e multipli significativi. Variabili come reddito, peso ed età rientrano in questa categoria. Ha senso dire che una persona ha il doppio dell'età di un'altra o che qualcuno guadagna la metà dei soldi di un'altra. D'altra parte, i dati di intervallo non supportano rapporti e multipli. Variabili come la temperatura e l'anno solare sono esempi di dati di intervallo. Sarebbe inappropriato dire che una temperatura è due volte più calda di un'altra perché la scelta dello zero sulla scala è arbitraria e non indica l'assenza dell'attributo che si sta misurando.

Per determinare il livello di misurazione, un approccio rapido consiste nel verificare se lo zero sulla scala corrisponde a niente o niente. Se zero indica l'assenza dell'attributo, indica un livello di misurazione del rapporto. Ad esempio, zero chilogrammi, $ 0 o 0 anni implicano che non c'è peso, denaro o età. Al contrario, se zero non denota un'assenza in alcun senso reale, indica un livello di intervallo di misurazione. Ad esempio, zero gradi Fahrenheit o zero gradi Celsius sono solo punti arbitrari sulle rispettive scale.

Esploriamo alcuni esempi per praticare la classificazione e il livello di misurazione. Stabiliremo se le variabili sono quantitative o categoriche e identificheremo il loro livello di misurazione:

  1. Tempi di attesa in banca: questi dati sono costituiti da numeri e hanno senso parlare di rapporti e multipli. Pertanto, si tratta di dati quantitativi a livello di misurazione del rapporto.

  2. Sesso dei vincitori dell'Oscar per il miglior regista: questi dati sono categorici e rappresentano identificatori piuttosto che numeri. Non può essere classificato in modo significativo, quindi si tratta di dati categorici a livello nominale.

  3. Nomi di libri nell'elenco dei bestseller del New York Times: poiché si tratta di nomi, i dati sono categorici. Inoltre i nomi possono essere naturalmente ordinati come primo, secondo, terzo bestseller, ecc., indicando dati ordinali.

  4. Ore del giorno dei fulmini sull'Empire State Building: questi dati sono quantitativi in quanto comportano la misurazione del tempo tra i fulmini. Tuttavia, rientra nel livello di misurazione dell'intervallo perché non esiste un punto zero che rappresenti l'assenza di fulmini. Gli intervalli di tempo possono essere misurati e confrontati, ma zero non significa mancanza di scioperi.

In sintesi, la classificazione dei dati comporta la differenziazione tra dati quantitativi e categorici. I dati quantitativi sono costituiti da misurazioni o conteggi numerici, mentre i dati categorici sono costituiti da etichette o descrittori. È importante considerare se si applicano operazioni numeriche e rapporti significativi per determinare il tipo di dati.

I dati categoriali possono essere ulteriormente classificati come ordinali o nominali, a seconda che esista un ordine significativo tra le categorie. I dati ordinali hanno una classificazione naturale, mentre i dati nominali no. Allo stesso modo, i dati quantitativi possono essere classificati come rapporto o intervallo in base all'esistenza di rapporti e multipli significativi. I dati di rapporto consentono rapporti e multipli, mentre i dati di intervallo no.

Comprendere il livello di misurazione è fondamentale per selezionare analisi statistiche appropriate e interpretare correttamente i dati. Il livello di misurazione determina le operazioni matematiche eseguibili sui dati e il significato dello zero sulla bilancia.

Classificando e determinando accuratamente il livello di misurazione dei dati, statistici e ricercatori possono scegliere tecniche statistiche adeguate e ricavare approfondimenti significativi dalle loro analisi.

Types of Data
Types of Data
  • 2020.07.01
  • www.youtube.com
Quantitative vs. categorical data, and the levels of measurement of each. This is some of the fundamental vocabulary of science! If this vid helps you, pleas...