Tutorial di programmazione - pagina 16

 

Test di ipotesi: esempio


Test di ipotesi: esempio

Oggi esamineremo un esempio di test di ipotesi per la media. Prima di addentrarci nell'esempio specifico, rivediamo la procedura generale. Inizia sempre con la creazione di ipotesi, inclusa l'ipotesi nulla, che rappresenta l'idea contro la quale vogliamo raccogliere prove, e l'ipotesi alternativa, che cerchiamo di sostenere. Supponendo che l'ipotesi nulla sia vera, esaminiamo dove la nostra media campionaria (X bar) cade tra tutte le possibili medie campionarie sotto questa assunzione.

Per fare ciò, calcoliamo un punteggio z, che misura la deviazione del nostro risultato nel contesto dell'ipotesi nulla. Per un'ipotesi alternativa unilaterale che verifica se la media della popolazione (μ) è minore o maggiore di un valore specifico, calcoliamo la probabilità di ottenere un punteggio z minore o uguale a quello che abbiamo ottenuto. Per un'ipotesi alternativa a due code, calcoliamo una probabilità e poi la raddoppiamo in modo appropriato.

Nella rappresentazione più formale, troviamo la probabilità di ottenere uno z-score minore o uguale al valore assoluto negativo del nostro z-score ottenuto. Utilizzando la funzione di distribuzione cumulativa, teniamo conto sia della coda sinistra che di quella destra. Una volta ottenuto il valore p, lo confrontiamo con il livello di significatività scelto (alfa). Se il valore p è minore di alfa, rifiutiamo l'ipotesi nulla e concludiamo che l'ipotesi alternativa è supportata.

Ora applichiamo questo ad un esempio reale. Un gruppo di difesa dei consumatori verifica il contenuto di vitamina C di un integratore organico, che afferma di avere una media di 1000 milligrammi di vitamina C per compressa. Con una dimensione del campione di 32, trovano una media campionaria di 1008,9 milligrammi. La deviazione standard della popolazione (σ) è di 21 milligrammi. Il nostro compito è determinare se ci sono prove sufficienti per respingere la richiesta del prodotto. Il livello di significatività (alfa) è fissato a 0,05.

Seguendo la procedura generale, iniziamo impostando le ipotesi. L'ipotesi nulla è che l'affermazione del prodotto di un contenuto medio di vitamina C di 1000 milligrammi sia vera, mentre l'ipotesi alternativa è che la vera media differisca da 1000 milligrammi. Poiché non vi è alcuna indicazione specifica per considerare solo i valori inferiori o superiori a 1000, si opta per un'ipotesi alternativa bilaterale.

Successivamente, calcoliamo il punteggio z utilizzando la formula (media campionaria - valore atteso) / (deviazione standard della media campionaria). Assumendo l'ipotesi nulla, usiamo un valore medio di 1000 milligrammi e calcoliamo la deviazione standard della media campionaria come σ / √n, dove n è la dimensione del campione. Di conseguenza, il punteggio z risulta essere 2,39, indicando che la nostra media campionaria di 1008,9 milligrammi devia di 2,39 deviazioni standard dalla media prevista sotto l'ipotesi nulla.

Per determinare il valore p, dobbiamo trovare la probabilità di ottenere un punteggio z estremo come quello che abbiamo (positivo o negativo). In questo caso, calcoliamo P(Z ≤ -2.39), che restituisce 0.0084. Poiché si tratta di un test a due code, raddoppiamo la probabilità di ottenere 0,0168.

Confrontando il valore p con il livello di significatività, troviamo che 0,0168 è effettivamente inferiore a 0,05. Pertanto, abbiamo prove sufficienti per respingere l'ipotesi nulla e concludere che il supplemento non contiene una media di 1000 milligrammi di vitamina C.

Hypothesis Testing: Example
Hypothesis Testing: Example
  • 2020.03.25
  • www.youtube.com
Another example of a two-sided hypothesis test for the mean when the population standard deviation is known. If this vid helps you, please help me a tiny bit...
 

Errori di tipo I e di tipo II nei test di significatività


Errori di tipo I e di tipo II nei test di significatività

Oggi discuteremo delle situazioni in cui il test di significatività non va come previsto. Copriamo tutto in soli tre minuti. Cominciamo.

Nella verifica dell'ipotesi, incontriamo due possibili stati per H zero (l'ipotesi nulla): può essere vero o falso. Alla fine del test, abbiamo due possibili decisioni: o rifiutare H nulla o non rifiutarlo. Questo ci dà un totale di quattro possibili risultati. Possiamo esaminare le combinazioni di queste due decisioni. Ho una tabella che riassume questi risultati, e due di essi ci danno soddisfazione: rifiutare H zero quando è falso e non rifiutare H zero quando è vero. Tuttavia, ci sono due situazioni che non sono desiderabili.

Mentre approfondiamo questo argomento, è importante notare che di solito non abbiamo informazioni preliminari sul fatto che H naught sia vero o falso all'inizio. Se otteniamo tali informazioni, in genere arrivano molto più tardi. Ora, discutiamo i due risultati sfavorevoli. Il primo è chiamato errore di tipo 1 o falso positivo. Ciò si verifica quando rifiutiamo l'ipotesi nulla nonostante sia vera. Succede quando si verifica un evento casuale e lo interpretiamo erroneamente come significativo. La seconda situazione è un errore di tipo 2 o un falso negativo. Ciò si verifica quando non riusciamo a rifiutare l'ipotesi nulla, anche se in realtà è falsa. In questo caso, sta accadendo qualcosa di significativo, ma il nostro test non riesce a rilevarlo.

I termini "falso positivo" e "falso negativo" derivano dai test medici, in cui la struttura logica è simile al test di significatività. Nei test medici, potresti testare una malattia e il test potrebbe indicarne la presenza o l'assenza. Gli errori complessivi di Tipo 1 e Tipo 2 sono riassunti nella tabella fornita, evidenziando i risultati desiderati con segni di spunta.

Esaminiamo rapidamente un paio di esempi. Supponiamo che un produttore di tavolette di cioccolato affermi che, in media, le sue tavolette pesano 350 grammi. Sospetto che stiano sopravvalutando, quindi raccolgo un campione e rifiuto la loro affermazione con un valore p di 0,0089. Tuttavia, se l'affermazione del produttore fosse effettivamente vera e le loro barre hanno un peso medio di 350 grammi, avrei commesso un errore di tipo 1 o un falso positivo.

Ecco un altro esempio: un ristorante afferma che il contenuto medio di sodio di uno dei suoi panini è di 920 milligrammi. Analizzo un campione ma non trovo prove sufficienti per respingere l'affermazione con un livello alfa di 0,01. Se l'affermazione del ristorante fosse stata falsa, diciamo che il contenuto medio di sodio fosse effettivamente di 950 milligrammi, avrei commesso un errore di tipo 2 non rifiutando l'affermazione.

Type I and Type II Errors in Significance Tests
Type I and Type II Errors in Significance Tests
  • 2020.03.28
  • www.youtube.com
When hypothesis testing goes wrong, explained in under three minutes.
 

Test di ipotesi utilizzando regioni critiche


Test di ipotesi utilizzando regioni critiche

Ciao a tutti, oggi parleremo di test di ipotesi utilizzando regioni critiche. Sebbene questo approccio possa essere considerato di vecchia scuola, è ancora rilevante nella teoria che tratteremo. Pertanto, è utile avere una conoscenza di base di esso.

In passato, il calcolo dei valori p era più impegnativo di quanto non lo sia oggi. Si trattava di fare affidamento su tabelle per i calcoli, come quelle per la distribuzione normale, che avevano una precisione limitata e voci finite. Per ridurre al minimo la necessità di questi calcoli, veniva comunemente utilizzato il concetto di regioni critiche o regioni di rifiuto.

Il processo tipico per la verifica delle ipotesi oggi prevede il calcolo di un valore p basato su dati campione e il confronto con il livello di significatività scelto (alfa). Tuttavia, con le regioni critiche, invertiamo questo processo. Iniziamo selezionando un livello di significatività (alfa), che definisce quindi un valore limite per la statistica del test, indicato come Z-star o T-star. Se i dati del campione producono una statistica campionaria più estrema di questo valore limite, ci porta a rifiutare l'ipotesi nulla.

Consideriamo un esempio per illustrare questo. Supponiamo di avere un'ipotesi alternativa bilaterale e di condurre un test con una distribuzione normale e un livello di significatività di alfa uguale a 0,05. In questo caso, alfa uguale a 0,05 corrisponde a un'area ombreggiata di 0,05 nella distribuzione (0,025 su ciascun lato). Eseguendo un calcolo normale inverso (utilizzando il comando Q norm in R), troviamo che il valore critico Z-star è 1,96. Pertanto, se la statistica campionaria (Z-star) è maggiore di 1,96 (valore assoluto), indica che dovremmo rifiutare l'ipotesi nulla.

Per un altro esempio, consideriamo una distribuzione t con 8 gradi di libertà e un'alternativa unilaterale (alternativa destra). Supponiamo di scegliere alfa uguale a 0,01 come livello di significatività. In questo caso, c'è un'area di 0,01 a destra di T-star, corrispondente a un'area di 0,99 a sinistra. Usando un inverso t CDF (usando il comando QT) con i valori 0.99 e 8 in R, troviamo che T-star è approssimativamente 2.9. Se la statistica t del campione è maggiore di 2,9, rientra nella regione ombreggiata, portandoci a rifiutare l'ipotesi nulla.

Nel caso della distribuzione normale, possiamo tradurre il valore Z critico in un'affermazione su una media campionaria critica. Si consideri il seguente esempio: il contenuto delle lattine di una certa marca di Cola è normalmente distribuito con una deviazione standard di 0,2 once. Desideriamo utilizzare un campione di dimensione 15 per testare l'ipotesi nulla che il contenuto medio delle lattine sia di 12 once contro un'ipotesi alternativa che siano effettivamente inferiori a 12 once. Con un'alternativa unilaterale e alfa uguale a 0,05, il valore Z critico è -1,645. Pertanto, se la media campionaria (X-bar) è superiore a 1,645 deviazioni standard al di sotto della media, dovremmo rifiutare l'ipotesi nulla. Nello specifico, se la media campionaria è inferiore a 11,92 once, rifiuteremo l'ipotesi nulla.

Hypothesis testing using critical regions
Hypothesis testing using critical regions
  • 2020.03.29
  • www.youtube.com
A formerly very practical idea, now mostly of theoretical interest. If this vid helps you, please help me a tiny bit by mashing that 'like' button. For more ...
 

Verifica di ipotesi con la distribuzione t


Verifica di ipotesi con la distribuzione t

Ciao a tutti, oggi discuteremo di test di ipotesi utilizzando la distribuzione t. In questo scenario, abbiamo a che fare con situazioni in cui la deviazione standard della popolazione è sconosciuta. In precedenza, abbiamo eseguito test di ipotesi utilizzando la statistica Z, supponendo di conoscere la deviazione standard della popolazione (Sigma). Tuttavia, nell'inferenza statistica, l'obiettivo è utilizzare le informazioni del campione per ottenere informazioni sulla popolazione, quindi è comune non conoscere Sigma. In tali casi, stimiamo la deviazione standard della popolazione utilizzando la deviazione standard del campione e procediamo con calcoli simili.

La sfida nasce perché, quando Sigma viene sostituito con s, l'espressione (X-bar - mu)/(s/sqrt(n)) non segue più una distribuzione normale. Sia X-bar che s variano con ogni nuovo campione, facendo in modo che la distribuzione segua una distribuzione t con (n-1) gradi di libertà. Fortunatamente, una volta considerato questo aggiustamento, i calcoli rimangono sostanzialmente gli stessi.

Per eseguire un test di ipotesi quando Sigma è sconosciuto, iniziamo con l'ipotesi nulla e alternativa. Supponendo che l'ipotesi nulla sia vera, calcoliamo la statistica t per i dati del campione effettivo: (X-bar - mu_naught)/(s/sqrt(n)). Quindi calcoliamo i valori p in base all'ipotesi alternativa.

Per un'ipotesi alternativa del lato sinistro, in cui sospettiamo che mu sia minore di un dato valore, troviamo la probabilità di ottenere un valore t minore o uguale a quello ottenuto quando l'ipotesi nulla è vera. Ciò corrisponde all'area ombreggiata nella prima immagine.

Allo stesso modo, per un'ipotesi alternativa di lato destro, dove mu è maggiore di un dato valore, determiniamo la probabilità di ottenere un valore t maggiore di quello che abbiamo ottenuto. Ciò corrisponde all'area a destra del valore t.

Nel caso di un test a due code, consideriamo entrambe le aree. Calcoliamo la probabilità di ottenere un valore t maggiore (in valore assoluto) di quello che abbiamo ottenuto e poi lo raddoppiamo.

Una volta ottenuto il valore p, lo confrontiamo con il livello di significatività scelto (alfa) per prendere una decisione. Se il valore p è minore di alfa, rifiutiamo l'ipotesi nulla. Tuttavia, quando si eseguono i calcoli manualmente, ottenere il valore t dai dati del campione può essere complicato. Si consiglia di utilizzare la tecnologia, come software statistici o calcolatori. In R, per esempio, il comando PT(t, n-1) calcola l'area a sinistra di un dato valore t in una distribuzione t con (n-1) gradi di libertà.

Consideriamo un esempio per dimostrare questo processo. Supponiamo di avere le perdite di peso di sette topi durante un esperimento. Vogliamo determinare se ci sono prove sufficienti per concludere che i topi perdono peso durante l'esperimento, con un livello di significatività di alfa uguale a 0,05. Poiché non abbiamo la deviazione standard della popolazione, abbiamo a che fare con una situazione di test t.

Per iniziare il test, impostiamo l'ipotesi nulla, supponendo che i dati siano dovuti al caso, e l'ipotesi alternativa, che afferma che i topi perdono peso in media durante l'esperimento. In questo caso, scegliamo un'ipotesi alternativa unilaterale, concentrandoci sulla perdita di peso piuttosto che sull'aumento di peso.

Successivamente, calcoliamo la statistica t utilizzando la media campionaria e la deviazione standard campionaria. Con il valore t ottenuto, calcoliamo il valore p, che rappresenta la probabilità di ottenere un valore t maggiore o uguale al valore osservato solo per caso.

Per valutare questa probabilità si fa riferimento ad una distribuzione t con (n-1) gradi di libertà. Calcoliamo l'area a destra del valore t sottraendo l'area a sinistra da 1. In R, questo può essere fatto usando la funzione PT. Se il valore p è maggiore del livello di significatività scelto (alfa), non riusciamo a rifiutare l'ipotesi nulla.

Nel nostro esempio, il valore p calcolato è 0,059. Poiché 0,059 è maggiore del livello di significatività di 0,05, non abbiamo prove sufficienti per rifiutare l'ipotesi nulla. Pertanto, non possiamo concludere che l'esperimento faccia perdere peso in media ai topi.

È importante notare che il mancato rifiuto dell'ipotesi nulla non significa che l'ipotesi nulla sia vera. Significa semplicemente che le prove non sono abbastanza forti per supportare l'ipotesi alternativa.

In sintesi, quando si tratta di test di ipotesi e la deviazione standard della popolazione non è nota, possiamo utilizzare la distribuzione t e stimare la deviazione standard utilizzando la deviazione standard del campione. Quindi calcoliamo la statistica t, calcoliamo il valore p in base all'ipotesi alternativa e lo confrontiamo con il livello di significatività per prendere una decisione. L'utilizzo di software statistici o tabelle può semplificare i calcoli e fornire risultati più accurati.

Hypothesis Testing with the t-Distribution
Hypothesis Testing with the t-Distribution
  • 2020.04.04
  • www.youtube.com
How can we run a significance test when the population standard deviation is unknown? Simple: use the sample standard deviation as an estimate. If this vid h...
 

Test di significatività con la distribuzione t: esempio


Test di significatività con la distribuzione t: esempio

Ciao a tutti, oggi vorrei illustrarvi un altro esempio di test di ipotesi utilizzando la distribuzione t. Questo esempio si concentra sui tassi di assorbimento del carbonio in una specifica specie di erba. La saggezza convenzionale suggerisce che il tasso di assorbimento medio è di 34,0 micromoli per metro quadrato al secondo. Tuttavia, un gruppo di ricercatori ha i suoi dubbi. Hanno condotto uno studio e ottenuto una media campionaria di 30,6 con una deviazione standard campionaria di 9,7. Ora, a un livello di significatività di 0,05, vogliono determinare se questi dati forniscono una forte evidenza contro la saggezza convenzionale.

Come con qualsiasi test di significatività, iniziamo affermando esplicitamente le nostre ipotesi. L'ipotesi nulla, che miriamo a sfidare, presuppone che i nostri dati campione siano semplicemente il risultato di un caso casuale, e la saggezza convenzionale è vera. D'altra parte, l'ipotesi alternativa cerca di stabilire la possibilità che il vero tasso di assorbimento medio sia maggiore o minore di 34,0. In questo caso, prenderemo in considerazione un'ipotesi alternativa bilaterale per comprendere entrambi gli scenari.

Successivamente, vogliamo valutare quanto è estrema la nostra media campionaria (x-bar) rispetto a ciò che ci aspetteremmo nell'ipotesi nulla. Calcoliamo la statistica test (T) sottraendo la media attesa sotto l'ipotesi nulla (mu-naught) dalla media campionaria e dividendola per la deviazione standard campionaria (s) divisa per la radice quadrata della dimensione campionaria (n). Questo calcolo produce T = -2,27.

Per determinare la probabilità di ottenere una statistica test estrema come -2,27 a causa della sola casualità, dobbiamo considerare entrambi i lati della distribuzione. Calcoliamo l'area ombreggiata combinata a sinistra ea destra di -2,27, che ci fornisce il valore p del test. In R, possiamo usare il comando PT per calcolare l'area più a sinistra, che rappresenta la probabilità che T sia minore di -2,27. Quindi, raddoppiamo quest'area per tenere conto di entrambi i lati della distribuzione.

Dopo aver applicato il comando PT in R con -2,27 e gradi di libertà (df) pari alla dimensione del campione meno uno (41), troviamo che l'area ombreggiata a sinistra è 0,029. Raddoppiando questo valore si ottiene l'area ombreggiata totale, che corrisponde al valore p del test.

Il valore p calcolato è 0,029, che è inferiore al nostro livello di significatività (alfa) di 0,05. Pertanto, respingiamo l'ipotesi nulla e concludiamo che il tasso medio di assorbimento di anidride carbonica in questa specie di erba non è in realtà di 34,0 micromoli per metro quadrato al secondo.

In conclusione, il test di ipotesi utilizzando la distribuzione t ci consente di valutare la forza dell'evidenza rispetto all'ipotesi nulla quando la deviazione standard della popolazione è sconosciuta. Calcolando la statistica del test, confrontandola con il valore critico (livello di significatività) e calcolando il valore p, possiamo prendere decisioni informate riguardo alla validità dell'ipotesi nulla.

Significance Testing with the t-Distribution: Example
Significance Testing with the t-Distribution: Example
  • 2020.04.07
  • www.youtube.com
A two-sided test with unknown population standard deviation. If this vid helps you, please help me a tiny bit by mashing that 'like' button. For more stats j...
 

Verifica di ipotesi in R


Verifica di ipotesi in R

Ciao a tutti! Oggi condurremo test di ipotesi in R utilizzando il comando t.test. Lavoreremo su un paio di problemi relativi al set di dati integrato sulla qualità dell'aria, che considereremo come un semplice campione casuale di misurazioni della qualità dell'aria da New York City.

Passiamo a R, dove ho già caricato il pacchetto tidyverse, cosa che di solito faccio all'inizio delle mie sessioni R. Ho anche recuperato il file della guida per il set di dati sulla qualità dell'aria. Questo set di dati è stato raccolto nel 1973, quindi non sono i dati più recenti. Possiamo usare il comando view per dare un'occhiata al set di dati. Consiste di 153 osservazioni su sei variabili, tra cui il vento e la radiazione solare, le due variabili che ci interessano.

Prima di condurre qualsiasi test statistico, è buona norma visualizzare i dati. Quindi creiamo un istogramma usando il comando qplot. Ci concentreremo sulla variabile vento e specificheremo che vogliamo un istogramma.

Ora passiamo al problema uno. Un funzionario afferma che la velocità media del vento in città è di nove miglia all'ora. Vogliamo determinare se questa affermazione è plausibile sulla base dei dati. Useremo un t-test con l'ipotesi nulla che la velocità media del vento sia di nove miglia all'ora. Guardando l'istogramma, sembra plausibile, anche se leggermente centrato a destra di quel valore. Eseguiremo il t-test usando il comando t.test. Passiamo ad essa la variabile vento e specifichiamo l'ipotesi nulla come mu = 9. Per impostazione predefinita, R assume un'ipotesi alternativa a due code. Il comando t.test ci fornisce la media campionaria, la statistica t e il valore p. La media campionaria è 9,96 e la statistica t calcolata è 3,36, che corrisponde a un valore p inferiore a 0,1. Con un valore p così piccolo, non è plausibile che questi dati si discostino in modo significativo dall'ipotesi nulla a causa della sola casualità. Pertanto, respingiamo l'ipotesi nulla e concludiamo che la velocità media del vento a New York non è di nove miglia all'ora.

Passando al problema due, vogliamo valutare se un certo pannello solare sarebbe conveniente se la radiazione solare media fosse superiore a 175 langley. Useremo un'ipotesi alternativa unilaterale, dove l'ipotesi nulla è che la radiazione solare media è 175 langley, e l'ipotesi alternativa è che è maggiore. Visualizzeremo i dati creando un istogramma della variabile della radiazione solare. Ancora una volta, l'ipotesi nulla sembra plausibile in base all'istogramma. Eseguiremo il t-test usando il comando t.test, passando la variabile di radiazione solare e specificando l'ipotesi nulla come mu = 175. Inoltre, dobbiamo indicare l'ipotesi alternativa unilaterale usando l'argomento alternative = "maggiore" . Il comando t.test ci fornisce la media campionaria, la statistica t e il valore p. La media campionaria è 185,9 e la statistica t calcolata è 1,47, risultando in un valore p di 0,07. Con un valore p di 0,07, non abbiamo prove convincenti per sostenere l'affermazione secondo cui la radiazione solare media a New York è superiore a 175 langley, che è la soglia per giustificare l'acquisto del pannello solare. Pertanto, dovremmo astenerci dal trarre conclusioni e sono necessari ulteriori studi per valutare con precisione la radiazione solare media.

In sintesi, la verifica delle ipotesi mediante il test t ci consente di valutare la plausibilità di affermazioni o ipotesi basate su dati campione. Specificando le ipotesi nulle e alternative, eseguendo il test ed esaminando il valore p risultante, possiamo prendere decisioni informate sull'accettazione o il rifiuto delle ipotesi. La visualizzazione dei dati tramite istogrammi o altri grafici può fornire ulteriori approfondimenti durante l'analisi.

Hypothesis testing in R
Hypothesis testing in R
  • 2022.03.30
  • www.youtube.com
Hypothesis testing in R is easy with the t.test command!If this vid helps you, please help me a tiny bit by mashing that 'like' button. For more #rstats joy,...
 

Test di ipotesi per le proporzioni


Test di ipotesi per le proporzioni

Ciao a tutti! Oggi continueremo la nostra esplorazione della verifica delle ipotesi, questa volta concentrandoci sulle proporzioni. Affronteremo questo argomento esaminando un esempio per comprendere i concetti chiave coinvolti.

Immergiamoci subito. Un commentatore afferma che il 30% dei bambini di sei anni negli Stati Uniti ha una carenza di zinco. Vogliamo valutare questa affermazione raccogliendo un campione e conducendo un test di ipotesi a un livello di significatività di α = 0,05. Per indagare ulteriormente, raccogliamo dati esaminando 36 bambini di sei anni e scopriamo che 5 di loro hanno carenze di zinco, che è inferiore al 30%. Tuttavia, dobbiamo determinare se questa differenza possa essere attribuita al solo caso casuale. La nostra domanda principale è: Quanto è improbabile ottenere un campione come questo?

Per rispondere a questa domanda, confrontiamo la proporzione campionaria (P-hat) che abbiamo ottenuto (5 su 36) con la proporzione dichiarata sotto l'ipotesi nulla. Indichiamo la proporzione della popolazione come P₀ o P-zero. La nostra ipotesi nulla presuppone che la proporzione della popolazione sia 0,30 (30%). L'ipotesi alternativa, in questo caso, è semplicemente che la proporzione della popolazione non sia uguale a 0,30. Non abbiamo un motivo specifico per presumere che sia maggiore o minore del 30%, quindi consideriamo entrambe le possibilità. Per impostazione predefinita, optiamo per un'alternativa bilaterale a meno che non vi sia una ragione convincente per un'alternativa unilaterale.

La proporzione del campione (P-hat) che abbiamo calcolato è 0,139, significativamente inferiore al 30%. Ma questa differenza è statisticamente significativa? Per valutarlo, analizziamo la distribuzione campionaria di P-hat. Immaginiamo di ottenere ripetutamente campioni della stessa dimensione e di calcolare ogni volta la percentuale di carenze di zinco. Supponendo che la dimensione del campione (n) sia grande (che è il caso qui con n = 36), la distribuzione del campionamento avrà una curva a campana. Possiamo determinarne il centro e la diffusione. La media della proporzione campionaria (P-hat) sarà uguale alla proporzione della popolazione (P), mentre la deviazione standard di P-hat sarà la radice quadrata di P(1-P)/n. Se hai bisogno di una spiegazione più dettagliata, ti consiglio di guardare il mio video sugli intervalli di confidenza per le proporzioni.

Ora che sappiamo che la distribuzione campionaria segue una curva a campana con media e deviazione standard note, possiamo calcolare uno z-score. Calcoliamo la differenza tra il valore osservato (P-hat) e il valore atteso (P-naught) e la dividiamo per la deviazione standard. Inserendo i valori (P-hat = 0,139, P-naught = 0,30, n = 36) si ottiene un punteggio z di -2,11.

Per valutare la probabilità di ottenere un P-hat estremo come quello che abbiamo osservato (o anche più estremo), esaminiamo i corrispondenti z-score. In questo caso, siamo interessati alla probabilità di ottenere uno z-score minore di -2,11 o maggiore di 2,11. Possiamo calcolarlo valutando la funzione di distribuzione cumulativa (CDF) della distribuzione normale standard. Utilizzando software statistici o app Web, scopriamo che la probabilità di ottenere un punteggio z inferiore a -2,11 è di circa 0,017. Tuttavia, poiché stiamo considerando entrambe le code della distribuzione, dobbiamo raddoppiare questo valore, ottenendo un valore p di circa 0,035.

Confrontando il valore p con il nostro livello di significatività scelto (α = 0,05), troviamo che il valore p è inferiore a α. Pertanto, respingiamo l'ipotesi nulla e concludiamo che l'affermazione del commentatore è probabilmente falsa. La percentuale di bambini di sei anni negli Stati Uniti con carenze di zinco non è del 30%.

Quando si tratta della dimensione del campione e dell'approssimazione normale, ci sono un paio di regole pratiche da tenere a mente. L'approssimazione normale tende a funzionare bene quando il campione ha almeno cinque successi e cinque fallimenti. Matematicamente parlando, ciò significa che il prodotto della dimensione del campione (n) e della proporzione del campione (P) dovrebbe essere maggiore o uguale a cinque, così come il prodotto della dimensione del campione (n) e il complemento della proporzione del campione (1-P) dovrebbe anche essere maggiore o uguale a cinque.

Nel nostro caso, avevamo una dimensione del campione di 36 e una proporzione del campione (P-hat) di 0,139, che soddisfa le condizioni per l'approssimazione normale. Pertanto, possiamo affidarci con sicurezza alla distribuzione normale per la nostra inferenza statistica.

Vale anche la pena notare che, in generale, campioni di dimensioni maggiori tendono a produrre risultati migliori con l'approssimazione normale. All'aumentare della dimensione del campione, la distribuzione normale diventa una rappresentazione più accurata della distribuzione campionaria di P-hat.

Quindi, in sintesi, possiamo concludere che la dimensione del campione di 36 nel nostro esempio è sufficientemente grande da consentirci di utilizzare l'approssimazione normale nel nostro test di ipotesi.

Spero che questo chiarisca il ruolo della dimensione del campione nell'approssimazione normale e fornisca una spiegazione completa del processo di verifica delle ipotesi per le proporzioni.

Hypothesis Testing for Proportions
Hypothesis Testing for Proportions
  • 2020.05.09
  • www.youtube.com
How should we run a hypothesis test when we have data involving percentages, proportions, or fractions? Using a normal approximation. of course, at least whe...
 

Test di ipotesi per le proporzioni: esempio


Test di ipotesi per le proporzioni: esempio

Ciao a tutti! Oggi lavoreremo su un esempio di test di ipotesi per le proporzioni. Entriamo nel problema. Un'università afferma che il 65% dei suoi studenti si laurea in quattro anni o meno. Tuttavia, ci sono dubbi sull'accuratezza di questa affermazione. Per indagare ulteriormente, viene prelevato un semplice campione casuale di 120 studenti e si scopre che solo 68 dei 120 studenti si sono laureati entro il periodo di tempo specificato. Poiché questa percentuale è inferiore al 65% dichiarato, fornisce prove contro l'affermazione dell'università. Ora, la domanda è se questa prova sia abbastanza forte da suggerire che l'affermazione è improbabile o se potrebbe essere attribuita al caso casuale. Per determinarlo, calcoleremo un valore p e prenderemo una decisione utilizzando un livello di significatività (α) di 0,05.

In primo luogo, dobbiamo formulare l'ipotesi nulla e alternativa. L'ipotesi nulla afferma che i risultati sono dovuti esclusivamente al caso casuale e che la percentuale reale di studenti che si laureano in quattro anni o meno è effettivamente 0,65. D'altra parte, l'ipotesi alternativa suggerisce che l'università stia sopravvalutando il proprio tasso di laureati e che la proporzione della popolazione sia inferiore a 0,65. In questo caso è opportuna un'ipotesi alternativa unilaterale in quanto a noi interessa unicamente la possibilità che il tasso di laurea sia inferiore al 65%.

Assumendo che l'ipotesi nulla sia vera, possiamo applicare il teorema del limite centrale, che afferma che quando la dimensione del campione (n) è sufficientemente grande, la distribuzione campionaria della proporzione (P-hat) sarà approssimativamente normale. La media di questa distribuzione è uguale alla media della popolazione (P), e la deviazione standard è data dalla radice quadrata di P moltiplicato per 1 meno P diviso per n. Nel nostro caso, poiché abbiamo ipotizzato che l'ipotesi nulla sia vera, la proporzione della popolazione (P) è 0,65.

Ora, calcoliamo lo z-score per determinare la probabilità di ottenere un risultato estremo quanto o più estremo della proporzione osservata solo per caso casuale. Inserendo i valori, troviamo un punteggio z di -1,91. Per trovare la probabilità associata a questo z-score, che rappresenta la probabilità di ottenere una proporzione minore o uguale a quella osservata, utilizziamo la normale funzione di distribuzione cumulativa (CDF). Questo può essere fatto utilizzando vari strumenti come tabelle, app Web o software statistico. Ad esempio, in R, il comando "Pnorm(-1.91)" restituisce un valore di 0.028.

Confrontando questo p-value con il livello di significatività (α) di 0,05, osserviamo che il p-value è minore di α. Pertanto, respingiamo l'ipotesi nulla, indicando che è ragionevole concludere che l'università abbia sopravvalutato il suo tasso di laurea quadriennale.

Hypothesis Testing for Proportions: Example
Hypothesis Testing for Proportions: Example
  • 2020.05.10
  • www.youtube.com
A complete example of a hypothesis test for a proportion using the normal approximation.
 

Introduzione ai grafici a dispersione


Introduzione ai grafici a dispersione

Ciao a tutti! Oggi approfondiremo i grafici a dispersione, che sono visualizzazioni visive di dati che coinvolgono più variabili raccolte contemporaneamente. I grafici a dispersione sono cruciali in quanto si verificano spesso in scenari di raccolta dati del mondo reale. Spesso raccogliamo più di un'informazione. Ad esempio, potremmo avere punteggi SAT matematici e verbali per un gruppo di studenti, altezze e pesi di individui in uno studio medico o dati sulle dimensioni del motore e sul chilometraggio del gas per varie auto. In ogni caso, i dati sono accoppiati, nel senso che ogni valore di una variabile corrisponde a un valore specifico dell'altra variabile, creando una relazione uno a uno. Quando esistono tali dati accoppiati, possiamo costruire grafici a dispersione.

Consideriamo un esempio utilizzando una tabella. Ogni colonna della tabella rappresenta un campo scientifico o ingegneristico, con il numero in alto che indica il numero di dottorati di ricerca conseguiti a donne in quel campo nel 2005 e il numero in basso che indica il numero di dottorati di ricerca conseguiti a uomini nello stesso anno. Tracciando questi dati, dove i dottorati delle donne sono rappresentati dai valori x e i dottorati degli uomini dai valori y, otteniamo un insieme di punti. Alcuni punti sono etichettati, come (2168, 2227), che corrisponde alla seconda colonna di dati nella tabella. Rappresenta un settore scientifico in cui nel 2005 sono stati assegnati 2168 dottorati di ricerca a donne e 2227 a uomini.

Quando si esaminano i grafici a dispersione, è utile descriverli qualitativamente. In questo esempio, osserviamo una tendenza generale al ribasso nei dati, anche se ci sono casi in cui i valori aumentano mentre ci spostiamo da sinistra a destra. Nel complesso, la forma dei dati tende a inclinarsi verso il basso, indicando un'associazione negativa tra le due variabili. Tuttavia, è importante notare che dovremmo astenerci dall'usare il termine "correlazione negativa" a meno che l'associazione non sia lineare, nel senso che il grafico segue una linea retta. In questo caso, i dati non mostrano una relazione lineare.

Un altro aspetto degno di nota di questa trama è il valore anomalo nell'angolo in alto a destra. I valori anomali possono rientrare in varie categorie, come errori di immissione dei dati, casi insoliti che influiscono sull'analisi o fenomeni interessanti che richiedono ulteriori indagini. Infine, è fondamentale considerare quale variabile posizionare sull'asse orizzontale e quale sull'asse verticale. Se una variabile spiega o influenza naturalmente l'altra in uno studio, dovrebbe essere collocata sull'asse orizzontale come variabile esplicativa. Al contrario, la variabile che viene spiegata o influenzata dovrebbe trovarsi sull'asse verticale come variabile di risposta. Ad esempio, nell'esempio del chilometraggio del gas, ha senso considerare il chilometraggio come spiegato dalle dimensioni del motore (cilindrata), quindi posizioniamo il chilometraggio sull'asse verticale. Tuttavia, questa scelta può comportare una certa soggettività e potrebbero esserci scenari in cui i ruoli sono invertiti, a seconda del contesto dello studio.

Introduction to Scatterplots
Introduction to Scatterplots
  • 2020.04.11
  • www.youtube.com
What is a scatterplot? How do we construct them? How do we describe them? If this vid helps you, please help me a tiny bit by mashing that 'like' button. For...
 

Grafici a dispersione e correlazione


Grafici a dispersione e correlazione

Ciao a tutti! Oggi forniremo una breve introduzione alla correlazione. Tratteremo questo argomento in soli tre minuti. Iniziamo!

Quando esaminiamo un grafico a dispersione, a volte osserviamo una relazione lineare in cui i dati seguono approssimativamente una linea retta. In tali casi, possiamo discutere la correlazione tra le variabili. Tuttavia, è importante resistere alla tentazione di usare il termine "correlazione" quando le variabili hanno una relazione diversa da quella lineare. Le correlazioni possono essere deboli o forti e possono essere positive o negative.

Una correlazione positiva indica che mentre ci spostiamo da sinistra a destra sul grafico, la forma generale dei punti dati è inclinata verso l'alto. Al contrario, una correlazione negativa implica che la forma generale dei punti dati discende mentre leggiamo da sinistra a destra. Le correlazioni più forti sono caratterizzate da punti dati che si raggruppano più strettamente attorno alla linea immaginata, mentre le correlazioni più deboli mostrano punti dati più dispersi.

Per quantificare la correlazione, usiamo una statistica chiamata coefficiente di correlazione (spesso indicato come "r"). È compreso tra -1 e 1. I valori più vicini a 0 indicano dati più nuvolosi o più dispersi. Negli esempi forniti, una correlazione di 0,4 o -0,4 rappresenta una correlazione moderata, mentre 0,9 o -0,9 indica una correlazione più forte. Una correlazione di 1 o -1 indica una relazione lineare perfetta, in cui tutti i punti dati giacciono esattamente sulla linea.

È importante notare che il coefficiente di correlazione "r" non deve essere confuso con la pendenza della retta. Il segno di "r" indica se la pendenza è positiva o negativa, ma "r" in sé non rappresenta specificamente la pendenza. Invece, il coefficiente di correlazione riflette la diffusione dei dati dalla linea che si immagina passi attraverso il centro dei dati.

Quando le variabili non mostrano una relazione lineare, diciamo che non sono correlate. Prestare attenzione quando si interpreta il coefficiente di correlazione in questi casi. Anche se esiste una chiara associazione tra le variabili, come in una forma parabolica, il calcolo della correlazione produrrebbe un valore vicino allo zero.

Ora, discutiamo della correlazione informatica. In breve, non è consigliabile calcolarlo manualmente. Fortunatamente, abbiamo strumenti come pacchetti software per aiutarci. In R, ad esempio, il comando è "cor". Fornendo i valori X e Y (le due variabili che vogliamo correlare), possiamo ottenere immediatamente il coefficiente di correlazione. Con la tabella data, se assegniamo la prima riga come X e la seconda riga come Y, possiamo semplicemente usare il comando "cor(X, Y)" per ottenere il valore di correlazione. In questo esempio, otteniamo una correlazione di 0,787, che indica una correlazione moderatamente positiva.

Scatterplots and Correlation
Scatterplots and Correlation
  • 2020.04.14
  • www.youtube.com
Let's talk about relationships between quantitative variables!If this vid helps you, please help me a tiny bit by mashing that 'like' button. For more #rstat...