Tutoriales de programación - página 16

 

Prueba de hipótesis: ejemplo


Prueba de hipótesis: Ejemplo

Hoy, veremos un ejemplo de prueba de hipótesis para la media. Antes de profundizar en el ejemplo específico, repasemos el procedimiento general. Siempre comienza con el establecimiento de hipótesis, incluida la hipótesis nula, que representa la idea contra la que queremos recopilar evidencia, y la hipótesis alternativa, que buscamos respaldar. Suponiendo que la hipótesis nula es verdadera, examinamos dónde cae nuestra media muestral (barra X) entre todas las medias muestrales posibles bajo esta suposición.

Para ello, calculamos un z-score, que mide la desviación de nuestro resultado dentro del contexto de la hipótesis nula. Para una hipótesis alternativa unilateral que prueba si la media de la población (μ) es menor o mayor que un valor específico, calculamos la probabilidad de obtener una puntuación z menor o igual que la que obtuvimos. Para una hipótesis alternativa de dos colas, calculamos cualquiera de las probabilidades y luego la duplicamos apropiadamente.

En la representación más formal, encontramos la probabilidad de obtener un puntaje z menor o igual al valor absoluto negativo de nuestro puntaje z obtenido. Al usar la función de distribución acumulativa, tenemos en cuenta las colas izquierda y derecha. Una vez que tenemos el valor p, lo comparamos con el nivel de significancia elegido (alfa). Si el valor p es menor que alfa, rechazamos la hipótesis nula y concluimos que se respalda la hipótesis alternativa.

Ahora apliquemos esto a un ejemplo real. Un grupo de defensa del consumidor prueba el contenido de vitamina C de un suplemento orgánico, que afirma tener un promedio de 1000 miligramos de vitamina C por tableta. Con un tamaño de muestra de 32, encuentran una media muestral de 1008,9 miligramos. La desviación estándar de la población (σ) se da como 21 miligramos. Nuestra tarea es determinar si hay pruebas suficientes para rechazar la afirmación del producto. El nivel de significación (alfa) se establece en 0,05.

Siguiendo el procedimiento general, comenzamos por establecer las hipótesis. La hipótesis nula es que la afirmación del producto de un contenido promedio de vitamina C de 1000 miligramos es cierta, mientras que la hipótesis alternativa es que la verdadera media difiere de 1000 miligramos. Dado que no hay una indicación específica para considerar solo valores menores o mayores de 1000, optamos por una hipótesis alternativa de dos colas.

A continuación, calculamos el puntaje z utilizando la fórmula (media de la muestra - valor esperado) / (desviación estándar de la media de la muestra). Asumiendo la hipótesis nula, usamos un valor medio de 1000 miligramos y calculamos la desviación estándar de la media de la muestra como σ / √n, donde n es el tamaño de la muestra. En consecuencia, se encuentra que la puntuación z es 2,39, lo que indica que nuestra media muestral de 1008,9 miligramos se desvía 2,39 desviaciones estándar de la media esperada bajo la hipótesis nula.

Para determinar el valor p, necesitamos encontrar la probabilidad de obtener un puntaje z tan extremo como el que tenemos (ya sea positivo o negativo). En este caso, calculamos P(Z ≤ -2,39), lo que arroja 0,0084. Dado que esta es una prueba de dos caras, duplicamos la probabilidad para obtener 0.0168.

Comparando el valor p con el nivel de significancia, encontramos que 0.0168 es de hecho menor que 0.05. Por lo tanto, tenemos suficiente evidencia para rechazar la hipótesis nula y concluir que el suplemento no contiene un promedio de 1000 miligramos de vitamina C.

Hypothesis Testing: Example
Hypothesis Testing: Example
  • 2020.03.25
  • www.youtube.com
Another example of a two-sided hypothesis test for the mean when the population standard deviation is known. If this vid helps you, please help me a tiny bit...
 

Errores de tipo I y tipo II en las pruebas de significación


Errores de tipo I y tipo II en las pruebas de significación

Hoy hablaremos de situaciones en las que las pruebas de significación no salen según lo planeado. Vamos a cubrirlo todo en solo tres minutos. Vamos a empezar.

En la prueba de hipótesis, encontramos dos estados posibles para H cero (la hipótesis nula): puede ser verdadero o falso. Al final de la prueba, tenemos dos posibles decisiones: rechazar H nada o no rechazarlo. Esto nos da un total de cuatro resultados posibles. Podemos examinar las combinaciones de estas dos decisiones. Tengo una tabla que resume estos resultados, y dos de ellos nos dan satisfacción: rechazar H nada cuando es falso y no rechazar H nada cuando es verdadero. Sin embargo, hay dos situaciones que no son deseables.

A medida que profundizamos en este tema, es importante tener en cuenta que, por lo general, no tenemos información previa sobre si H naught es verdadero o falso al principio. Si obtenemos dicha información, generalmente llega mucho más tarde. Ahora, analicemos los dos resultados desfavorables. El primero se llama error tipo 1 o falso positivo. Esto ocurre cuando rechazamos la hipótesis nula a pesar de que es cierta. Ocurre cuando ocurre un evento aleatorio y erróneamente lo interpretamos como significativo. La segunda situación es un error de tipo 2 o falso negativo. Esto ocurre cuando no podemos rechazar la hipótesis nula, aunque en realidad sea falsa. En este caso, está sucediendo algo significativo, pero nuestra prueba no lo detecta.

Los términos "falso positivo" y "falso negativo" se originan en las pruebas médicas, donde el marco lógico es similar a las pruebas de significación. En las pruebas médicas, podría estar probando una enfermedad y la prueba puede indicar su presencia o ausencia. Los errores generales de Tipo 1 y Tipo 2 se resumen en la tabla proporcionada, destacando los resultados deseados con marcas de verificación.

Veamos rápidamente un par de ejemplos. Suponga que un fabricante de barras de chocolate afirma que, en promedio, sus barras pesan 350 gramos. Sospecho que podrían estar sobrestimando, así que recopilo una muestra y rechazo su afirmación con un valor p de 0.0089. Sin embargo, si la afirmación del fabricante fuera realmente cierta y sus barras tuvieran un peso promedio de 350 gramos, habría cometido un error tipo 1 o un falso positivo.

He aquí otro ejemplo: un restaurante afirma que el contenido medio de sodio de uno de sus sándwiches es de 920 miligramos. Analizo una muestra pero encuentro pruebas insuficientes para rechazar la afirmación con un nivel alfa de 0,01. Si la afirmación del restaurante hubiera sido falsa, digamos que el contenido medio de sodio era en realidad de 950 miligramos, habría cometido un error de tipo 2 al no rechazar la afirmación.

Type I and Type II Errors in Significance Tests
Type I and Type II Errors in Significance Tests
  • 2020.03.28
  • www.youtube.com
When hypothesis testing goes wrong, explained in under three minutes.
 

Prueba de hipótesis usando regiones críticas


Prueba de hipótesis usando regiones críticas

Hola a todos, hoy discutiremos la prueba de hipótesis utilizando regiones críticas. Si bien este enfoque puede considerarse de la vieja escuela, sigue siendo relevante en la teoría que cubriremos. Por lo tanto, es beneficioso tener una comprensión básica del mismo.

En el pasado, calcular los valores de p era más desafiante que hoy. Implicaba basarse en tablas para los cálculos, como las de la distribución normal, que tenían una precisión limitada y entradas finitas. Para minimizar la necesidad de estos cálculos, se utilizó comúnmente el concepto de regiones críticas o regiones de rechazo.

El proceso típico para la prueba de hipótesis en la actualidad implica calcular un valor p basado en datos de muestra y compararlo con el nivel de significancia elegido (alfa). Sin embargo, con regiones críticas, invertimos este proceso. Comenzamos seleccionando un nivel de significación (alfa), que luego define un valor de corte para la estadística de prueba, denominado Z-star o T-star. Si los datos de la muestra arrojan una estadística muestral más extrema que este valor de corte, nos lleva a rechazar la hipótesis nula.

Consideremos un ejemplo para ilustrar esto. Supongamos que tenemos una hipótesis alternativa de dos colas y estamos realizando una prueba con una distribución normal y un nivel de significancia de alfa igual a 0,05. En este caso, alfa igual a 0,05 corresponde a un área sombreada de 0,05 en la distribución (0,025 en cada lado). Al realizar un cálculo normal inverso (usando el comando Q norma en R), encontramos que el valor crítico Z-star es 1.96. Por tanto, si el estadístico muestral (Z-star) es superior a 1,96 (valor absoluto), indica que debemos rechazar la hipótesis nula.

Para otro ejemplo, consideremos una distribución t con 8 grados de libertad y una alternativa unilateral (alternativa del lado derecho). Supongamos que elegimos alfa igual a 0,01 como nivel de significancia. En este caso, hay un área de 0,01 a la derecha de la estrella T, que corresponde a un área de 0,99 a la izquierda. Usando una CDF t inversa (usando el comando QT) con los valores 0.99 y 8 en R, encontramos que T-star es aproximadamente 2.9. Si el estadístico t de la muestra es mayor que 2.9, cae dentro de la región sombreada, lo que nos lleva a rechazar la hipótesis nula.

En el caso de la distribución normal, podemos traducir el valor Z crítico en un enunciado sobre la media muestral crítica. Considere el siguiente ejemplo: el contenido de las latas de cierta marca de Cola se distribuye normalmente con una desviación estándar de 0,2 onzas. Deseamos usar una muestra de tamaño 15 para probar la hipótesis nula de que el contenido medio de las latas es de 12 onzas contra una hipótesis alternativa de que en realidad son menos de 12 onzas. Con una alternativa unilateral y alfa igual a 0,05, el valor crítico de Z es -1,645. Por lo tanto, si la media de la muestra (barra X) está más de 1,645 desviaciones estándar por debajo de la media, debemos rechazar la hipótesis nula. En concreto, si la media muestral es inferior a 11,92 onzas, rechazaríamos la hipótesis nula.

Hypothesis testing using critical regions
Hypothesis testing using critical regions
  • 2020.03.29
  • www.youtube.com
A formerly very practical idea, now mostly of theoretical interest. If this vid helps you, please help me a tiny bit by mashing that 'like' button. For more ...
 

Prueba de hipótesis con la distribución t


Prueba de hipótesis con la distribución t

Hola a todos, hoy discutiremos la prueba de hipótesis utilizando la distribución t. En este escenario, nos enfrentamos a situaciones en las que se desconoce la desviación estándar de la población. Anteriormente, realizamos pruebas de hipótesis usando estadísticas Z, suponiendo que conocíamos la desviación estándar de la población (Sigma). Sin embargo, en la inferencia estadística, el objetivo es usar información de muestra para obtener información sobre la población, por lo que es común no conocer Sigma. En tales casos, estimamos la desviación estándar de la población usando la(s) desviación(es) estándar de la muestra y procedemos con cálculos similares.

El desafío surge porque, cuando Sigma se reemplaza por s, la expresión (X-bar - mu)/(s/sqrt(n)) ya no sigue una distribución normal. Tanto la barra X como s varían con cada nueva muestra, lo que hace que la distribución siga una distribución t con (n-1) grados de libertad. Afortunadamente, una vez que consideramos este ajuste, los cálculos siguen siendo prácticamente los mismos.

Para realizar una prueba de hipótesis cuando se desconoce Sigma, se parte de las hipótesis nula y alternativa. Suponiendo que la hipótesis nula es verdadera, calculamos la estadística t para los datos de muestra reales: (X-bar - mu_naught)/(s/sqrt(n)). Luego calculamos los valores de p basados en la hipótesis alternativa.

Para una hipótesis alternativa del lado izquierdo, donde sospechamos que mu es menor que un valor dado, encontramos la probabilidad de obtener un valor t menor o igual que el que obtuvimos cuando la hipótesis nula es verdadera. Esto corresponde al área sombreada en la primera imagen.

De manera similar, para una hipótesis alternativa del lado derecho, donde mu es mayor que un valor dado, determinamos la probabilidad de obtener un valor t mayor que el que obtuvimos. Esto corresponde al área a la derecha del valor t.

En el caso de una prueba bilateral, consideramos ambas áreas. Calculamos la probabilidad de obtener un valor t mayor (en valor absoluto) que el que obtuvimos y luego lo duplicamos.

Una vez que tenemos el valor p, lo comparamos con el nivel de significancia elegido (alfa) para tomar una decisión. Si el valor p es menor que alfa, rechazamos la hipótesis nula. Sin embargo, al realizar cálculos manualmente, obtener el valor t de los datos de muestra puede ser complicado. Se recomienda utilizar tecnología, como software estadístico o calculadoras. En R, por ejemplo, el comando PT(t, n-1) calcula el área a la izquierda de un valor t dado en una distribución t con (n-1) grados de libertad.

Consideremos un ejemplo para demostrar este proceso. Supongamos que tenemos las pérdidas de peso de siete ratones durante un experimento. Queremos determinar si hay evidencia suficiente para concluir que los ratones pierden peso durante el experimento, con un nivel de significancia de alfa igual a 0,05. Como no se nos da la desviación estándar de la población, estamos tratando con una situación de prueba t.

Para comenzar la prueba, establecemos la hipótesis nula, asumiendo que los datos se deben al azar, y la hipótesis alternativa, que afirma que los ratones pierden peso en promedio durante el experimento. En este caso, elegimos una hipótesis alternativa unilateral, centrándonos en la pérdida de peso en lugar del aumento de peso.

Luego, calculamos la estadística t utilizando la media muestral y la desviación estándar muestral. Con el valor t obtenido, calculamos el valor p, que representa la probabilidad de obtener un valor t mayor o igual al valor observado solo por casualidad.

Para evaluar esta probabilidad, nos referimos a una distribución t con (n-1) grados de libertad. Calculamos el área a la derecha del valor t restando el área a la izquierda de 1. En R, esto se puede hacer usando la función PT. Si el valor p es mayor que el nivel de significación elegido (alfa), no podemos rechazar la hipótesis nula.

En nuestro ejemplo, el valor p calculado es 0,059. Dado que 0,059 es mayor que el nivel de significación de 0,05, no tenemos suficiente evidencia para rechazar la hipótesis nula. Por lo tanto, no podemos concluir que el experimento haga que los ratones pierdan peso en promedio.

Es importante tener en cuenta que no rechazar la hipótesis nula no significa que la hipótesis nula sea verdadera. Simplemente significa que la evidencia no es lo suficientemente fuerte para apoyar la hipótesis alternativa.

En resumen, cuando se trata de pruebas de hipótesis y se desconoce la desviación estándar de la población, podemos usar la distribución t y estimar la desviación estándar usando la desviación estándar de la muestra. Luego calculamos la estadística t, calculamos el valor p en función de la hipótesis alternativa y lo comparamos con el nivel de significación para tomar una decisión. El uso de software estadístico o tablas puede simplificar los cálculos y proporcionar resultados más precisos.

Hypothesis Testing with the t-Distribution
Hypothesis Testing with the t-Distribution
  • 2020.04.04
  • www.youtube.com
How can we run a significance test when the population standard deviation is unknown? Simple: use the sample standard deviation as an estimate. If this vid h...
 

Prueba de significación con la distribución t: ejemplo


Prueba de significación con la distribución t: ejemplo

Hola a todos, hoy me gustaría mostrarles otro ejemplo de una prueba de hipótesis usando la distribución t. Este ejemplo se centra en las tasas de absorción de carbono en una especie de hierba específica. La sabiduría convencional sugiere que la tasa de absorción media es de 34,0 micromoles por metro cuadrado por segundo. Sin embargo, un grupo de investigadores tiene sus dudas. Realizaron un estudio y obtuvieron una media muestral de 30,6 con una desviación estándar muestral de 9,7. Ahora, con un nivel de significación de 0,05, quieren determinar si estos datos proporcionan una evidencia sólida contra la sabiduría convencional.

Como con cualquier prueba de significación, comencemos por establecer nuestras hipótesis explícitamente. La hipótesis nula, que pretendemos desafiar, asume que los datos de nuestra muestra son simplemente el resultado de una casualidad aleatoria, y la sabiduría convencional es cierta. Por otro lado, la hipótesis alternativa busca establecer la posibilidad de que la verdadera tasa de captación media sea mayor o menor que 34,0. En este caso, consideraremos una hipótesis alternativa bilateral para abarcar ambos escenarios.

A continuación, queremos evaluar cuán extrema es la media de nuestra muestra (barra x) en comparación con lo que esperaríamos bajo la hipótesis nula. Calculamos la estadística de prueba (T) restando la media esperada bajo la hipótesis nula (mu-nada) de la media de la muestra y dividiéndola por la desviación estándar de la muestra (s) dividida por la raíz cuadrada del tamaño de la muestra (n). Este cálculo da como resultado T = -2,27.

Para determinar la probabilidad de obtener un estadístico de prueba tan extremo como -2,27 debido únicamente al azar, debemos considerar ambos lados de la distribución. Calculamos el área sombreada combinada a la izquierda ya la derecha de -2.27, lo que nos da el valor p de la prueba. En R, podemos usar el comando PT para calcular el área más a la izquierda, que representa la probabilidad de que T sea menor que -2.27. Luego, duplicamos esta área para tener en cuenta ambos lados de la distribución.

Después de aplicar el comando PT en R con -2,27 y grados de libertad (gl) iguales al tamaño de la muestra menos uno (41), encontramos que el área sombreada de la izquierda es 0,029. Duplicar este valor nos da el área sombreada total, que corresponde al valor p de la prueba.

El valor p calculado es 0,029, que es menor que nuestro nivel de significación (alfa) de 0,05. Por lo tanto, rechazamos la hipótesis nula y concluimos que la tasa media de absorción de dióxido de carbono en esta especie de pasto no es en realidad 34,0 micromoles por metro cuadrado por segundo.

En conclusión, la prueba de hipótesis utilizando la distribución t nos permite evaluar la fuerza de la evidencia contra la hipótesis nula cuando se desconoce la desviación estándar de la población. Al calcular la estadística de prueba, compararla con el valor crítico (nivel de significancia) y calcular el valor p, podemos tomar decisiones informadas con respecto a la validez de la hipótesis nula.

Significance Testing with the t-Distribution: Example
Significance Testing with the t-Distribution: Example
  • 2020.04.07
  • www.youtube.com
A two-sided test with unknown population standard deviation. If this vid helps you, please help me a tiny bit by mashing that 'like' button. For more stats j...
 

Prueba de hipótesis en R


Prueba de hipótesis en R

¡Hola a todos! Hoy realizaremos pruebas de hipótesis en R mediante el comando t.test. Trabajaremos en un par de problemas relacionados con el conjunto de datos de calidad del aire incorporado, que consideraremos como una simple muestra aleatoria de mediciones de la calidad del aire de la ciudad de Nueva York.

Cambiemos a R, donde ya cargué el paquete tidyverse, lo que suelo hacer al comienzo de mis sesiones de R. También abrí el archivo de ayuda para el conjunto de datos de calidad del aire. Este conjunto de datos se recopiló en 1973, por lo que no son los datos más recientes. Podemos usar el comando de vista para echar un vistazo al conjunto de datos. Consta de 153 observaciones sobre seis variables, incluyendo el viento y la radiación solar, las dos variables que nos interesan.

Antes de realizar cualquier prueba estadística, es una buena práctica visualizar los datos. Así que vamos a crear un histograma usando el comando qplot. Nos centraremos en la variable viento y especificaremos que queremos un histograma.

Ahora pasemos al problema uno. Un funcionario afirma que la velocidad promedio del viento en la ciudad es de nueve millas por hora. Queremos determinar si esta afirmación es plausible en base a los datos. Usaremos una prueba t con la hipótesis nula de que la velocidad media del viento es de nueve millas por hora. Mirando el histograma, parece plausible, aunque ligeramente centrado a la derecha de ese valor. Realizaremos la prueba t usando el comando t.test. Le pasamos la variable viento y especificamos la hipótesis nula como mu = 9. Por defecto, R asume una hipótesis alternativa bilateral. El comando t.test nos proporciona la media de la muestra, la estadística t y el valor p. La media de la muestra es 9,96 y la estadística t calculada es 3,36, lo que corresponde a un valor p inferior a 0,1. Con un valor p tan pequeño, no es plausible que estos datos se desvíen significativamente de la hipótesis nula debido únicamente a la posibilidad aleatoria. Por lo tanto, rechazamos la hipótesis nula y concluimos que la velocidad media del viento en Nueva York no es de nueve millas por hora.

Pasando al problema dos, queremos evaluar si una determinada matriz solar sería rentable si la radiación solar media supera los 175 langley. Usaremos una hipótesis alternativa unilateral, donde la hipótesis nula es que la radiación solar media es de 175 langley y la hipótesis alternativa es que es mayor. Visualizaremos los datos creando un histograma de la variable radiación solar. Una vez más, la hipótesis nula parece plausible según el histograma. Realizaremos la prueba t usando el comando t.test, pasando la variable de radiación solar y especificando la hipótesis nula como mu = 175. Además, necesitamos indicar la hipótesis alternativa unilateral usando el argumento alternativa = "mayor" . El comando t.test nos proporciona la media de la muestra, la estadística t y el valor p. La media de la muestra es 185,9 y la estadística t calculada es 1,47, lo que da como resultado un valor p de 0,07. Con un valor p de 0,07, no tenemos pruebas convincentes que respalden la afirmación de que la radiación solar media en Nueva York supera los 175 langley, que es el umbral para justificar la compra del panel solar. Por lo tanto, debemos abstenernos de sacar conclusiones y se necesitan más estudios para evaluar con precisión la radiación solar media.

En resumen, la prueba de hipótesis mediante la prueba t nos permite evaluar la plausibilidad de afirmaciones o hipótesis basadas en datos de muestra. Al especificar las hipótesis nula y alternativa, realizar la prueba y examinar el valor p resultante, podemos tomar decisiones informadas sobre la aceptación o el rechazo de hipótesis. La visualización de los datos a través de histogramas u otros gráficos puede proporcionar información adicional durante el análisis.

Hypothesis testing in R
Hypothesis testing in R
  • 2022.03.30
  • www.youtube.com
Hypothesis testing in R is easy with the t.test command!If this vid helps you, please help me a tiny bit by mashing that 'like' button. For more #rstats joy,...
 

Prueba de hipótesis para proporciones


Prueba de hipótesis para proporciones

¡Hola a todos! Hoy continuaremos nuestra exploración de la prueba de hipótesis, esta vez enfocándonos en las proporciones. Abordaremos este tema examinando un ejemplo para comprender los conceptos clave involucrados.

Empecemos de lleno. Un comentarista afirma que el 30% de los niños de seis años en los Estados Unidos tienen una deficiencia de zinc. Queremos evaluar esta afirmación recolectando una muestra y realizando una prueba de hipótesis a un nivel de significancia de α = 0.05. Para investigar más a fondo, reunimos datos encuestando a 36 niños de seis años y descubrimos que 5 de ellos tienen deficiencias de zinc, que es menos del 30 %. Sin embargo, necesitamos determinar si esta diferencia podría atribuirse únicamente al azar. Nuestra pregunta principal es: ¿Qué tan improbable es obtener una muestra como esta?

Para responder a esta pregunta, comparamos la proporción muestral (P-sombrero) que obtuvimos (5 de 36) con la proporción declarada bajo la hipótesis nula. Denotemos la proporción de la población como P₀ o P-cero. Nuestra hipótesis nula asume que la proporción de la población es 0.30 (30%). La hipótesis alternativa, en este caso, es simplemente que la proporción de la población no es igual a 0,30. No tenemos una razón específica para suponer que es mayor o menor al 30 %, por lo que consideramos ambas posibilidades. Por defecto, optamos por una alternativa de dos lados a menos que haya una razón convincente para una alternativa de un solo lado.

La proporción muestral (P-hat) que calculamos es 0,139, significativamente inferior al 30 %. Pero, ¿es esta diferencia estadísticamente significativa? Para evaluar esto, analizamos la distribución muestral de P-hat. Imaginamos obtener muestras del mismo tamaño repetidamente y calcular la proporción de deficiencias de zinc cada vez. Suponiendo que el tamaño de la muestra (n) es grande (que es el caso aquí con n = 36), la distribución muestral tendrá una curva en forma de campana. Podemos determinar su centro y propagación. La media de la proporción muestral (P-sombrero) será la misma que la proporción poblacional (P), mientras que la desviación estándar de P-sombrero será la raíz cuadrada de P(1-P)/n. Si necesitas una explicación más detallada, te recomiendo ver mi video sobre intervalos de confianza para proporciones.

Ahora que sabemos que la distribución muestral sigue una curva en forma de campana con media y desviación estándar conocidas, podemos calcular una puntuación z. Calculamos la diferencia entre el valor observado (P-sombrero) y el valor esperado (P-nada) y lo dividimos por la desviación estándar. Introduciendo los valores (P-sombrero = 0,139, P-nada = 0,30, n = 36) produce una puntuación z de -2,11.

Para evaluar la probabilidad de obtener un P-hat tan extremo como el que observamos (o incluso más extremo), examinamos los puntajes z correspondientes. En este caso, nos interesa la probabilidad de obtener un puntaje z menor a -2.11 o mayor a 2.11. Podemos calcular esto evaluando la función de distribución acumulativa (CDF) de la distribución normal estándar. Usando software estadístico o aplicaciones web, encontramos que la probabilidad de obtener un puntaje z menor a -2.11 es de aproximadamente 0.017. Sin embargo, dado que estamos considerando ambas colas de la distribución, necesitamos duplicar este valor, lo que da como resultado un valor p de aproximadamente 0,035.

Al comparar el valor de p con nuestro nivel de significancia elegido (α = 0.05), encontramos que el valor de p es menor que α. Por lo tanto, rechazamos la hipótesis nula y concluimos que la afirmación del comentarista es probablemente falsa. La proporción de niños de seis años en los Estados Unidos con deficiencias de zinc no es del 30 %.

Cuando se trata del tamaño de la muestra y la aproximación normal, hay un par de reglas generales a tener en cuenta. La aproximación normal tiende a funcionar bien cuando la muestra tiene al menos cinco éxitos y cinco fracasos. Matemáticamente hablando, esto significa que el producto del tamaño de la muestra (n) y la proporción de la muestra (P) debe ser mayor o igual a cinco, así como el producto del tamaño de la muestra (n) y el complemento de la proporción de la muestra (1-P) también debe ser mayor o igual a cinco.

En nuestro caso, tuvimos un tamaño de muestra de 36 y una proporción muestral (P-hat) de 0,139, lo que cumple las condiciones para la aproximación normal. Por lo tanto, podemos confiar con confianza en la distribución normal para nuestra inferencia estadística.

También vale la pena señalar que, en general, los tamaños de muestra más grandes tienden a producir mejores resultados con la aproximación normal. A medida que aumenta el tamaño de la muestra, la distribución normal se convierte en una representación más precisa de la distribución de muestreo de P-hat.

Entonces, en resumen, podemos concluir que el tamaño de la muestra de 36 en nuestro ejemplo es lo suficientemente grande para que podamos utilizar la aproximación normal en nuestra prueba de hipótesis.

Espero que esto aclare el papel del tamaño de la muestra en la aproximación normal y brinde una explicación completa del proceso de prueba de hipótesis para proporciones.

Hypothesis Testing for Proportions
Hypothesis Testing for Proportions
  • 2020.05.09
  • www.youtube.com
How should we run a hypothesis test when we have data involving percentages, proportions, or fractions? Using a normal approximation. of course, at least whe...
 

Prueba de hipótesis para proporciones: Ejemplo


Prueba de hipótesis para proporciones: Ejemplo

¡Hola a todos! Hoy trabajaremos en un ejemplo de una prueba de hipótesis para proporciones. Vamos a sumergirnos en el problema. Una universidad afirma que el 65% de sus estudiantes se gradúan en cuatro años o menos. Sin embargo, existen dudas sobre la exactitud de esta afirmación. Para investigar más, se toma una muestra aleatoria simple de 120 estudiantes y se encuentra que solo 68 de los 120 estudiantes se graduaron dentro del período de tiempo especificado. Como esta proporción es inferior al 65% alegado, proporciona prueba en contra de la afirmación de la universidad. Ahora, la pregunta es si esta evidencia es lo suficientemente fuerte como para sugerir que la afirmación es poco probable o si podría atribuirse a una casualidad. Para determinar esto, calcularemos un valor p y tomaremos una decisión utilizando un nivel de significación (α) de 0,05.

En primer lugar, necesitamos formular las hipótesis nula y alternativa. La hipótesis nula establece que los resultados se deben únicamente al azar y que la verdadera proporción de estudiantes que se gradúan en cuatro años o menos es de 0,65. Por otro lado, la hipótesis alternativa sugiere que la universidad está sobreestimando su tasa de graduación y la proporción poblacional es menor a 0.65. En este caso, una hipótesis alternativa unilateral es adecuada ya que solo nos interesa la posibilidad de que la tasa de graduación sea inferior al 65%.

Suponiendo que la hipótesis nula es cierta, podemos aplicar el teorema del límite central, que establece que cuando el tamaño de la muestra (n) es lo suficientemente grande, la distribución muestral de la proporción (P-sombrero) será aproximadamente normal. La media de esta distribución es igual a la media de la población (P), y la desviación estándar viene dada por la raíz cuadrada de P por 1 menos P dividido por n. En nuestro caso, dado que asumimos que la hipótesis nula es cierta, la proporción poblacional (P) es 0.65.

Ahora, calculemos el puntaje z para determinar la probabilidad de obtener un resultado tan extremo o más extremo que la proporción observada solo por azar. Al conectar los valores, encontramos un puntaje z de -1.91. Para encontrar la probabilidad asociada a este z-score, que representa la probabilidad de obtener una proporción menor o igual a la observada, utilizamos la función de distribución acumulada normal (CDF). Esto se puede hacer usando varias herramientas como tablas, aplicaciones web o software estadístico. Por ejemplo, en R, el comando "Pnorm(-1.91)" arroja un valor de 0.028.

Comparando este valor de p con el nivel de significación (α) de 0,05, observamos que el valor de p es menor que α. Por lo tanto, rechazamos la hipótesis nula, lo que indica que es razonable concluir que la universidad ha estado sobreestimando su tasa de graduación de cuatro años.

Hypothesis Testing for Proportions: Example
Hypothesis Testing for Proportions: Example
  • 2020.05.10
  • www.youtube.com
A complete example of a hypothesis test for a proportion using the normal approximation.
 

Introducción a los diagramas de dispersión


Introducción a los diagramas de dispersión

¡Hola a todos! Hoy profundizaremos en los diagramas de dispersión, que son presentaciones visuales de datos que involucran múltiples variables recolectadas simultáneamente. Los diagramas de dispersión son cruciales, ya que surgen con frecuencia en escenarios de recopilación de datos del mundo real. A menudo, recopilamos más de una pieza de información. Por ejemplo, podríamos tener puntajes verbales y matemáticos de SAT para un grupo de estudiantes, alturas y pesos de individuos en un estudio médico, o datos sobre el tamaño del motor y el consumo de combustible de varios automóviles. En cada caso, los datos están emparejados, lo que significa que cada valor de una variable corresponde a un valor específico de la otra variable, creando una relación de uno a uno. Cuando existen tales datos emparejados, podemos construir diagramas de dispersión.

Consideremos un ejemplo usando una tabla. Cada columna de la tabla representa un campo científico o de ingeniería; el número de arriba indica el número de doctorados otorgados a mujeres en ese campo en 2005, y el número de abajo indica el número de doctorados otorgados a hombres en el mismo año. Al graficar estos datos, donde los doctorados de las mujeres están representados por los valores de x y los doctorados de los hombres por los valores de y, obtenemos un conjunto de puntos. Algunos puntos están etiquetados, como (2168, 2227), que corresponde a la segunda columna de datos de la tabla. Representa un campo científico donde se otorgaron 2168 doctorados a mujeres y 2227 a hombres en 2005.

Al examinar diagramas de dispersión, es valioso describirlos cualitativamente. En este ejemplo, observamos una tendencia general a la baja en los datos, aunque hay casos en los que los valores aumentan a medida que nos movemos de izquierda a derecha. En general, la forma de los datos tiende a tener una pendiente negativa, lo que indica una asociación negativa entre las dos variables. Sin embargo, es importante tener en cuenta que debemos abstenernos de usar el término "correlación negativa" a menos que la asociación sea lineal, lo que significa que el gráfico sigue una línea recta. En este caso, los datos no muestran una relación lineal.

Otro aspecto digno de mención de esta gráfica es el valor atípico en la esquina superior derecha. Los valores atípicos pueden caer en varias categorías, como errores de entrada de datos, casos inusuales que afectan el análisis o fenómenos interesantes que requieren una mayor investigación. Por último, es crucial considerar qué variable colocar en el eje horizontal y cuál en el eje vertical. Si una variable explica o influye naturalmente en la otra en un estudio, debe colocarse en el eje horizontal como variable explicativa. Por el contrario, la variable que se explica o influye debe estar en el eje vertical como la variable de respuesta. Por ejemplo, en el ejemplo del millaje de gasolina, tiene sentido considerar que el millaje se explica por el tamaño del motor (cilindrada), por lo que colocamos el millaje en el eje vertical. Sin embargo, esta elección puede implicar cierta subjetividad y puede haber escenarios en los que se inviertan los papeles, según el contexto del estudio.

Introduction to Scatterplots
Introduction to Scatterplots
  • 2020.04.11
  • www.youtube.com
What is a scatterplot? How do we construct them? How do we describe them? If this vid helps you, please help me a tiny bit by mashing that 'like' button. For...
 

Diagramas de dispersión y correlación


Diagramas de dispersión y correlación

¡Hola a todos! Hoy, proporcionaremos una breve introducción a la correlación. Cubriremos este tema en solo tres minutos. ¡Empecemos!

Cuando examinamos un gráfico de dispersión, a veces observamos una relación lineal en la que los datos siguen aproximadamente una línea recta. En tales casos, podemos discutir la correlación entre las variables. Sin embargo, es importante resistir la tentación de usar el término "correlación" cuando las variables tienen una relación distinta a la lineal. Las correlaciones pueden ser débiles o fuertes y pueden ser positivas o negativas.

Una correlación positiva indica que a medida que nos movemos de izquierda a derecha en el gráfico, la forma general de los puntos de datos se inclina hacia arriba. Por el contrario, una correlación negativa implica que la forma general de los puntos de datos desciende a medida que leemos de izquierda a derecha. Las correlaciones más fuertes se caracterizan por puntos de datos que se agrupan más estrechamente alrededor de la línea imaginada, mientras que las correlaciones más débiles muestran puntos de datos más dispersos.

Para cuantificar la correlación, usamos una estadística llamada coeficiente de correlación (a menudo denominada "r"). Varía entre -1 y 1. Los valores más cercanos a 0 indican datos más turbios o dispersos. En los ejemplos proporcionados, una correlación de 0,4 o -0,4 representa una correlación moderada, mientras que 0,9 o -0,9 significa una correlación más fuerte. Una correlación de 1 o -1 indica una relación lineal perfecta, donde todos los puntos de datos se encuentran precisamente en la línea.

Es importante tener en cuenta que el coeficiente de correlación "r" no debe confundirse con la pendiente de la línea. El signo de "r" indica si la pendiente es positiva o negativa, pero "r" en sí misma no representa específicamente la pendiente. En cambio, el coeficiente de correlación refleja cuán dispersos están los datos desde la línea que se imagina que pasa por el centro de los datos.

Cuando las variables no muestran una relación lineal, decimos que no están correlacionadas. Tenga cuidado al interpretar el coeficiente de correlación en tales casos. Incluso si existe una asociación clara entre las variables, como en una forma parabólica, calcular la correlación arrojaría un valor cercano a cero.

Ahora, analicemos la correlación informática. En definitiva, no se recomienda calcularlo manualmente. Afortunadamente, tenemos herramientas como paquetes de software para ayudarnos. En R, por ejemplo, el comando es "cor". Al proporcionar los valores de X e Y (las dos variables que queremos correlacionar), podemos obtener inmediatamente el coeficiente de correlación. Con la tabla dada, si asignamos la primera fila como X y la segunda fila como Y, simplemente podemos usar el comando "cor(X, Y)" para obtener el valor de correlación. En este ejemplo, obtenemos una correlación de 0,787, lo que indica una correlación positiva moderada.

Scatterplots and Correlation
Scatterplots and Correlation
  • 2020.04.14
  • www.youtube.com
Let's talk about relationships between quantitative variables!If this vid helps you, please help me a tiny bit by mashing that 'like' button. For more #rstat...