Tutoriales de programación - página 17

 

Introducción a la regresión lineal


Introducción a la regresión lineal

¡Hola a todos! Hoy, nos estamos sumergiendo en la regresión lineal. Hemos estado examinando diagramas de dispersión y discutiendo situaciones en las que observamos una relación lineal entre variables. En otras palabras, a medida que aumenta la variable X, la variable Y tiende a aumentar o disminuir a una tasa constante. Podemos hablar de este fenómeno cuando tenemos una relación estrecha, como se muestra en el lado izquierdo del gráfico, así como cuando la relación es más dispersa, como se ve en el lado derecho.

Para analizar esta relación lineal, podemos trazar una línea sobre el diagrama de dispersión de forma inteligente. Esta línea se conoce como línea de mejor ajuste o línea de regresión. Ahora, profundicemos en los aspectos matemáticos de la regresión lineal. La idea clave involucra la noción de residuos. Colocamos una línea sobre nuestros datos y elegimos un valor X específico. Luego, calculamos la diferencia entre el valor Y real en el conjunto de datos y el valor Y predicho en la línea. Esta diferencia se denomina residual y representa la desviación entre las alturas real y esperada. Al calcular los residuos para cada punto en nuestro conjunto de datos, elevarlos al cuadrado y sumarlos, obtenemos una cantidad que se puede minimizar.

Usando cálculo, podemos minimizar esta cantidad y derivar la ecuación para la línea de regresión de mínimos cuadrados. Resulta que esta línea pasa por el punto (barra X, barra Y), donde la barra X es la media muestral de los valores X y la barra Y es la media muestral de los valores Y. La pendiente de la línea de regresión de mínimos cuadrados viene dada por r × (sy / SX), donde r es el coeficiente de correlación, sy es la desviación estándar de los valores de Y y SX es la desviación estándar de los valores de X. En resumen, la ecuación para la línea de regresión de mínimos cuadrados se proporciona en la parte inferior de la diapositiva.

Calcular estos valores manualmente puede ser engorroso. Para simplificar el proceso, es muy recomendable utilizar tecnología o software. Consideremos los datos correspondientes al diagrama de dispersión que se muestra en una diapositiva anterior. Al calcular las medias y las desviaciones estándar, encontramos que la barra X es 5.4, la barra Y es 2.4 y así sucesivamente. El coeficiente de correlación es de aproximadamente 0,34, lo que indica una correlación positiva de moderada a débil. Al reemplazar estos valores, obtenemos la ecuación para la línea de regresión de mínimos cuadrados: 0.19x + 1.34.

Debo recalcar que realizar estos cálculos a mano puede resultar tedioso. Utilizar tecnología es un enfoque mucho más eficiente. Este es un ejemplo de cómo se ve la línea de regresión de mínimos cuadrados para estos datos. Parece ser un ajuste razonable a los puntos de datos.

Introduction to Linear Regression
Introduction to Linear Regression
  • 2020.04.17
  • www.youtube.com
Drawing a line of best fit over a scatterplot. So easy and fun! If this vid helps you, please help me a tiny bit by mashing that 'like' button. For more stat...
 

Diagramas de dispersión y líneas de regresión en R


Diagramas de dispersión y líneas de regresión en R

¡Hola a todos! En esta guía de inicio rápido, le mostraré cómo crear hermosos gráficos usando el paquete ggplot2 en RStudio. Esta discusión es adecuada para principiantes en las estadísticas de un nivel. Si bien existen métodos más potentes y sofisticados disponibles, me centraré en los enfoques más intuitivos y directos. Estaremos trabajando con un subconjunto del conjunto de datos del iris, específicamente 50 filas correspondientes a la flor virginica. Nuestro objetivo es crear un diagrama de dispersión de la longitud del sépalo frente al ancho del sépalo.

Antes de comenzar, asegúrese de cargar el paquete tidyverse o su familia de paquetes. Si aún no lo ha instalado, use el comando "install.packages('tidyverse')". Si ocurre algún error durante la instalación, se recomienda buscar soluciones en línea. Una vez que se carga el paquete, estamos listos para continuar.

Para crear un diagrama de dispersión, usaremos la sintaxis básica "qplot". Primero, especifique el valor x, que es "virginica$sepal_length" para el eje horizontal, donde "virginica" es el conjunto de datos y "sepal_length" es el nombre de la columna. Luego, indique el valor y como "virginica$sepal_width" para el eje vertical. A continuación, debemos definir cómo se deben mostrar los datos. Para un diagrama de dispersión, usamos "geom = 'punto'". Asegúrese de escribir "punto" correctamente. Esto generará un gráfico de dispersión básico.

Mejoremos el gráfico ajustando las etiquetas de los ejes y explorando las opciones de personalización, como cambiar los colores y los tamaños de los puntos. Para modificar la etiqueta del eje x, use "xlab = 'longitud del sépalo'". De manera similar, configure "ylab = 'sepal width'" para cambiar la etiqueta del eje y. Para modificar el color del punto, agregue "color = 'darkred'". Tenga en cuenta que la sintaxis para especificar el color es un poco peculiar debido a la sofisticación de R.

Ahora que se han ajustado las etiquetas y el color de los puntos, puede seguir experimentando. Por ejemplo, puede cambiar el tamaño del punto usando "tamaño = ...". Además, puede agregar un título principal a la trama. Lo animo a explorar más las capacidades de "qplot" usando "?qplot" o buscando en línea.

Vayamos un paso más allá y agreguemos una línea de regresión. Una ventaja de ggplot2 y tidyverse es que puede agregar capas a su gráfico simplemente extendiendo el comando existente. Comience con el comando "qplot" que creamos anteriormente y ahora agregue "geom_smooth()". Esto generará una línea ajustada. Como estamos interesados en la regresión lineal, especifique "method = 'lm'" para usar el modelo lineal. Es una buena práctica incluir este argumento, especialmente en las clases de introducción a la estadística.

Si desea cambiar el color de la línea de regresión, puede incluir "color = 'darkgray'" dentro del comando "geom_smooth()". Esto dará como resultado un color diferente.

Por último, abordemos la pregunta de qué sucede si eliminamos "se = FALSO". Sin este argumento, R mostrará una cinta de error. En términos generales, esta cinta representa un intervalo de confianza. Si tuviéramos que graficar todas las parcelas en el conjunto de datos del que se tomaron muestras de estas 50 observaciones, esperaríamos que la línea de regresión se encontrara dentro de esta cinta de error, proporcionando una medida aproximada de incertidumbre.

Scatterplots and Regression Lines in R
Scatterplots and Regression Lines in R
  • 2020.04.17
  • www.youtube.com
A quickstart guide to making scatterplots in R using the qplot() command. So easy! So much fun! If this vid helps you, please help me a tiny bit by mashing t...
 

Uso de líneas de regresión para hacer predicciones


Uso de líneas de regresión para hacer predicciones

¡Hola a todos! Hoy vamos a profundizar más en las líneas de regresión. Exploraremos cómo usarlos para hacer predicciones, analizaremos los errores de predicción y comprenderemos cuándo es inapropiado usarlos para predicciones. ¡Empecemos!

Es posible que reconozca este ejemplo de mi video anterior. Tenemos un pequeño conjunto de datos con cinco valores, y dibujé una línea de mejor ajuste: Ŷ = 0.19X + 1.34. Ahora, consideremos un nuevo valor de entrada, x = 6. Usando la ecuación de regresión, podemos predecir el valor de y correspondiente. En este caso, la predicción es 2,54. Podemos trazar este valor predicho en la línea como un punto azul en (6, 2.54).

A veces hacemos predicciones cuando tenemos un valor de x que corresponde a un valor de y en el conjunto de datos. Por ejemplo, en x = 3, tenemos el punto (3, 1). En este caso, ¿de qué tipo de error estamos hablando? Nos referimos a él como el residual. El residuo de un punto de datos es la diferencia entre el valor y real en ese punto y el valor y predicho por la línea de regresión. En x = 3, el valor real de y es 1 y el valor previsto de y es 1,97, lo que da como resultado un residuo de -0,97. Esto significa que el punto (3, 1) se encuentra aproximadamente 0,97 unidades por debajo de la línea de regresión.

Cuando se usan líneas de regresión para hacer predicciones, es crucial considerar el rango del conjunto de datos. Solo debemos hacer predicciones para los valores de x que estén dentro del rango o una extensión razonable del conjunto de datos. Un ejemplo clásico es la edad frente al peso. Como se muestra en el gráfico, existe una relación lineal para las personas menores de 12 años. Dentro de este rango, podemos hacer predicciones de peso razonablemente precisas basadas en la edad utilizando la relación lineal. Esto se llama interpolación, donde predecimos valores dentro del rango del conjunto de datos.

Sin embargo, sería erróneo usar esta relación lineal para hacer predicciones fuera de ese rango, como para un individuo de cuarenta años. Si tuviéramos que aplicar la relación lineal para predecir su peso, el resultado sería más de trescientas cuarenta libras, lo cual es claramente poco realista. Esto se llama extrapolación y debe evitarse.

En resumen, cuando se usan líneas de regresión, es fundamental comprender los errores y las limitaciones de predicción. Los residuos nos ayudan a cuantificar las discrepancias entre los valores reales y los previstos. Solo debemos hacer predicciones dentro del rango del conjunto de datos o una extensión razonable del mismo. La extrapolación, que implica predecir valores fuera del rango del conjunto de datos, puede generar resultados inexactos y poco confiables.

Using Regression Lines to Make Predictions
Using Regression Lines to Make Predictions
  • 2020.04.18
  • www.youtube.com
Also discussed: residuals, interpolation and extrapolation. All the good stuff! If this vid helps you, please help me a tiny bit by mashing that 'like' butto...
 

Regresión y predicción en R usando el comando lm()


Regresión y predicción en R usando el comando lm()

¡Hola a todos! Hoy, calcularemos las líneas de regresión en R utilizando el conjunto de datos integrado "automóviles". Para comenzar, echemos un vistazo al conjunto de datos y recopilemos información sobre él usando los comandos "ver" y "signo de interrogación". El conjunto de datos de "automóviles" consta de 50 entradas que representan velocidades y distancias de frenado de automóviles de la década de 1920. Aunque no son datos nuevos, todavía podemos explorar relaciones lineales.

Para visualizar los datos, usaremos el paquete "ggplot2" de la biblioteca "tidyverse". Asegúrate de cargar el paquete usando el comando "library(tidyverse)". Si aún no ha instalado el paquete "tidyverse", puede hacerlo con el comando "install.packages('tidyverse')".

A continuación, crearemos un diagrama de dispersión de los datos usando el comando "qplot". Graficaremos la velocidad en el eje x (variable explicativa) y la distancia en el eje y (variable de respuesta). Para indicar que estamos trabajando con el conjunto de datos "cars" y queremos un diagrama de dispersión, usaremos "geom='point'". La gráfica revela una relación principalmente lineal, lo que sugiere que es razonable realizar una regresión lineal.

Para agregar una línea de regresión a la gráfica, usaremos "geom_smooth(method = 'lm', se = FALSE)". Esto especifica una regresión lineal más suave sin la barra de error estándar.

Ahora, determinemos la ecuación de la línea de regresión. Usaremos el comando "lm", que significa modelo lineal. La sintaxis sigue un patrón "y ~ x", donde la variable de respuesta (distancia) está relacionada con la variable explicativa (velocidad). Asignaremos el resultado a una variable llamada "modelo". Al ingresar "resumen (modelo)", podemos obtener información adicional sobre la línea de regresión, incluidos coeficientes, residuos y medidas estadísticas como R-cuadrado múltiple y R-cuadrado ajustado.

Si queremos acceder a información específica del objeto "modelo", podemos tratarlo como un marco de datos y usar "$" para extraer las columnas deseadas. Por ejemplo, "model$residuals" da un vector de los 50 residuales.

Incluso podemos agregar los residuos y los valores ajustados como nuevas columnas al conjunto de datos original de "automóviles" usando "autos$residuales" y "automóviles$predichos" respectivamente.

Por último, usemos la función "predecir" para obtener predicciones de velocidades que no están presentes en el conjunto de datos. Proporcionaremos el "modelo" como primer argumento y crearemos un marco de datos con una columna llamada "velocidad" (que coincida con la variable explicativa). Usando la función "data.frame", ingresaremos los valores de velocidad deseados. Por ejemplo, podemos predecir distancias de frenado para velocidades como 12.5, 15.5 y 17. Se mostrarán los valores pronosticados.

Regression and Prediction in R Using the lm() Command
Regression and Prediction in R Using the lm() Command
  • 2021.02.24
  • www.youtube.com
Let's learn about the lm() and predict() functions in R, which let us create and use linear models for data. If this vid helps you, please help me a tiny bit...
 

Parcelas Residuales en R


Parcelas Residuales en R

Hola a todos, en el video de hoy exploraremos gráficas residuales en R usando el comando qplot. Principalmente usaré funciones básicas de R en este tutorial. También estoy trabajando en otro video sobre el paquete de escoba, que es una forma estándar de realizar tareas en R. Proporcionaré un enlace a ese video una vez que esté listo.

En este tutorial, nos centraremos en las variables "viento" y "temperatura" del conjunto de datos de calidad del aire integrado en R. Este conjunto de datos contiene mediciones diarias de la calidad del aire en Nueva York desde mayo hasta septiembre de 1973.

Para comenzar, carguemos el paquete tidyverse. Aunque solo usaremos la función qplot, carguemos el paquete completo para mantener la coherencia.

Antes de sumergirse en el modelado, es esencial visualizar nuestros datos. Vamos a crear un qplot configurando "viento" como la variable explicativa (air_quality$wind) y "temp" como la variable de respuesta (air_quality$temp). Como tenemos dos variables, R por defecto será un diagrama de dispersión.

Al examinar el gráfico, podemos observar una relación lineal entre las dos variables, aunque no es particularmente fuerte. Para cuantificar esta relación, calculemos el coeficiente de correlación usando la función cor. El coeficiente de correlación resultante es -0,458, lo que indica una correlación negativa.

Ahora que hemos establecido una relación lineal, podemos agregar una línea de regresión a la gráfica. Modificaremos el comando qplot incluyendo la función geom_smooth con method = "lm" para indicar un modelo lineal. Excluyamos la cinta de error por simplicidad.

Con la línea de regresión agregada, podemos proceder a construir un modelo lineal y obtener la ecuación para la línea de regresión. Asignemos el modelo lineal a una variable llamada "modelo" usando la función lm. Especificaremos "temp" como la variable de respuesta y "viento" como la variable explicativa. Es importante mencionar explícitamente el nombre del marco de datos.

Para obtener más información sobre el modelo, podemos usar la función de resumen para obtener un resumen del modelo. El resumen proporciona información diversa, incluida la intersección (90,1349) y el coeficiente de la pendiente (-1,23). La interpretación del coeficiente de la pendiente es que por cada unidad de aumento en el viento, la temperatura disminuye en aproximadamente 1,23 unidades. Consultar el archivo de ayuda proporcionará información sobre las unidades utilizadas, como el viento en millas por hora y la temperatura en grados Fahrenheit.

Podemos acceder directamente a los coeficientes utilizando la función de coeficientes, que devuelve la intersección y el coeficiente de viento del modelo. Además, podemos obtener los valores ajustados usando la función de valores ajustados, que nos proporciona un vector de temperaturas pronosticadas para cada valor de viento. Podemos agregar esto como una nueva columna, "predicha", al marco de datos de calidad del aire.

De manera similar, podemos obtener los residuos utilizando la función de residuos, que nos da las diferencias entre los valores observados y predichos. Agregar los residuos como otra columna, "residuales", al marco de datos completa nuestra exploración. Podemos visualizar de nuevo el marco de datos para confirmar la presencia de las nuevas columnas.

Para evaluar la relación entre los valores ajustados y los residuos, podemos crear una gráfica de residuos. En el comando qplot, estableceremos los valores ajustados como la variable del eje x (fitted.values(model)) y los residuales como la variable del eje y (residuals(model)). Se generará un diagrama de dispersión como se especifica en los argumentos qplot.

El propósito de la gráfica de residuos es identificar cualquier patrón o tendencia en los residuos. En un modelo lineal válido con varianza constante, la gráfica debe parecerse a una nube sin ningún patrón perceptible. Agregar una línea de regresión con geom_smooth y method = "lm" ayudará a verificar esto. También estableceremos se = FALSE para eliminar la barra de error estándar.

Al examinar la gráfica de residuos, podemos ver que no hay un patrón o tendencia perceptible, lo que indica que nuestro modelo captura la relación lineal de manera adecuada. La línea de regresión, representada por y = 0, confirma esta observación.

Eso concluye nuestro tutorial sobre la creación de gráficas residuales en R usando el comando qplot. Al visualizar y analizar los residuos, podemos evaluar la bondad del ajuste y la idoneidad de nuestro modelo lineal. Recuerde que hay varias formas de lograr los mismos resultados en R, y explorar diferentes sintaxis y funciones puede mejorar su comprensión del lenguaje.

Residual Plots in R
Residual Plots in R
  • 2021.08.11
  • www.youtube.com
It's easy to make beautiful residual plots in R with ggplot. Let's go!If this vid helps you, please help me a tiny bit by mashing that 'like' button. For mor...
 

Valores atípicos: apalancamiento, discrepancia e influencia


Valores atípicos: apalancamiento, discrepancia e influencia

¡Hola a todos! Hoy profundizaremos en los conceptos de apalancamiento, discrepancia e influencia en el contexto de la regresión lineal. Aunque me centraré en el escenario con una sola variable explicativa, tenga en cuenta que todo lo discutido aquí también se aplica directamente a dimensiones superiores.

En un conjunto de datos con dos variables, las observaciones individuales pueden exhibir características inusuales en sus valores x, valores y, o ambos. Cuando usamos el término "valor atípico", nos referimos específicamente a las observaciones que se desvían significativamente en la dirección y en comparación con la tendencia general de los datos. Estos valores atípicos son puntos con alta discrepancia.

Sin embargo, en el lenguaje cotidiano, a menudo usamos el término "valor atípico" de manera más vaga. Para ilustrar este concepto, consideremos tres conjuntos de datos, cada uno mostrando una tendencia lineal con una observación inusual. En los primeros dos gráficos, notará un punto que se encuentra lejos de la línea de regresión, mostrando una gran discrepancia. En el tercer caso, el valor inusual se alinea bastante bien con la tendencia general de los datos, por lo que no se consideraría un valor atípico basado únicamente en la discrepancia.

Ahora, cambiemos nuestro enfoque al apalancamiento. Las observaciones con valores de x inusuales tienen un mayor potencial para afectar el ajuste del modelo, y se dice que tales observaciones tienen un alto poder de influencia. Al examinar los mismos tres gráficos desde una perspectiva de apalancamiento, encontramos que los dos gráficos más a la derecha contienen observaciones con alto apalancamiento. Estos valores atípicos tienen valores de x que están significativamente distantes de la mayoría de los datos. Por el contrario, la primera gráfica presenta un valor atípico con bajo apalancamiento ya que su valor x se alinea bien con los otros valores en el conjunto de datos.

Una observación que altera sustancialmente el ajuste de un modelo se considera de gran influencia. Volviendo a los dos primeros valores atípicos de las tramas anteriores, examinémoslos a través de la lente de la influencia. En el primer gráfico, observamos un valor atípico con baja influencia. Si eliminamos este valor del conjunto de datos, la línea de regresión no sufre cambios significativos. En particular, la pendiente permanece relativamente sin cambios. Por el contrario, en el gráfico más a la derecha, vemos un valor atípico con una gran influencia. Al eliminarlo del conjunto de datos, la línea de regresión experimenta cambios sustanciales. Por lo general, las observaciones influyentes muestran tanto una gran discrepancia como un gran apalancamiento.

Si bien todos estos conceptos se pueden cuantificar, no profundizaré en los detalles en este video. Sin embargo, quiero indicarle la dirección correcta si desea explorar esto más a fondo. La discrepancia a menudo se mide utilizando residuos estudentizados, que son residuos estandarizados que cuantifican la desviación de las observaciones en la dirección y de la predicción del modelo. El apalancamiento se puede evaluar utilizando los valores hat, que miden la distancia de los valores x desde el valor x promedio esperado. Finalmente, la influencia se cuantifica con frecuencia utilizando la distancia de Cook.

Afortunadamente, no tiene que calcular estas medidas a mano, ya que R proporciona métodos convenientes. El paquete de escoba es particularmente útil en este sentido, y crearé un video sobre él tan pronto como sea posible.

Outliers: Leverage, Discrepancy, and Influence
Outliers: Leverage, Discrepancy, and Influence
  • 2021.07.14
  • www.youtube.com
How should we think about unusual values in two-variable data sets? How is an unusual x-value different from an unusual y-value? In this vid, we'll learn all...
 

R^2: el coeficiente de determinación


R^2: el coeficiente de determinación

El tema de hoy es R-cuadrado, el coeficiente de determinación. Mide la dispersión de las observaciones alrededor de una línea de regresión o cualquier modelo estadístico. Representa la proporción de la varianza en la variable de respuesta (y) que se puede atribuir a cambios en la(s) variable(s) explicativa(s), especialmente en casos de mayor dimensión.

Para los modelos lineales, R-cuadrado siempre se encuentra entre 0 y 1. Los valores más cercanos a 1 indican que los puntos de datos están estrechamente agrupados alrededor de la línea de regresión, mientras que los valores más cercanos a 0 indican una mayor dispersión.

Para aclarar este concepto, visualicemos tres conjuntos de datos. Cada conjunto tiene una varianza de 1 para los valores de y, y dibujé la línea de regresión para cada caso. A medida que R-cuadrado aumenta de 0,2 a 0,5 a 0,8, observamos una distribución cada vez más estrecha de los datos alrededor de la línea de regresión.

Ahora, profundicemos en una definición más precisa. R-cuadrado se calcula como la varianza de los valores de y ajustados dividida por la varianza de los valores de y observados. Algebraicamente, esto se puede expresar como 1 menos la varianza de los residuos dividida por la varianza de los valores de y observados. En un sentido técnico, podemos escribirlo como:

R-cuadrado = (varianza de residuos) / (varianza de valores y observados)

Para simplificar aún más, a menudo abreviamos esta expresión algebraica como R-squared = 1 - (RSS / TSS), donde RSS representa la suma residual de cuadrados y TSS denota la suma total de cuadrados.

En un modelo de regresión de mínimos cuadrados con una sola variable explicativa, un hecho importante a tener en cuenta es que el coeficiente de determinación es igual al cuadrado del coeficiente de correlación de la muestra (R). En otras palabras, R-cuadrado (gran R-cuadrado) es igual a pequeño r-cuadrado.

En el caso de modelos de dimensiones superiores, la declaración es similar. R-cuadrado es igual al cuadrado de la correlación entre los valores y observados y ajustados. Esto es válido incluso para el caso de una sola variable, aunque no solemos pensar en ello en esos términos.

Vale la pena mencionar que R-squared a menudo se malinterpreta y se malinterpreta. Entonces, aclaremos su significado y limitaciones. R-cuadrado mide la proporción de variabilidad en y que puede explicarse por la variabilidad en x. Por definición, será menor para conjuntos de datos con alta variabilidad en los valores de y. Por lo tanto, los modelos con R-cuadrado cercano a 1 no son necesariamente buenos, como se demuestra en un ejemplo donde R-cuadrado es 0,93, pero el modelo lineal no se ajusta bien a los datos.

Del mismo modo, los modelos con R-cuadrado bajo no son necesariamente malos. Por ejemplo, un modelo con un R-cuadrado de 0,16 puede ajustarse muy bien a los datos, pero los datos en sí contienen inherentemente mucha variabilidad natural y ruido.

Recuerde que R-cuadrado solo mide la variabilidad sobre la línea de regresión y no indica directamente la utilidad o razonabilidad de un modelo. Para evaluar correctamente los modelos lineales, tenga en cuenta varias herramientas y factores, como el error estándar residual (la desviación estándar de los residuos), que proporciona información sobre la variabilidad de los datos en comparación con los valores predichos. Además, puede examinar el nivel de significación de la regresión utilizando la estadística t para ajustes lineales y la estadística f para probar la hipótesis nula de que todos los coeficientes de regresión son cero en modelos de dimensiones superiores.

Al evaluar modelos, es crucial no confiar únicamente en R-cuadrado, sino considerarlo junto con otras métricas y análisis.

R^2: the Coefficient of Determination
R^2: the Coefficient of Determination
  • 2021.10.20
  • www.youtube.com
Let's get to know R^2, the coefficient of determination, which measures the spread of observations about a regression line or other statistical model.If this...
 

Cálculos de chi-cuadrado en R


Cálculos de chi-cuadrado en R

Hoy realizaremos algunos cálculos de chi-cuadrado en R. La prueba de chi-cuadrado se usa comúnmente en estadísticas inferenciales para varios propósitos, como pruebas de bondad de ajuste y pruebas de hipótesis que involucran varianzas. Chi-cuadrado es una variable aleatoria continua que está sesgada a la derecha. Su valor esperado se denota por "r" y su varianza es 2r. En la mayoría de las aplicaciones, r es un número entero positivo, aunque también puede ser un número no entero.

A medida que aumenta el valor de r, la función de densidad de probabilidad (PDF) de la distribución chi-cuadrado se desplaza hacia la derecha y comienza a parecerse a una curva de campana debido al teorema del límite central. El parámetro r se conoce como el número de grados de libertad de la distribución chi-cuadrado.

En R, hay cuatro funciones básicas para calcular distribuciones chi-cuadrado:

  1. rchisq(r, n): Esta función genera n valores aleatorios a partir de la distribución chi-cuadrado con r grados de libertad. Por ejemplo, rchisq(5, 16) genera 16 valores aleatorios de chi-cuadrado con 5 grados de libertad.

  2. pchisq(x, r): Esta es la función de distribución acumulada (CDF) para la distribución chi-cuadrado con r grados de libertad. Devuelve la probabilidad de obtener aleatoriamente un valor menor o igual que x en esa distribución. Por ejemplo, pchisq(8, 5) da la probabilidad de obtener un valor menor o igual a 8 en chi-cuadrado con 5 grados de libertad, que es aproximadamente 0.844.

  3. qchisq(p, r): Esta es la CDF inversa para la distribución chi-cuadrado con r grados de libertad. Devuelve el valor de x para el que la probabilidad de obtener un valor menor o igual que x es igual a p. Por ejemplo, qchisq(0,5, 12) da la mediana de chi-cuadrado con 12 grados de libertad, que es aproximadamente 0,5.

  4. dchisq(x, r): esta función da el valor de la función de densidad de probabilidad (PDF) de la distribución chi-cuadrado con r grados de libertad en x. El PDF tiene importancia teórica, pero se usa con menos frecuencia en cálculos numéricos.

Ahora, resolvamos algunos problemas de muestra usando estas funciones:

Problema 1: Calcular la probabilidad de obtener aleatoriamente un valor de x entre 12 y 18 en chi-cuadrado con 15 grados de libertad.

prob <- pchisq ( 18 , 15 ) - pchisq ( 12 , 15 )

La probabilidad es de aproximadamente 0,4163.

Problema 2: dado que hay un 80 % de probabilidad de que una extracción aleatoria de chi-cuadrado con 20 grados de libertad sea mayor que x, encuentre el valor de x.

x <- qchisq ( 0.2 , 20 )

El valor de x es aproximadamente 14,57844.

Problema 3: Simule diez mil extracciones de la distribución chi-cuadrado con 4 grados de libertad y genere un histograma de los resultados.

x <- rchisq ( 4 , 10000 )
library ( ggplot2 )
qplot ( x , geom = "histogram" , col = I ( "black" ) )

Esto generará un histograma de los valores simulados.

Espero que esto te ayude a comprender y aplicar los cálculos de chi-cuadrado en R.

Chi-Squared Calculations in R
Chi-Squared Calculations in R
  • 2020.10.15
  • www.youtube.com
In the vid, I cover the functions pchisq(), qchisq(), rchisq(), and dchisq(). If this vid helps you, please help me a tiny bit by mashing that 'like' button....
 

Comprender la distribución de chi-cuadrado


Comprender la distribución de chi-cuadrado

Hoy hablaremos sobre la distribución de chi-cuadrado, un concepto fundamental que encontrará al estudiar la inferencia estadística en su recorrido por la ciencia de datos. La distribución de chi-cuadrado surge cuando desea medir cuánto se desvía un conjunto de observaciones numéricas independientes de sus valores esperados.

Para explicar esto de manera más formal, calcule una puntuación z para cada observación restando el valor esperado de la observación y dividiéndolo por la desviación estándar. Después de elevar al cuadrado cada uno de estos puntajes z y sumarlos, obtienes la variable aleatoria chi-cuadrado. Esta variable cuantifica la desviación general de sus observaciones de sus valores esperados.

Por ejemplo, si todas las observaciones se alinean perfectamente con sus valores esperados, la estadística de chi-cuadrado sería cero. A medida que los resultados se alejan más de los valores esperados, el valor de chi-cuadrado aumenta. Al elevar al cuadrado las puntuaciones z, nos aseguramos de que las desviaciones bajas y altas no se anulen entre sí.

La distribución chi-cuadrado con r grados de libertad representa la distribución muestral de esta variable aleatoria. Los grados de libertad (r) corresponden al número de observaciones independientes o puntuaciones z. Tenga en cuenta que la variable aleatoria comparte el mismo nombre que la distribución, pero el contexto generalmente las distingue.

Dado que cada puntaje z es una variable aleatoria continua, la suma de sus cuadrados sigue una distribución de chi-cuadrado. La función de densidad de probabilidad de la distribución de chi-cuadrado es positiva solo para valores de chi-cuadrado no negativos. La distribución tiene un sesgo hacia la derecha porque los valores extremadamente altos para las puntuaciones z individuales se vuelven cada vez menos probables.

El gráfico típico de la distribución chi-cuadrado con 5 grados de libertad muestra este fuerte sesgo hacia la derecha. Su soporte (conjunto de resultados posibles) consiste estrictamente en valores positivos. Dos hechos importantes para recordar son que el valor esperado de la distribución chi-cuadrado con r grados de libertad es igual a r y que el pico de la distribución ocurre en R menos 2, dado que R es al menos dos (de lo contrario, es cero ).

A medida que aumenta el número de grados de libertad, la distribución chi-cuadrado se aproxima a una distribución normal según el teorema del límite central. Esta aproximación se puede observar en un esquema que muestra la distribución de chi-cuadrado con R igual a 50, que todavía muestra una ligera desviación hacia la derecha.

La distribución de chi-cuadrado se usa con frecuencia en estadísticas inferenciales, como se desprende de la diapositiva inicial. Algunas aplicaciones comunes incluyen pruebas de significación para la varianza bajo el supuesto de una distribución normal, pruebas de bondad de ajuste para variables categóricas y pruebas de independencia de chi-cuadrado.

Para calcular las probabilidades en una distribución de chi-cuadrado, puede utilizar la función de distribución acumulativa (CDF). La CDF, denotada como F(x), proporciona la probabilidad de obtener un valor menor o igual que x en la distribución de chi-cuadrado especificada. Esto se puede entender mejor con una representación visual, donde el área sombreada representa la probabilidad.

En R, puede realizar cálculos de chi-cuadrado usando el comando pchisq(), especificando el valor de interés y el número de grados de libertad. Por ejemplo, para calcular la probabilidad de obtener un valor menor o igual a 8 en la distribución chi-cuadrado con cinco grados de libertad, usaría pchisq(8, 5), dando como resultado aproximadamente 0.843.

Si está interesado en más detalles o cálculos relacionados con la distribución de chi-cuadrado en R, tengo videos específicos que cubren estos temas. No dude en consultarlos para obtener explicaciones más detalladas.

Understanding the chi-squared distribution
Understanding the chi-squared distribution
  • 2022.12.07
  • www.youtube.com
In absolute terms, just how far are your results from their expected values?If this vid helps you, please help me a tiny bit by mashing that 'like' button. F...
 

Pruebas de bondad de ajuste


Pruebas de bondad de ajuste

Hola a todos, hoy vamos a hablar sobre las pruebas de bondad de ajuste usando la distribución chi-cuadrado. Supongamos que tenemos una variable categórica, como el año de los estudiantes universitarios en clases de estadística en una gran universidad, y se nos dice que sigue una distribución específica: 50 % estudiantes de primer año, 30 % de segundo año, 10 % de tercer año y 10 % de último año. ¿Cómo podemos probar si esta distribución se ajusta a nuestros datos de muestra?

Para empezar, establezcamos las hipótesis nula y alternativa. La hipótesis nula establece que la población de todos los estudiantes en clases de estadística sigue la distribución declarada (50% estudiantes de primer año, 30% estudiantes de segundo año, etc.), mientras que la hipótesis alternativa asume una distribución diferente. Para probar entre estas hipótesis, compararemos los conteos observados en nuestros datos de muestra con los conteos esperados bajo la hipótesis nula.

Denotemos los conteos observados como 'o' y los conteos esperados como 'e'. Calcularemos una estadística de prueba llamada chi-cuadrado, que es la suma de (o - e)^2 / e. Si la hipótesis nula es verdadera, este estadístico de prueba sigue una distribución chi-cuadrado con k - 1 grados de libertad, donde k es el número de categorías.

En nuestro caso, tenemos cuatro categorías, por lo que usaremos la distribución chi-cuadrado con tres grados de libertad. Una estadística de prueba más grande indica que los datos de nuestra muestra son menos compatibles con la hipótesis nula, lo que sugiere un ajuste más pobre.

Para realizar la prueba de significancia y calcular chi-cuadrado, necesitamos calcular los conteos esperados bajo la hipótesis nula. Para un tamaño de muestra de 65, multiplicamos los porcentajes por 65 para obtener los recuentos esperados de 32,5, 19,5, 6,5 y 6,5.

A continuación, calculamos la estadística de prueba de chi-cuadrado restando el conteo esperado del conteo observado para cada celda, elevando al cuadrado el resultado, dividiendo por el conteo esperado y sumando estos valores en todas las categorías. En nuestro caso, el estadístico de prueba es 3,58.

Para encontrar la probabilidad de obtener un valor mayor o igual que nuestro estadístico chi-cuadrado observado, usamos la función de distribución acumulativa en R, representada por el comando p chi-cuadrado. Restar el resultado de uno nos da el valor p. En este ejemplo, el valor p es de aproximadamente 0,31, lo que indica que los datos no proporcionan pruebas sólidas contra la hipótesis nula.

Es esencial tener en cuenta que un valor p grande no prueba la hipótesis nula; simplemente sugiere una falta de evidencia en su contra. Finalmente, debemos considerar cuándo es apropiado usar una prueba de bondad de ajuste de chi-cuadrado. En primer lugar, se aplica a las variables categóricas. Si tiene variables cuantitativas, puede transformarlas en variables categóricas clasificándolas. Además, los datos deben obtenerse a través de un muestreo aleatorio simple, y los recuentos de células esperados generalmente deben ser al menos cinco. Si muchos contenedores están casi vacíos, los métodos alternativos pueden ser más apropiados, como la prueba exacta de Fisher en ciertas situaciones.

Además de las consideraciones que hemos mencionado anteriormente, hay algunos puntos más que se deben tener en cuenta al decidir si utilizar una prueba de bondad de ajuste de chi-cuadrado. Éstas incluyen:

  1. Independencia: Las observaciones dentro de cada categoría deben ser independientes entre sí. Esta suposición es importante para la validez de la prueba. Si las observaciones no son independientes, las pruebas estadísticas alternativas pueden ser más adecuadas.

  2. Tamaño de la muestra: si bien no existe una regla fija, los tamaños de muestra más grandes tienden a proporcionar resultados más confiables. Con muestras más grandes, incluso las pequeñas desviaciones de la distribución esperada pueden generar resultados estadísticamente significativos. Sin embargo, los tamaños de muestra muy grandes a veces pueden conducir a resultados significativos incluso para desviaciones triviales de la distribución esperada, por lo que es esencial considerar también la importancia práctica.

  3. Estimación de parámetros: en algunos casos, los recuentos esperados para cada categoría no se conocen con precisión, pero se estiman a partir de los datos. Al estimar parámetros a partir de los mismos datos utilizados para la prueba de hipótesis, puede generar resultados sesgados. En tales situaciones, se deben considerar ajustes o métodos alternativos.

  4. Variables categóricas con niveles múltiples: la prueba de bondad de ajuste de chi-cuadrado que discutimos hasta ahora es apropiada cuando se prueba el ajuste de una sola variable categórica a una distribución específica. Sin embargo, si tiene múltiples variables categóricas y desea examinar su distribución conjunta, otras pruebas como la prueba de independencia de chi-cuadrado o los modelos logarítmicos lineales pueden ser más adecuadas.

Vale la pena señalar que la prueba de bondad de ajuste chi-cuadrado es una herramienta útil para examinar si los datos observados siguen una distribución esperada. Sin embargo, no proporciona información sobre las razones detrás de las discrepancias ni identifica qué categorías específicas contribuyen más a las diferencias.

Como con cualquier prueba estadística, la interpretación de los resultados debe considerar el contexto, los antecedentes y los objetivos específicos del análisis. Es crucial comprender las limitaciones y suposiciones de la prueba y utilizarla como parte de un análisis integral en lugar de depender únicamente de su resultado.

En resumen, la prueba de bondad de ajuste chi-cuadrado es un método valioso para evaluar el ajuste entre los datos observados y una distribución esperada para variables categóricas. Al comparar los conteos observados y esperados, calcular la estadística de prueba y determinar el valor p, podemos evaluar la compatibilidad de los datos con la hipótesis nula. Sin embargo, es importante considerar las suposiciones, el tamaño de la muestra y otros factores para garantizar la validez y relevancia de la prueba en un contexto determinado.

Goodness-of-Fit Testing
Goodness-of-Fit Testing
  • 2020.11.10
  • www.youtube.com
Let's use the chi-squared distribution to test goodness of fit for categorical data. Yessss! If this vid helps you, please help me a tiny bit by mashing that...