Una correlación muestral nula no significa necesariamente que no exista una relación lineal - página 46

 

Me toca dar un ejemplo con una imagen.

Supongamos que hay una muestra de dos procesos (no aleatorios, pero al fin y al cabo un proceso no aleatorio es un caso degenerado de uno aleatorio, así que servirá de ejemplo) en el intervalo t = -10 ... 10:

x1(t) = cos(2*pi*t)

x2(t) = sint(2*pi*t) + h(t), donde h(t) es el paso de Heaviside,

y la frecuencia de muestreo es bastante grande (mucho mayor que la frecuencia de los propios senos y cosenos) fd >> 1

Aquí están los gráficos de estos procesos:


Obviamente, debido a la ortogonalidad del seno/coseno, el valor del coeficiente de correlación instantáneo es cero en toda la muestra, excepto en el punto 0, donde el CC es difícil de determinar de alguna manera debido a la discontinuidad del proceso.

Sin embargo, cuando sustituimos estúpidamente los procesos dados en la fórmula del coeficiente de correlación lineal obtenemos un sinsentido: la media aritmética del tiempo para el segundo proceso durante el tiempo resulta no ser 0 sino 1/2, y nos vemos obligados a escribirlo en la fórmula, teniendo en un valor de salida diferente de 0, y se toma la muestra más corta (para el intervalo [-10;10] el coeficiente calculado de tal manera será uno y para el intervalo, por ejemplo [-3;3] - otro). Esto se puede comprobar fácilmente con el procedimiento de control de calidad incorporado en cualquier paquete, incluso en Excel.

Aquí ya intuitivamente debería haber una sensación de contradicción: si dividimos una muestra en dos por un punto t=0 y de la misma manera calculamos un KK para cada parte, en ambos casos obtenemos 0, pero resulta que al unir dos partes "cero" tenemos no cero... ¿Cómo puede ser esto?

La razón es que no se tiene en cuenta la no estacionariedad del proceso x2(t) y, por tanto, el hecho de que en este caso no podemos tomar la media aritmética en el tiempo como estimación de la media. Además, por construcción sabemos cómo cambia esta media en el tiempo. Por lo tanto, el procedimiento de cálculo debe reducir con precisión ambas partes, basándose en el conocimiento a priori de los procesos, a una forma que permita afirmar la estacionariedad.

En otras palabras, la fórmula del CC lineal no debe sustituir x1(t) y x2(t), sino x1(t) y x2'(t) = x2(t)-h(t), es decir, aislar el término estacionario del segundo proceso. Entonces el resultado del cálculo de la fórmula coincidirá con la expectativa.

 
Integer:

No hables de cualquiera, sé específico, nombre del libro de texto, cita del mismo con la definición. Aun así, ¿estás seguro de que has acertado con la definición, cómo puedes estar tan seguro? ¿No ha intentado tocar el coeficiente de correlación con sus propias manos (experimentar, jugar) para entender, darse cuenta, sentir lo que es?

¿Cómo puedes ser tan engreído que tienes que rebajarte tanto?

No sé lo que es un giro (a no ser que sea un baile de algún tipo), he buscado la definición de correlación en la wikipedia:

¿Intenta evaluar críticamente lo que está escrito en la valla en algún lugar? ¿Qué tiene que ver esto con los valores aleatorios? Sólo un imbécil podría haber escrito esta definición. Si es lo mismo en todos los libros de texto sobre hip-hop o lo que sea, entonces todos esos libros de texto fueron escritos por imbéciles que no entienden lo que es la correlación y han jodido el cerebro de los estudiantes.


TViST (teoría de la probabilidad y estadística para abreviar) es mi especialidad, la estudié en el instituto y aprobé el examen durante 5 semestres, con matrícula de honor. Bueno, honestamente, no voy a notar las capturas de pantalla aquí. Cualquiera que lo desee puede abrir cualquier, repito, cualquier libro de texto, que aparecerá a mano, aunque nuestro, aunque extranjero, y convencerse, lo que en la definición de la correlación es una cuestión, y lo que no. Si uno considera que todos ellos fueron escritos por imbéciles, entonces no debería leerlos en absoluto... No, prefiero poner este foro en la categoría de vallas y valorar críticamente primero lo que se escribe aquí y luego lo que se escribe allí.

 
alsu:


Aquí ya intuitivamente debería haber una sensación de contradicción: al fin y al cabo, si dividimos la muestra por la mitad por t=0 y calculamos el QC de cada parte de la misma manera, obtenemos 0 en ambos casos, pero resulta que al coser dos partes "cero" juntas, tenemos no cero? ¿Cómo puede ser esto?

No. No estoy mirando. Cero para una mitad, distinto de cero para la otra mitad.
 
alsu:

TViST (teoría de la probabilidad y estadística para abreviar) es mi asignatura principal, la estudié en el instituto y aprobé el examen de 5 semestres, con matrícula de honor. Bueno, honestamente, no voy a notar las capturas de pantalla aquí. Cualquiera que lo desee puede abrir cualquier, repito, cualquier libro de texto, que aparecerá a mano, aunque nuestro, aunque extranjero, y convencerse, lo que en la definición de la correlación es una cuestión, y lo que no. Si uno considera que todos ellos fueron escritos por imbéciles, entonces no debería leerlos en absoluto... No, prefiero poner este foro en la categoría de vallas y valorar críticamente primero lo que se escribe aquí y luego lo que se escribe allí.

Curiosamente, parece que mi profesor, que me dio clases en el instituto de correlación, no leyó estos libros de texto... suerte para sus alumnos:)

 
alsu: ... Obviamente, debido a la ortogonalidad del seno/coseno el valor del coeficiente de correlación instantáneo en toda la muestra es cero, excepto en el punto 0, donde el CC es difícil de determinar de alguna manera debido a la discontinuidad del proceso.
Entero: No. No se ve. Para una mitad cero, para la otra mitad no cero.

Sí, para la otra mitad no cero. Engaño visual.


Una pregunta de seguimiento:

Estimados, ¿qué datos de las series temporales de precios (FX) utilizan para sacar conclusiones sobre estacionariedad, distribuciones, ergodicidad, correlación y otras cosas estadísticas? La pregunta no tiene discusión. ¿Sólo a menudo tomando una de las mejores lecturas cuantificadas por tiempo astronómico? Pero eso es ... cómo decirlo... inaceptable. Tiene sentido analizar la secuencia de lecturas de precios de las operaciones "reales", teniendo en cuenta los volúmenes reales. Tal vez ese sea el objetivo: preparar los datos para el análisis.

 

Una discusión interesante. Tal vez lleguen al fondo del asunto aquí al menos.

He intentado repetidamente averiguar esta cuestión, he hablado con gente inteligente (al parecer), pero parece que nadie lo entiende, sólo hinchan las mejillas )))

El significado físico de la correlación es el coseno del ángulo entre los vectores (donde las coordenadas de los vectores son ambas muestras iniciales).

Por lo tanto, el control de calidad sólo "compara" las formas de las curvas, no se ve afectado por el escalado (cambio de la longitud del vector) o el desplazamiento (movimiento del origen del vector).

No sé las comillas, pero en el procesamiento de señales el control de calidad sólo es válido para I(1). En particular, es bastante bueno para detectar la periodicidad de la señal.

Me gustaría entender cuál es el sentido de utilizar QC para I(0), porque es una comparación de "formas" de dos series casi completamente aleatorias, no puede haber, por definición, ninguna similitud de formas.

Y todo esto es para la aplicación local.


Por otra parte, me gustaría entender el significado de calcular el control de calidad, las distribuciones y otras estadísticas para toda la serie a la vez. Esta es una temperatura media del hospital durante N años, ¿qué sentido tiene?

No hay estacionariedad ni en I(1) ni en I(0) en el mercado.

 
airbas: En el mercado, no hay estacionariedad ni en I(1) ni en I(0).

¿De qué I(1) e I(0) hablas para el mercado?

I(0) es por definición un proceso estacionario . ¿Dónde está en las comillas?
 
Demi:
¿Sí? Y una vez me enseñaron que el coeficiente de correlación del coseno y el seno varía suavemente de -1 a +1. Resulta que es 0........

De -1 a +1 la _función de correlación cruzada cambia. Y el coeficiente de correlación de la muestra es un _número_. Y este número es una constante para dos muestras dadas de antemano. Si tomamos como muestra los valores de un par de funciones ortogonales en una cuadrícula uniforme, el coeficiente será igual a cero. Esto se deduce de la definición de funciones ortogonales - la integral de la definición escrita como una suma será sorprendentemente similar a la definición de covarianza de la muestra.

Entero:

El coeficiente de correlación no muestra nada más y el cálculo de la correlación no tiene nada que ver con la normalidad o la ergodicidad o la estacionalidad. ¿Qué tipo de libros de texto está leyendo?

Si lo principal para ti es sustituir números en la fórmula y obtener un número, la estacionariedad y la ergodicidad no son importantes.

La propiedad de ergodicidad permite estimar la función de correlación para la población general a partir de una muestra de dicha población. Si esta propiedad no se cumple, el número obtenido por la fórmula puede ser desechado.

Con la estacionalidad, es más fácil dar un ejemplo. Tomemos un par de procesos aleatorios, cuyos diferenciales estocásticos tienen la forma

dX(t) = mu_1 * dt + sigma_1 * dW_1;

dY(t) = mu_2 * dt + sigma_2 * dW_2;

dW_1, dW_2 son procesos Wiener correlacionados (con correlación rho);

mu_1, mu_2, sigma_1, sigma_2 son constantes positivas.

El ejemplo es que el coeficiente de correlación en un par de series indiferenciadas tenderá a la unidad (para cualquier mu_1 y mu_2 - a sign(mu_1 * mu_2) ) con el aumento del tamaño de la muestra independientemente de la correlación entre los incrementos. La cuestión es que en el proceso I(1) la media muestral no converge a una constante.

mu_1=0,01; mu_2=0,05; sigma_1=1; sigma_2=1; rho=0,5:

mu <- c(0.01, 0.05)
sigma <- matrix(c(1, 0.5, 0.5, 1), 2, 2)

simulate.random.walks <- function (num.points, integrated = T) {
  ret.val <- matrix(rnorm(num.points * 2), num.points, 2) %*% chol(sigma)
  ret.val <- do.call(cbind, lapply(1 : 2, function (i) { ret.val[, i] + mu[i] } ))
  if (integrated) ret.val <- apply(ret.val, 2, cumsum)
  ret.val
}

num.points.grid <- trunc(exp(seq(log(10 ^ 2), log(10 ^ 6), length.out = 25)))
cor.integrated <- sapply(
  num.points.grid,
  function (num.points) { cor(simulate.random.walks(num.points, T))[1, 2] }
  )
cor.non.integrated <- sapply(
  num.points.grid,
  function (num.points) { cor(simulate.random.walks(num.points, F))[1, 2] }
  )

png(filename='c:/Users/User/Desktop/bgg.png', 800, 600)
par(mfrow = c(2, 1))
plot(num.points.grid, cor.integrated, xlog = T, t = 'o')
abline(h = 1, col = 'red', lty = 'dashed')
plot(num.points.grid, cor.non.integrated, xlog = T, t = 'o')
abline(h = 0.5, col = 'red', lty = 'dashed')
dev.off()

airbas:

No sé si para las cotizaciones, pero en el procesamiento de señales el control de calidad es sólo para I(1) y es válido. En particular, es bastante bueno para detectar la periodicidad de la señal.

¿Sabe en qué universidad se graduó? Sabré a quién hay que comprobar más a fondo la adecuación de la percepción en las entrevistas.

Integer, tengo la misma pregunta para ti, si no es muy difícil.

GaryKa:

Estimados, ¿qué datos utilizan para las series temporales de precios (FX) cuando sacan conclusiones sobre estacionariedad, distribuciones, ergodicidad, correlación y otras cosas estadísticas? La pregunta no tiene discusión. ¿Sólo a menudo tomando una de las mejores lecturas cuantificadas por tiempo astronómico? Pero eso es ... cómo decirlo... inaceptable. Tiene sentido analizar la secuencia de lecturas de precios de las operaciones "reales", teniendo en cuenta los volúmenes reales. Tal vez ese sea el objetivo: preparar los datos para el análisis.


Lee las definiciones en cualquier libro de texto y entiende lo esencial. No hay ninguna diferencia entre utilizar el precio de compra/venta/precio medio. Las características numéricas pueden ser ligeramente diferentes, pero las conclusiones sobre la estacionalidad serán las mismas.

 

Compruebe después si es adecuado:

Свойство эргодичности позволяет оценивать корреляционную функцию для генеральной совокупности на основе выборки из оной. Если это свойство не выполняется - число, полученное по формуле, можно выкинуть.

 
Anónimo, sabes, leo el foro con regularidad, casi todo el foro, no he visto ni un solo post tuyo que sea adecuado.