Correlazione zero del campione non significa necessariamente che non ci sia una relazione lineare - pagina 39

 


Qui dai commenti sul link da hrenfx 22.03.2011 00:43 è piaciuto:

c'è una correlazione! :)
non significa che uno sia una conseguenza dell'altro.
ma i fenomeni sono collegati.
(e allora si può cominciare a inventare spiegazioni).
ma non è questo il punto.
Il punto è che, in una certa prospettiva, è possibile prevedere la relazione dell'uno con l'altro. fino a un certo punto. )
Naturalmente, una chiara comprensione del meccanismo della connessione permetterà di prevedere quando la connessione finirà.
ma...
ma anche solo analizzando costantemente la correlazione - è possibile prevedere quando finirà. )

 
Come Grove: c'è una correlazione - non può non essere ))))))))))
 
Neutron:

Sono d'accordo in parte, ma assolutamente non con tutto. Se volete avere una discussione sostanziale sull'argomento che avete sollevato, dovrete prima leggere alcuni dei miei post che rivelano il mio punto di vista sull'argomento. Ho dovuto ripetermi spesso, quindi non lo farò più. Ti ho appena inviato due link ai miei post via PM.

 
hrenfx

Buon pomeriggio, ho seguito i vostri thread e sono interessato alla vostra logica,

Ho una domanda - hai provato a riscrivere l'indicatore di correlazione da recycle2 a mt5

 

Nella mia ricerca avevo bisogno di valutare qualitativamente la relazione tra le serie, quindi ho deciso di usare il coefficiente di correlazione. Le conclusioni sono deludenti - i metodi che la statistica classica suggerisce di usare sono praticamente inutili per trovare relazioni non ovvie tra le serie. Per esempio, prendiamo un grafico settimanale dei futures sull'oro e il suo Open Interest:

Ovviamente, c'è una correlazione diretta. Sì, non è molto forte e ovvio, ma quando il prezzo dell'oro sale, il valore di Open Interest dei futures dell'oro è più alto, quando scende - più basso.

In seguito, troveremo i coefficienti di correlazione tra il prezzo dell'oro e il suo OI. Ma prima, consideriamo la formula di correlazione di Pearson più comune:

Se si guarda da vicino, diventa chiaro che la formula detrange i dati (x - x mediana), allinea le volatilità per deviazione standard sull'intero campione, e poi conta per quanto tempo, entrambe le serie sono state nella stessa direzione. Ovviamente, il calcolo richiede le prime differenze della forma I(0), perché nel caso di I(1) siamo in un'imboscata, perché le serie con cui abbiamo a che fare sono sempre positive (il prezzo è sempre maggiore di zero), ma anche su questo più tardi.

Correlazione di Pearson: 0,02234314

Correlazione Kendel: 0,002866038

Correlazione Spearman: 0,002046104

Cioè, in effetti, nessuna correlazione è stata trovata in tutti i casi. Ma che dire dei nostri occhi acuti? Ci stiamo immaginando tutto? E la correlazione tra oro e Open Interest è la stessa della correlazione tra le importazioni di banane dal Marocco e il tasso di natalità del paese?

Forse la ragione è il ritardo di un indicatore rispetto all'altro. I ritardi non corrispondono. E se l'OI sale prima e solo allora l'oro lo fa? - Oh, allora ci potrebbero essere dei soldi da fare su questo :) Testiamo l'idea con una funzione di correlazione incrociata:

Un po' poco convincente. Ci sono alcuni due valori che si distinguono dal campione, nel complesso e qui il quadro è come se non ci fosse alcuna relazione e quindi il ritardo non gioca alcun ruolo.

OK. Proviamo allora a calcolare la correlazione sulla serie I(1). Chi dice che questo non dovrebbe essere fatto in ogni caso? Che ci sia una sopravvalutazione del risultato - ma meglio una sopravvalutazione che nessun risultato. A questo scopo è stato condotto un esperimento, generiamo 100 BP e calcoliamo la matrice di correlazione per loro. Il valore medio mostrerà quanto la stima sarà sovrastimata, e semplicemente quando si lavora sulla serie I(1), ne terremo conto o no?

Ecco uno script su R che fa tutto questo:

#
# corexp - эксперимент выявляющий особенности корреляционных функций при работе с I(1) рядами
# exp - количество экспериментов
# lenght - длинна каждой серии
# cortype - тип корреляции (pearson - КК Пирсона, kendall - КК Кендалла, spearman - КК Спирмана)
# retrange - Истина, если требуется сгенерировать I(1) ряды
#
corexp <- function(exp = 10, lenght = 1000, cortype = 'pearson', retrange = TRUE)
{
   bp <- matrix(ncol = exp, nrow = lenght)
   for(i in 1:exp)
   {
      bp[,i] <- rnorm(lenght, mean = 0.000117, sd = 0.0048)
      if(retrange == FALSE)
            bp[,i] <- cumsum(bp[,i])
   }
   #Рассчитываем матрицу корреляций
   mcor <- matrix(ncol=exp, nrow=exp)
   for(k in 1:exp)
   {
      for(i in 1:exp)
      {
         mcor[k,i] <- cor(bp[,k], bp[,i], method = cortype)
      }
   }
   return(mcor)
}

# Статистика корреляций
# При желании считаем здесь все что угодно
corstat <- function(m)
{
   m[m == 1] <- NaN
   mean(m, na.rm = TRUE)
}

Guardiamo effettivamente questa "media": 0,153359. Sembra che vada bene - è sovrastimato di appena il 15%. Ma c'è un'altra trappola. Guardiamo la distribuzione della matrice di correlazione:

Il valore medio in questo caso non è affatto definito, o meglio qualsiasi valore di correlazione è frequente come qualsiasi altro valore. Si tratta del bias positivo del nostro BP, che è impostato dal parametro evidenziato in grassetto. Dopo tutto, tutti i prezzi che trattiamo hanno valori positivi, cioè sono nella zona positiva.

1. Come potete vedere, la serie I(1) non può essere usata affatto. Per le serie la cui relazione non è evidente e non è rigidamente funzionale, i coefficienti di correlazione sono assolutamente inutili.

2. La scelta di una particolare implementazione di un coefficiente di correlazione non influenza fondamentalmente nulla. Nessuno dei tre coefficienti comuni è mai stato in grado di rivelare la relazione tra l'oro e il suo interesse aperto, anche se è ovvio che tale relazione esiste.

 
C-4:

Correlazione di Pearson: 0,02234314

Correlazione Kendel: 0,002866038

Correlazione Spearman: 0,002046104

Possiamo dare un'occhiata alla serie originale? Sono disponibili in Excel, per esempio?
 
Le righe originali non vengono salvate. Ecco una delle generazioni in formato CSV.
File:
bp.txt  2010 kb
 
C-4:
Le righe originali non vengono salvate. Ecco una delle generazioni in formato CSV.
Qual è la vostra fonte di dati di interesse aperto?
 
Ecco i dati OI allineati al prezzo dell'oro.
File:
gold_oi_2.txt  19 kb
 
Coefficiente di correlazione = 0,766654