Statistiche di dipendenza nelle citazioni (teoria dell'informazione, correlazione e altri metodi di selezione delle caratteristiche) - pagina 20

 

Grazie! L'ho scaricato e ho dato un'occhiata.

Quindi, discretizzerò usando uno schema di divisione per quantile, così la funzione di densità di probabilità sarà uniforme. Misurerò l'informazione reciproca per 500 ritardi e posterò un grafico.

 

E per cominciare:

Il tipo di funzione di densità di probabilità per i vostri dati grezzi:

Corrisponde a una distribuzione normale.

Poi, un autocorrelogramma sulla serie originale dei vostri valori fino a lag 50:

Si può vedere che in generale le correlazioni non sono significative, anche se qualche correlazione sfugge ad alcuni ritardi.

Infine, ho preso i valori della tua serie al quadrato e ho tracciato un autocorrelogramma per guardare esclusivamente la densità della "volatilità":

Noto che la volatilità dipende dai suoi valori passati vicini. È tutto simile alle quotazioni giornaliere degli indici azionari e un po' simile alle quotazioni giornaliere di EURUSD (posterò il calcolo per loro più tardi).

Aspettiamo i risultati del calcolo di I(X,Y).

 
alexeymosc: In attesa dei risultati del calcolo di I(X,Y).

Grande, stiamo aspettando, Alexey.

Dopo i vostri risultati per I(X,Y) posso caricare i dati nel mio script di calcolo del chi-quadro. Non credo che verrà fuori qualcosa di utile (questa è la mia ipotesi a priori).

 

Mi scuso per il ritardo. Internet è fuori uso.

Inizierò con la parte metodologica. Ho discretizzato la serie in 5 valori (quantili). Perché? Quando si calcolano le frequenze incrociate per la variabile obiettivo e dipendente si ottengono 25 scelte, se si divide 10.000 per 25 si ottiene 400. Questo è un campione statisticamente significativo. Si può fare da 3 a 7; secondo me, ho preso la via di mezzo.

È così che si calcola l'informazione media del ricevitore (variabile obiettivo);


Noto che per qualsiasi ritardo, il calcolo dell'informazione media darà un valore simile (a meno che, ovviamente, non abbiamo discretizzato le variabili indipendenti in un alfabeto di lunghezza diversa).

Questo è il calcolo dell'entropia incrociata per le variabili target e dipendenti:

Istogramma dei valori di mutua informazione sulla serie temporale originale :

Posso solo notare i primi ritardi che si distinguono dal quadro generale. È difficile dire qualcosa sul resto.

Ho anche fatto quanto segue. Dato che i dati erano normali, ho generato 10.000 numeri casuali con la stessa media e deviazione standard in Echel. Ho contato le informazioni reciproche per 500 ritardi. Questo è quello che è venuto fuori:


Potete vedere a occhio che i primi ritardi non sono più così informativi.

Il resto della metrica sui campioni risultanti dei valori di mutua informazione deve essere rimosso e confrontato. Quindi:

Somma delle informazioni reciproche per 500 variabili per la serie originale: 0,62. Per la serie casuale: 0,62. Questo significa che anche la media dei campioni sarà uguale. Metti il primo segno di spunta sull'ipotesi che la serie originale non differisca molto dalla serie casuale (anche tenendo conto della dipendenza dalla volatilità).

Eseguiamo test non parametrici per confermare l'ipotesi di insignificanza delle differenze tra i due campioni sperimentali.

Test di Kolmogorov-Smirnov (per campioni senza considerazione dell'ordine delle variabili e con funzioni di densità di probabilità sconosciute a priori): p > 0,1 a livello di significatività 0,05. Rifiutiamo l'ipotesi che la differenza tra i campioni sia significativa. Metti il secondo segno di spunta.

Come risultato abbiamo: la serie iniziale è insignificantemente diversa dalla serie casuale come è stato dimostrato utilizzando la statistica di mutua informazione.

In questo caso, la dipendenza della volatilità non ha avuto un forte impatto sull'aspetto dell'istogramma. Tuttavia, bisogna ricordare che ho fatto il campionamento in modo diverso per il DJI.

 
Mathemat:

Molto bene, aspettiamo, Alexei.

Dopo i vostri risultati su I(X,Y) posso caricare i dati nel mio script di calcolo del chi-quadro. Non credo che verrà fuori qualcosa di utile (è la mia ipotesi a priori).

Anch'io sto mettendo a tacere a priori la plausibilità bayesiana...

Vedere gli scorci.

:)

rumore - come è stato visto in origine.

E le tue ricerche di Alexei sono più sagge.

Ma Poisson è mio amico.

 
Il test Mann-Whitney ha dato un valore di p di 0,46. Rifiutiamo anche l'ipotesi che le differenze tra i campioni siano significative.
 
Ragazzi, ora analizzerò i diari EURUSD in modo simile. Vediamo!
 

Grazie Dougherty!

TU sei quello giusto!

Piacere di conoscerla.

 
alexeymosc:
Ragazzi, ora analizzerò i diari EURUSD in modo simile. Vediamo!

Provate invece con i libri d'orologio. Ci sono poche informazioni reciproche nel grafico giornaliero.

P.S. Il riassunto preliminare è il seguente: GARCH(1,1) ha mostrato una sorta di clustering della volatilità, simile a er... eteroscedasticità, ma, come previsto, non fornisce alcuna informazione. Forse dovremmo aumentare gli ordini di grandezza, cioè gli argomenti del modello?

 

Dati dal server A-ri, EURUSD D1. Ha preso gli incrementi della serie ai prezzi di chiusura vicini. Discretizzato da 5 quantili.

Vediamo cosa ha prodotto il calcolo dell'informazione reciproca:

Possiamo vedere che i 100-200 ritardi più vicini portano più informazioni degli altri.

Ora mescoliamo a caso gli incrementi e otteniamo una serie casuale. Calcoliamo il VI:

Wow. Già nessuna informazione può essere vista sui ritardi più vicini.

Confrontiamo visivamente i risultati:

I ritardi più vicini mostrano chiaramente la preponderanza della serie originale (blu).

Ho preso una media mobile con finestra 22 (mese) sui valori I per la serie originale e casuale:

Chiaramente, la serie originale (blu) ha una memoria informativa diversa da quella casuale (lasciamo la discussione sulla natura di questa informazione per il dessert) sui ritardi vicini fino a circa 200 conteggi.

Cosa dicono i test non parametrici?

Test di Kolmogorov-Smirnov:

p < 0,001

Test di Mann-Whitney:

p = 0,0000.

Rifiutiamo l'ipotesi di insignificanza delle differenze tra i campioni. Oppure, la serie di ritorno D1 di EURUSD è molto diversa dai dati casuali con caratteristiche simili in termini di media e spread.

Ugh. Vado a fare una pausa sigaretta.