Statistiche di dipendenza nelle citazioni (teoria dell'informazione, correlazione e altri metodi di selezione delle caratteristiche)

 

Buon pomeriggio!

Ho deciso di sviluppare leggermente l'argomento toccato da Alexey (Mathemat) in uno dei thread del forum.

Ho provato a cercare dipendenze nelle quotazioni di uno strumento finanziario usando metodi statistici. Per cominciare, ho preso l'indice industriale Dow Jones, dati giornalieri, e ho trasformato una serie di serie in serie di incrementi percentuali.

L'articolo è in realtà qui: http: //habrahabr.ru/blogs/data_mining/127394/

Vorrei continuare per le quotazioni FX, posterò i risultati qui.

 

Bravo, Alexey, non mi aspettavo che fossi tu a sorprendere il tuo omonimo (perdonami per carità, ma ho ancora un'idea del livello medio di maturità del nostro forum).

Mi fa piacere che tu stia facendo lo stesso percorso che ho fatto io, fino all'informazione reciproca I() e alla stima approssimativa in centesimi di bit. È vero, non ho usato il test di Kolmogorov-Smirnov. E non ho preso giorni, ma ore (ci sono più dati e le conclusioni sono più affidabili). И... Ho discretizzato gli incrementi in un modo leggermente diverso.

È davvero un po' troppo per un hubr, credo. Sono solo degli informatici, anche se molto intelligenti :) (Guardate il commento di Cher che ha ottenuto un punteggio di +3, cioè il massimo).

Ho un paio di domande per lei - le scriverò di persona un po' più tardi. E qui per ora osserverò: all'improvviso salterà fuori qualcun altro competente...

 

Alexey, grazie... Mi fa piacere che l'abbiate apprezzato, infatti, mi sono finalmente appassionato all'idea dopo aver letto il riassunto dei risultati della vostra ricerca.

Alcune specifiche della ricerca potrebbero essere cambiate, naturalmente. Io stesso ho pensato a lungo a come discretizzare meglio i valori, e mi sono fermato a un modo così semplice come l'arrotondamento.

E ho già fatto l'analisi anche per EURUSD H1. Ho preso un preventivo da Alpari per 10 anni (64500 battute). Ecco qui:

E con le frecce ho segnato i ritardi settimanali: in qualche modo si distinguono, secondo me.

E questo è l'aspetto della funzione di autocorrelazione su questa serie:

Tutto sommato, si può notare una stretta ciclicità di 24 ore. Anche questo può essere discusso.

A proposito, anche qui ho arrotondato gli incrementi a 10 punti (per questo l'entropia dei dati è risultata essere di circa 2,5 bit). Inoltre, non ho potuto spulciare più variabili, per esempio nel caso di un'immersione in un anno di storia. Excel blocca il computer, divorando 4GB di RAM. Non poteva farlo fisicamente, anche se il pensiero era certamente presente.

 

A proposito, il chi-quadro dà approssimativamente la stessa immagine: con un ritardo crescente da qualche parte ogni 24 barre c'è un picco decente del valore del criterio.

P.S. Vorrei sottolineare che l'ACF qui non è calcolato da un numero di ritorni, ma dal flusso medio di informazioni, fornito dalle quotazioni passate alla barra zero. Se prendiamo una specifica barra zero per i calcoli, il flusso di informazioni ad essa sarà calcolato in modo diverso.

 
alexeymosc:

Si può concludere che nei dati di finanza naturale (almeno per l'indice DJI) ci sono relazioni arbitrarie statisticamente significative tra gli incrementi delle quotazioni. Cioè, una tale serie di dati non può essere considerata casuale. Teoricamente, c'è spazio per prevedere i valori futuri di una tale serie, per esempio, utilizzando reti neurali.

Il fatto che sia stata trovata una relazione può essere spiegato dal fatto ben noto che la volatilità dipende dai valori precedenti. Puoi anche vederlo a occhio nudo dal tuo grafico degli incrementi. Ci sono modelli teorici che descrivono la dipendenza della volatilità - come ARCH/GARCH.

Ecco perché i cicli di 24 ore si formano in un giorno - il bue sul mercato forex ha un comportamento ciclico stazionario:

Ha semplicemente a che fare con gli orari di apertura e chiusura dei diversi centri finanziari. L'attività commerciale cambia. Se si usa una moneta come fonte di dati)))), allora comincia ad essere lanciata più spesso, e poi meno spesso allo stesso tempo.

Inoltre c'è un ciclo di vol settimanale, ma è meno pronunciato che per i mercati azionari. Solo un ritardo di 5 in incrementi giornalieri ;)

Quindi non è un argomento per prevedere la direzione dei cambiamenti di quotazione (che è quello che ci interessa). Il confronto dovrebbe essere con una serie casuale generata dalla volatilità reale (ad esempio il volume dei tick). Cioè la dipendenza della dispersione nella distribuzione durante la generazione. Altrimenti molti test statistici determinano esattamente la dipendenza della volatilità, non la varianza degli incrementi

 
alexeymosc:

In generale, un rigoroso ciclo di 24 ore è visibile. Anche questo può essere discusso.

Cosa c'è da discutere? È stato a lungo un fatto noto, la ciclicità intraday. È stato anche sottolineato da persone che non capiscono per niente di matematica, ma che capiscono il mercato. Inoltre, c'è ciclicità anche all'interno delle sessioni di trading di piani specifici. Non si avvicina alla comprensione di ciò che dovrebbe essere fatto, di per sé. Un po' di margine può essere estratto da esso, però.
 
Avals:

Altrimenti molti test statistici determinano esattamente la dipendenza della volatilità, piuttosto che le correzioni degli incrementi


E questo è corretto. Ci sono arrivato da solo, solo che non ho postato qui tutti i miei pensieri.
 
Mathemat:

A proposito, il chi-quadro dà approssimativamente la stessa immagine: con un ritardo crescente da qualche parte ogni 24 barre c'è un picco decente del valore del criterio.

P.S. Vorrei sottolineare che l'ACF qui non è calcolato da un numero di ritorni, ma dal flusso medio di informazioni, fornito dalle quotazioni passate alla barra zero. Se prendiamo una specifica barra zero per i calcoli, il flusso di informazioni ad essa sarà calcolato in modo diverso.


Sì, l'istogramma è calcolato dai valori di informazione reciproca e l'ho messo fuori solo per confermare l'idea di ciclicità.
 
HideYourRichess:
Cosa c'è da discutere? È stato a lungo un fatto noto, la ciclicità intraday. È stato anche sottolineato da persone che non capiscono per niente di matematica, ma che capiscono il mercato. Inoltre, c'è ciclicità anche all'interno delle sessioni di trading di piani specifici. Non si avvicina alla comprensione di ciò che dovrebbe essere fatto, di per sé. Un po' di margine può essere estratto da esso, però.

Lo capisco. Dovremmo prendere il lasso di tempo di un giorno o più.
 
alexeymosc:

Non capisco da dove viene questa bellezza ciclica?

Ecco il risultato degli ultimi 100 giorni.

Grafico iniziale:


Sembra che ci sia una tendenza all'inizio, o una tendenza laterale del tutto. Controlliamo con la Roast-Beer.

Sembra ridicolo, ma la probabilità che la distribuzione sia normale è dell'80%!

Guardiamo l'autocorrelazione:



Dov'è la ciclicità? Non lo vedo, ma vedo la tendenza. Finché c'è una tendenza, ogni ragionamento statistico è irrilevante. Facciamo una lisciatura Hodrick-Prescott. Risultato:


Si prega di notare il lambda anti-teorico. Ora guardiamo il residuo, che qui si chiama Ciclo:

Il residuo dello smussamento HP è, beh, abbastanza normale!

Non ci sono tendenze. Forse c'è ciclicità (3 - 13,14), ma questo richiede prove più serie.


 

In primo luogo, la ciclicità non è sul grafico giornaliero, ma sul grafico orario! A proposito, ho scritto lì.

E per i grafici giornalieri il risultato non sarà ciclico, hai ragione.