Statistiche di dipendenza nelle citazioni (teoria dell'informazione, correlazione e altri metodi di selezione delle caratteristiche) - pagina 2

 
alexeymosc:

In primo luogo, la ciclicità non è sul grafico giornaliero, ma sul grafico orario! A proposito, ho scritto lì.

E per i grafici giornalieri il risultato non sarà ciclico, hai ragione.

Mi scusi, ripetiamo per il grafico orario.

Il grafico originale per 120 ore.

Non vedo ciclicità nel grafico, la tendenza è lì. Controlliamo la normalità:

Sul Roast-Beer non è affatto normale. Controlla l'ACF:

C'è una tendenza e nessuna ciclicità - risultato diverso.

Se c'è una tendenza, non c'è bisogno di fare analisi statistiche. Detrendiamo con lo stesso Hodrick:

Il residuo è rumore bianco. Guarda i cicli in esso:


Certo che c'è un'onda, ma non è solida e per niente bella rispetto alla vostra. Credo che la differenza sia il detrending. Senza la rimozione delle componenti detrended è impossibile fare statistiche.

 
State facendo qualcosa di vostro. Nessuna connessione con quello che faccio ))) Cominciamo con il fatto che lavoro con una serie di incrementi. Poi, se prendi i valori di questa serie modulo (cioè più e meno) e costruisci un autocorrelogramma, scommetto che ottieni una bella ciclicità con periodo 24. Questo è logicamente più vicino ai miei affari.
 
Ieri ho aggiunto un estratto sulla teoria dell'informazione a un articolo di Hubra. Può aiutare a capire il processo di ricerca delle variabili importanti.
 
alexeymosc:
Stai facendo qualcosa di tuo. Nessuna relazione con quello che sto facendo ))) Cominciamo con il fatto che lavoro con un certo numero di incrementi. Poi, se prendi i valori di questa serie modulo (cioè più e meno) e costruisci un autocorrelogramma, scommetto che otterrai una bella ciclicità con periodo 24. Questo è logicamente più vicino ai miei affari.

Come vuoi tu. Calcolo l'incremento come la differenza di ogni successivo rispetto al precedente. Ottengo un grafico:

Per questi incrementi calcolo ACF

Si noti che l'ultima colonna è la probabilità di assenza di correlazione tra le barre.

Prendo il quadrato degli incrementi. Ecco il grafico:

Questi sono i picchi di volatilità, cosa c'entra la ciclicità degli incrementi? Forse la ciclicità della volatilità? Anche questo è interessante. Controlliamo la ciclicità dell'accrescimento:

Bene, non c'è ciclicità qui, e notate l'ultima colonna - altissima probabilità di nessuna correlazione.

Altre due cifre sono interessanti. Controlliamo la normalità degli incrementi:

Si noti che secondo Jarque-Bera la probabilità di normalità è uguale a zero!

Che tipo di distribuzione è questa? Vorrei che fosse normale. Ho sempre trovato discutibile l'idea di lavorare con incrementi derivati come la differenza tra il successivo e il precedente.

Finalmente. Per qualche motivo non riesco a ottenere il tuo risultato.

 

faa1947, i tuoi calcoli non hanno niente a che vedere con il flusso medio di informazioni di cui parlava l'iniziatore del topic. Tu stai elaborando i dati degli ultimi 5 giorni, mentre il grafico di Alexei è il risultato dell'elaborazione dei dati sugli orologi di una dozzina di anni. Quella di Alexei è una statistica, mentre il tuo è un caso singolo e isolato che non prova nulla nel contesto della discussione.

La periodicità mostrata dal topicstarter non ha nulla di direttamente collegato alla volatilità o ai rendimenti. Non è una periodicità del prezzo, ma una in-forma-tsion-na-na. Sull'asse delle ascisse c'è il ritardo e sull'asse delle ordinate l'informazione reciproca media in bit. E l'autocorrelogramma è stato menzionato da Alexey per confondere tutti :) Non è l'autocorrelazione dei rendimenti! Non ne parliamo affatto, perché queste dipendenze informative sono ovviamente non lineari per la maggior parte, e non possono essere rilevate affatto dai rendimenti ACF.

Avete letto attentamente l'articolo su hubra? Non ha niente a che vedere con la vostra amata stazionarietà, né con la normalità del flusso di ritorno, e nemmeno con la periodicità condizionata della volatilità. Naturalmente, sarebbe bello controllare la stazionarietà anche qui, ma sarebbe di un tipo molto diverso, a livello informativo (se ce n'è uno).

2 Avals: Temo di non riuscire a trovare una storia di tick profonda per testare direttamente la tua ipotesi di volatilità. Sì, e i calcoli qui sarebbero completamente folli in volume (sono già abbastanza voluminosi). Giudicheremo ciò che si trova dai tentativi di predizione diretta (se funziona, naturalmente; ci sono molte, molte insidie).

 
Mathemat:

Quella di Alexey è una statistica, mentre il tuo è un caso singolo e isolato, che non prova nulla nel contesto della discussione.

Voglio solo notare che quando il numero di osservazioni supera 30, la t-statistica converge alla z-statistica. È una grande novità per me che 10000 osservazioni siano necessariamente migliori di 1000. Per rivelare la periodicità settimanale per i dati orari - hai bisogno di diverse settimane in ore. Ma non è questo il punto.


La periodicità mostrata dal topic-starter non ha nulla a che fare con la volatilità o i rendimenti. Non è affatto una periodicità di prezzo, è una periodicità di in-formazione-su-forma.

Molto più importante è il valore metodologico dell'approccio. Per me è assiomatico che qualsiasi calcolo matematico debba avere un'interpretazione economica qualitativa. La periodicità dell'informazione è una formula che rivela la periodicità nei dati, che è intrinsecamente una relazione incrementale. Tornando indietro dobbiamo essere in grado di risalire alla serie temporale originale, trovare questi luoghi e trovare una spiegazione economica, cioè risalire ai prezzi è obbligatorio, altrimenti solo un'altra furbizia matematica. Ecco perché collegavo questo argomento ai cicli regolari.
 
Mathemat: Questa non è autocorrelazione dei rendimenti! Non ne parliamo affatto, poiché queste dipendenze informative sono ovviamente non lineari per la maggior parte e non sono affatto rilevabili dai rendimenti ACF.

In realtà, i soliti metodi di statistica matematica sono stati applicati alla fine dell'articolo.

Rimedio al mio malinteso e prendo il rapporto dei prezzi vicini.

Grafico del rapporto dei prezzi:

Verifica della normalità

Sorprendentemente, la normalità è rigorosamente rifiutata.

Tracciamo l'ACF - sono le dipendenze tra i ritardi + l'ACF parziale che è pulito dalle dipendenze nell'ACF

Notate l'ultima colonna - probabilità molto alta di non avere dipendenze.

Ho una chiara spiegazione economica per queste immagini, ben supportata dal grafico delle citazioni. Come si conferma sui preventivi iniziali, qual è la giustificazione economica? Senza risposte a queste domande, non posso capire il significato di "dipendenza dall'informazione".

 
La risposta più semplice per voi è. Stai usando l'autocorrelazione, cioè stai cercando solo dipendenze lineari. L'informazione reciproca indica la presenza di dipendenze arbitrarie, da cui deriva tutta la differenza. Inoltre, ho sperimentato con campioni statisticamente ridondanti di migliaia e decine di migliaia di incrementi, e tu hai preso una settimana. Quella settimana potrebbe essere qualsiasi cosa, è un caso speciale. Non c'è alcun significato nei vostri risultati.
 
faa1947: La periodicità dell'informazione è una formula che rivela la periodicità nei dati che è intrinsecamente una relazione incrementale.

Fondamentalmente sbagliato. Non c'è alcuna questione di periodicità nei dati come una relazione incrementale.

Si rivela la dipendenza dell'informazione, che non deve affatto portare alla periodicità del rapporto degli incrementi. Questo è il bello del Data Mining, permette di identificare strutture che non sono in superficie.

Tornando indietro dobbiamo essere in grado di risalire alla serie temporale originale, trovare questi luoghi e trovare una spiegazione economica, cioè risalire ai prezzi è obbligatorio, altrimenti solo un'altra furbizia matematica. Ecco perché ho collegato questo argomento ai cicli regolari.

Sì, dovrebbero, non lo discuto, non c'è bisogno di una spiegazione economica. È sufficiente per tornare ai prezzi. Ma il tuo collegare questo fenomeno ai cicli normali è sbagliato. Non sono così cieco da non notare la mancanza di periodicità pronunciata sul grafico.

Alexey vi ha già parlato della differenza tra dipendenze lineari e non lineari.

 
alexeymosc:
La risposta più semplice per voi. State usando l'autocorrelazione, cioè state cercando esclusivamente le dipendenze lineari. L'informazione reciproca indica la presenza di dipendenze di tipo arbitrario, da cui tutta la differenza. Inoltre, ho sperimentato con campioni statisticamente ridondanti di migliaia e decine di migliaia di incrementi, e tu hai preso una settimana. Quella settimana potrebbe essere qualsiasi cosa, è un caso speciale. Non c'è alcun significato nei vostri risultati.

Inoltre, stavo sperimentando con campioni statisticamente ridondanti di migliaia e decine di migliaia di incrementi, e tu hai preso una settimana. Quella settimana potrebbe essere qualsiasi cosa, è un caso speciale. Non c'è alcun significato nei vostri risultati.

Mi sembra che l'aumento della dimensione del campione sia interessante solo all'interno del teorema del limite di convergenza delle probabilità alla legge normale. Voglio deludervi: se non ci poniamo un tale obiettivo, allora il semplice aumento della dimensione del campione non fa nulla. Qui sotto do un esempio di aumento di 10 volte.

Il grafico degli incrementi come rapporto tra il prezzo successivo e quello precedente:

Il quadrato di questo grafico:

Il grafico è in qualche modo simile al tuo. Avevo una domanda sull'interpretazione economica di questo grafico, ma non hai dato una risposta


Il prossimo:


Se si confronta con un campione 10 volte più piccolo, non è cambiato nulla!



Qualcosa di nuovo qui: la probabilità di nessuna relazione è zero.


L'informazione reciproca indica la presenza di dipendenze di tipo arbitrario, da cui tutta la differenza.

Farei anche attenzione alla "linearità" e alla "non linearità", perché questa domanda può e deve essere posta nel quadro del modello con cui si approssima la serie temporale. Analizzando i coefficienti di questo modello si può concludere che questi coefficienti sono: costanti (o quasi costanti), funzioni deterministiche o funzioni stocastiche. Questo è un processo perfettamente concreto e costruttivo di analisi del tipo di dipendenze. E cosa c'è di costruttivo nello scoprire questa dipendenza dalle informazioni? E ancora, come lo vedete nella serie temporale originale?