Statistiche di dipendenza nelle citazioni (teoria dell'informazione, correlazione e altri metodi di selezione delle caratteristiche) - pagina 11

 
HideYourRichess:

Il concetto di entropia dell'informazione è stato introdotto da Shannon per i simboli indipendenti. Se non mi credete, consultate un dizionario accademico. Non voglio più discutere con voi su questo argomento. Non si può calcolare l'entropia dell'informazione per il mercato perché non si conosce l'alfabeto, non si conosce la frequenza dei simboli e anche l'indipendenza dei simboli è sconosciuta.

La prossima questione, l'entropia condizionale, è solo il caso in cui ci sono dipendenze tra l'alfabeto originale. Questa cosa non è la stessa dell'entropia dell'informazione discussa.

Non capisco quali conclusioni traete dall'esempio dell'archivista, ma vi dirò questo. Il compito dell'archivista è quello di tradurre l'entropia condizionale in entropia informativa. Cioè, creare un alfabeto limitato perfettamente definito, i cui caratteri, nella sequenza risultante, sarebbero il più possibile indipendenti. Se si mescola la struttura ordinata di un testo letterario a livello delle lettere, è ovvio che quelle sequenze di lettere verrebbero interrotte e la compressione si deteriorerebbe. Al punto che un insieme di lettere completamente casuale non può più essere compresso.


Trovo la sua formulazione della domanda paradossale all'inizio. Se otteniamo un valore diverso da 0 come risultato del calcolo della mutua informazione, allora abbiamo preso un alfabeto con dipendenze. Se studiamo valori indipendenti, allora l'informazione reciproca sarà sempre 0 (o molto vicino a questo valore).
 
L'entropia reciproca non è la stessa dell'entropia convenzionale e non è la stessa dell'entropia informazionale.
 
TheXpert: Cosa sono i numeri non alfabetici?

Alfabeto - ma non un sistema di numeri.

Scelta dell'alfabeto.

OK, così sia. Ho costruito l'alfabeto in questo modo:

Trovo la distribuzione incondizionata dei rendimenti su tutta la storia (EURUSD, H1, circa 10 anni). L'istogramma è più o meno noto. È una curva che assomiglia a una campana gaussiana, ma con differenze vicino allo zero e nelle parti della coda. Non lo disegnerò qui.

Poi scelgo in quanti quantili dividere la distribuzione. Diciamo, entro i 30 anni. Questo sarà l'alfabeto. Ecco qui:

0: [-10000.000; -305.000),2166
1: [-305.000; -210.000),2167
2: [-210.000; -161.000),2166
3: [-161.000; -130.000),2166
4: [-130.000; -110.000),2166
5: [-110.000; -90.000),2167
6: [-90.000; -80.000),2166
7: [-80.000; -60.000),2166
8: [-60.000; -50.000),2166
9: [-50.000; -40.000),2167
10: [-40.000; -30.000),2166
11: [-30.000; -20.000),2166
12: [-20.000; -10.000),2166
13: [-10.000; -10.000),2167
14: [-10.000; 0.000),2166
15: [0.000; 10.000),2166
16: [10.000; 20.000),2167
17: [20.000; 24.000),2166
18: [24.000; 30.000),2166
19: [30.000; 40.000),2166
20: [40.000; 50.000),2167
21: [50.000; 62.000),2166
22: [62.000; 80.000),2166
23: [80.000; 90.000),2166
24: [90.000; 110.000),2167
25: [110.000; 136.000),2166
26: [136.000; 170.000),2166
27: [170.000; 211.000),2166
28: [211.000; 300.000),2167
29: [300.000; 10000.000),2167

Spiegazione: prima c'è il numero di quantile (da 0 a 29). Poi viene il semi-intervallo che caratterizza i confini del quantile in pip a cinque cifre. Per esempio, il quantile 22 corrisponde a un ritorno positivo da 62 a 80 pip. E l'ultimo numero è il numero di valori che rientrano in quel quantile (per controllare la correttezza della ripartizione in quantili).

Sì, non è molto bello per i grandi ritorni, perché in realtà i ritorni possono essere fino a circa 3000 nuovi punti. Beh, quelle sono code grasse, non si può evitare...

Questo alfabeto è stato conveniente per me in particolare quando ho calcolato il criterio del chi-quadro. Era conveniente perché anche per deviazioni molto gravi dall'indipendenza, la frequenza minima dei colpi congiunti non era inferiore a 5 (questa è una condizione per la correttezza del chi-quadro). Forse sarebbe meglio una scelta diversa dell'alfabeto.

E in generale, diciamo, con un numero di quantili di 50, i limiti interni dei quantili più esterni sono spinti indietro a circa 380 nuovi punti (invece dei precedenti 300). Questo è meglio, ma ancora non eccezionale.

 
Mathemat:

Poi scelgo in quanti quantili dividere la distribuzione. Diciamo 30. Questo sarà l'alfabeto. Ecco cos'è:

Se non ti dispiace, potresti dirmi come analizzare i dati usando alphabet? Attualmente sto lottando con un problema simile, finora lo sto analizzando usando NS in Matlab.

C'è un modo per analizzare i dati presentati come alfabeto a parte NS?

 
Mathemat:

È abbastanza realistico. Non ho notato limiti, ma somme e logaritmi possono essere fatti in MQL4. Non so cosa abbia fatto Sergeev. Ma per quanto ne so da altre fonti, la parte più difficile dei calcoli era il calcolo della funzione gamma. Il TI era fuori questione.


La gente ha scritto l'indicatore secondo l'articolo di Y.Sultonov "Modello di regressione universale per la previsione dei prezzi di mercato" - qui in Kodobase.

Ci sono costruzioni simili usate? O no?

 
HideYourRichess:
L'entropia reciproca non è la stessa dell'entropia convenzionale e non è la stessa dell'entropia dell'informazione.

Ti stai allontanando dalla domanda. Qual è lo scopo di applicare la statistica della mutua informazione se richiediamo che il sistema sia indipendente dai valori casuali? L'informazione reciproca sarà zero in questo caso. È scritto dappertutto.

Dirò anche che l'introduzione del concetto di entropia in TC è stato tipico della scuola sovietica. Gli americani danno la seguente formula classica di calcolo dell'informazione reciproca:

Cioè, qui non c'è l'entropia come concetto.

 
HideYourRichess: Shannon ha introdotto il concetto di entropia dell'informazione per i simboli indipendenti. Se non mi credete, consultate un dizionario accademico.

Ho trovato un articolo sull'entropia dell'informazione (Wiki). Citazione 1 da lì:

L'entropia è la quantità di informazioni per messaggio elementare di una fonte che produce messaggi statisticamente indipendenti.

È l'entropia, l'entropia regolare. È questa la definizione di cui parla?

Sì, sono d'accordo che le lettere dell'alfabeto devono essere statisticamente indipendenti in modo che non ci sia ridondanza o dipendenza. Questo è più o meno quello che sta facendo l'archivista, creando un alfabeto che è chiaramente diverso dall'alfabeto usato per creare il testo.

Ma non è questo che contiamo! Quello che contiamo è il prossimo.

Inoltre, vi è già stata data la citazione 2 dallo stesso luogo:
Entropia condizionale

Se la sequenza dei simboli di un alfabeto non è indipendente (per esempio, in francese la "q" è quasi sempre seguita dalla "u", e la parola "avanguardia" nei giornali sovietici era solitamente seguita da "produzione" o "lavoro"), la quantità di informazione che una sequenza di tali simboli porta con sé (e di conseguenza l'entropia) è ovviamente minore. L'entropia condizionale è usata per rendere conto di questi fatti.

Questo è diverso, e ne avete già scritto:

HideYourRichess : La prossima domanda, l'entropia condizionale, è esattamente il caso in cui ci sono dipendenze tra i caratteri dell'alfabeto originale. Questa cosa non è la stessa dell'entropia dell'informazione in questione.

Il discorso del topicstarter (e anche il mio) non era sull'entropia informazionale, ma, maledizione, sull' informazione reciproca (ancora Wiki)!!!

L'informazione reciproca è una funzione statistica di due variabili casuali che descrive la quantità di informazioni contenute in una variabile casuale rispetto all'altra.

L'informazione reciproca è definita attraverso l'entropia e l'entropia condizionata di due variabili casuali come [segue la formula per I(X,Y)

Ora per l'argomento finale:

HideYourRichess : Il compito dell'archivista è quello di tradurre l'entropia condizionale in entropia informativa. Cioè, creare un alfabeto delimitato perfettamente definito, i cui caratteri, nella sequenza risultante, sarebbero il più possibile indipendenti. Se si mescola la struttura ordinata di un testo letterario a livello delle lettere, è ovvio che quelle sequenze di lettere verrebbero interrotte e la compressione si deteriorerebbe. Al punto che un insieme di lettere completamente casuale non può più essere compresso. E allora? Cosa c'entra questo con il bazar?

L'argomento è che non si tratta di ciò che chiamate entropia dell'informazione, ma di informazione reciproca. Questo è tutto. Fermata completa. La discussione è finita.

 
IgorM:

Se non ti dispiace, potresti dirmi come analizzare i dati usando alphabet? Attualmente sto lottando con un problema simile, finora lo sto analizzando usando NS in Matlab.

Ci sono altri modi per analizzare i dati rappresentati sotto forma di alfabeto oltre a NS?

Per essere onesto, non capisco bene la tua domanda. Semplicemente assegniamo un numero ordinale ad ogni carattere dell'alfabeto - e poi analizziamo i numeri come al solito. Forse c'è qualcosa di specifico, ma non ne sono a conoscenza.

Roman: La gente ha scritto l'indicatore secondo l'articolo di Sultonov "The Universal Regression Model for Market Price Forecasting" - qui in kodobase.

Ci sono costruzioni simili usate? O no?

Non c'è nemmeno un accenno di terver/statistica o di teoria dell'informazione! Yusuf ha pubblicato il suo post in questo thread, ma si è rivelato un ripensamento in quanto non ha nulla a che fare con l'argomento della discussione. Anche se... sì, i logaritmi sembravano esserci...
 
Mathemat:

Non c'è nemmeno un accenno di terver/statistica o di teoria dell'informazione! Anche se... Sì, c'erano i logaritmi, credo...

Sto solo dicendo che le curve e i ghirigori qui e qui mi sembrano molto simili... :-))), compresa la presenza di una distribuzione gamma, quindi gli approcci alla soluzione dovrebbero essere SIGNIFICATIVAMENTE simili.

È possibile una cosa del genere, almeno COSTANTEMENTE?

 

Il punto è che la funzione di distribuzione gamma appare nell'articolo come dal nulla, presumibilmente risolvendo un dittico di movimento deterministico - ma non come risultato di un'analisi statistica o terveristica. Roman, finora non vedo alcuna somiglianza negli approcci alla soluzione - anche convenzionalmente.

Ma se si guarda da vicino, qualche somiglianza può ancora essere trovata - ad esempio, nella parola "distribuzione", che si trova anche nell'articolo di Yusuf:)