Statistiche di dipendenza nelle citazioni (teoria dell'informazione, correlazione e altri metodi di selezione delle caratteristiche) - pagina 19

 
Candid:

Non hai bisogno di commentare, devi cercare di rispondere alle mie domande. Ti dirò un segreto: sono progettati per farti capire qualcosa cercando di rispondere).

Ho letto la discussione, a proposito, volete seriamente discutere un miscuglio di 17 pagine di mosche e cotolette?

Sono corretto nell'indovinare come chiamate i due processi?

Non so dove a pagina 17 hai visto un misto di cotolette e mosche. È venuto fuori prima...

Per quanto riguarda la comprensione - consiglio di guardare la tabella di Alexey e rispondere - sotto il presupposto di quale distribuzione teorica è costruita?

;)

 

e i due processi sono teorici (l'ipotesi nulla) e reali.

Bisognerebbe saperlo.

 
joo:

Non capisco affatto la metà delle parole di questo thread, ma anche io ho capito che le distribuzioni non c'entrano niente.

La distribuzione di un processo, in cui ci sono dipendenze tra i singoli conteggi, non deve essere né uniforme né normale. Questo è ovvio.

Esempio: le poesie di Pushkin. Se il testo menziona le parole "quercia" e "catena", allora da qualche parte vicino c'è "gatto". Questa relazione tra le parole non ha niente a che vedere con la distribuzione della parola "tom", o qualsiasi altra parola, nei paragrafi.

Sai quanto è primitivo controllare l'autenticità dell'autore?

Ecco come dalla frequenza delle combinazioni "dub-chain-cat" dai testi "di riferimento" e dal controllo - fare una conclusione.

Perché c'è sempre una base di confronto.

Ma qui non capisco cosa viene paragonato a cosa?

Dove è la frequenza teorica. O piuttosto di chi è?

Forse Candid ha ragione e dobbiamo solo emigrare in Grecia, e tutto andrà a posto?

;)

 
avatara:

Non so dove hai visto un misto di cotolette e mosche a pagina 17. Era lì prima...

Ecco di nuovo il problema dei finali, 17 pagine trasformate in pagina 17. Vorrebbe rileggere quelle 17 pagine per altri "refusi" di percezione?
e i due processi sono teorico (ipotesi nulla) e reale
In realtà, il mio primo post citava il topicstarter, sarebbe più logico supporre che mi riferivo alla sua versione in primo luogo. Soprattutto perché lui, a differenza di Alexey, l'ha descritto in modo molto dettagliato. Ma non sono sicuro che l'identificazione delle ipotesi con i processi contribuisca alla chiarezza della presentazione.
Per quanto riguarda la comprensione - consiglio di guardare la tabella Alexey, e rispondere - sotto il presupposto di quale distribuzione teorica è costruito?

Francamente parlando - non lo so. Mi baserei su una distribuzione empirica.
 
avatara:

e i due processi sono teorici (l'ipotesi nulla) e reali.

Dovresti saperlo.

No, sbagliato. Sto interpretando questo criterio. A proposito, ha le stesse statistiche. Si applica solo ad altre quantità.

Ora per le due variabili di cui si sta testando l'indipendenza. Nella tabella dei blocchi che ho postato, questi sono i ritorni di due barre distanziate di 310 barre (309 barre tra di loro). Le statistiche sono controllate sull'intera popolazione di tali coppie di barre nella storia. Se ci sono 60000 barre nella storia, allora ci sono 59690=60000-310 coppie di barre.

La barra che si trova più avanti nel passato è la fonte della S . La sua barra accoppiata più vicina al presente è il ricevitore R. Restituisce S e R sono i valori di cui viene verificata l'indipendenza. Più precisamente, non i rendimenti stessi, ma i quantili in cui cadono. Perché dividere per quantili è stato spiegato prima: per far funzionare il chi-quadrato (frequenze di almeno 10).

Sul bue come fonte principale del fenomeno - ci penserò. Qualcosa non è così semplice qui... Ma il suggerimento di Candid ha senso per testarlo (rimuovere il bue).

 

Ho dato un'occhiata veloce all'articolo dell'autore. Ho il sospetto che l'autore non ha trovato una correlazione tra le variabili barra corrente <-> barra passata, ma solo il fatto di clustering della volatilità. Naturalmente, anche su questa base, il grafico è interessante, poiché una correlazione sicura della volatilità fino a 50-60 ritardi è qualcosa di nuovo. Naturalmente, quando si mescolano i dati usando il metodo Monte Carlo, il clustering si rompe, il che era evidente nei grafici.

Per capire ciò che è stato trovato, è necessario testare la formula proposta su distribuzioni non normali e ovviamente indipendenti, in particolare sulla classica GARCH(1,1) o meglio ancora, sulla GARCH(3,3); se la dipendenza può essere trovata anche su di essa, la formula non dà nulla di nuovo, definisce semplicemente un caso speciale di Martingala utilizzando un altro metodo.

Se l'autore lo desidera, posso fornirgli dei ritorni sintetici GARCH.

 

Grazie. Datemi dei dati artificiali, li testerò durante il fine settimana.

E per quanto riguarda la formula, sì, non c'è niente di particolarmente meraviglioso, è un'analisi stocastica da un'angolazione diversa.

Per quanto riguarda la volatilità, molto è già stato detto qui e sono d'accordo con le opinioni. Ma il numero di ritardi su cui le variabili indipendenti portano informazioni sulla volatilità per la barra zero è davvero chiaramente indicato. E la profondità del lag dip è diversa per i diversi strumenti finanziari, pur mantenendo la rilevanza delle informazioni.

 
In generale penso che se non si possono prevedere i rendimenti sulla base dei rendimenti passati, allora c'è sempre, per me personalmente, la possibilità di tornare al problema della selezione delle variabili indipendenti (vari indicatori) per la previsione. L'argomento si chiama selezione delle caratteristiche, e sarei felice di discutere altri metodi, come l'analisi delle componenti principali, usando NS con memoria auto-associativa, l'analisi della rete addestrata (pesi), l'analisi dei cluster, il chi-quadrato, c'è anche l'esponente di Lipschitz (correzione: costante). Tutto sommato, gente, è un grande argomento...
 
C-4: Naturalmente, anche sulla base di ciò, il grafico è interessante, poiché una correlazione di volatilità sicura a 50-60 ritardi è qualcosa di nuovo.

Grazie per averlo notato. È questo che è così allarmante. Probabilmente, sì, vola spiega una parte significativa del fenomeno, ma non sembra spiegare tutto. E sull'orologio, questa correlazione va ancora più indietro... centinaia barre profonde.

A proposito, ci sono significativamente meno correlazioni sui giorni che su H4, che, a loro volta, hanno molte meno correlazioni che su H1.

 
Mathemat:

Grazie per averlo notato. È questo che è così allarmante. Probabilmente, sì, vola spiega una parte significativa del fenomeno, ma non sembra spiegare tutto. E sull'orologio, questa correlazione si estende ancora di più. centinaia barre profonde.

A proposito, ci sono significativamente meno correlazioni sui giorni che su H4, che, a loro volta, hanno molte meno correlazioni che su H1.


Se si tratta di nuovo di volatilità, allora si può spiegare molto bene con una chiara ciclicità a seconda dell'ora del giorno:

Non c'è bisogno di essere Einstein per notare anche a occhio nudo il raggruppamento del bue intorno alle 16:30. Quindi su scale intraday tali "correlazioni" sono naturalmente molto più definite. E naturalmente questo non ci dà nulla comunque. Sappiamo solo che si verificano forti movimenti alle 16:30 (come possiamo vedere sul grafico), causati da afflussi di volatilità, ma non sappiamo ancora la direzione del movimento o i suoi obiettivi.

Come ho promesso, sto incollando un sintetico - GARCH(1,1) con i parametri standard offerti da MathLab: garchset('P',1,'Q',1,'C', 0.0001, 'K', 0.00005, 'GARCH', 0.8, 'ARCH', 0.1); Non sono riuscito a fare GARCH(3,3) o anche di più - conosco male il programma e un semplice cambiamento da 'P',1,'Q',1 a 'P',3,'Q',3 non ha funzionato. La serie contiene 10 000 test, che penso saranno sufficienti. Ecco il suo grafico dei prezzi:

Sarebbe anche interessante generare una SB basata su dati di volatilità oraria dello stesso EURUSD. Avrà lo stesso carattere di volatilità di EURUSD, ma il grafico stesso sarà composto al 100% da rumore. Se rileverà la dipendenza, significa che il metodo non è adatto alla previsione dei prezzi, ma se non rivelerà la dipendenza allora assisteremo alla nascita di un nuovo indicatore, capace di determinare se abbiamo a che fare con sintetici astrusi senza senso o con il mercato reale.

File:
garch.zip  91 kb