L'apprendimento automatico nel trading: teoria, modelli, pratica e algo-trading - pagina 2537

 
Aleksey Vyazmikin #:

E se l'obiettivo non è impostato in modo casuale?

Come: duplicare uno degli ingressi all'uscita? Imparerà bene. Credo di averla anche provata.

Aleksey Vyazmikin #:

Ho appena fatto un esperimento - il mio campione è di solito diviso in 3 parti, così l'ho preso, l'ho combinato in un unico campione e ho addestrato un modello di 100 alberi, poi ho visto quali predittori non erano usati e li ho bloccati. Poi ho addestrato il modello come al solito con uno stop all'overtraining nel secondo campione, e ho confrontato i risultati nel terzo campione con la variante quando mi alleno senza escludere i predittori. Si è scoperto che i risultati erano migliori sui predittori selezionati, e qui trovo difficile concludere questo effetto pensieri tali "la selezione di diversi predittori si verifica a causa della differenza di campioni sull'intervallo, con l'allenamento su tutto il campione selezioniamo automaticamente i predittori che non perdono la loro importanza nel tempo".

Sì, avete scelto qualcosa che avrà un impatto nel futuro. Potrebbe anche aver avuto poca influenza in passato, ma a causa della sua buona influenza in futuro sulla media dell'intero campione è stato selezionato.

Aleksey Vyazmikin #:

Tuttavia, questo significa che più grande è il campione, più robusto è il modello su un orizzonte più lungo? I predittori possono essere selezionati per l'apprendimento in questo modo, cioè non incoraggia l'apprendimento eccessivo?

Come si dice - il mercato sta cambiando. Arrivano nuovi giocatori, creano nuovi robot e disattivano quelli vecchi, ecc. Penso che su un campione molto grande il modello arriverà a un risultato medio per tutti quei cambiamenti, possibilmente zero. Penso che tu debba adattare la profondità dell'allenamento alla massima efficienza e riallenarti regolarmente. Io stesso sto sperimentando lo stesso periodo (ad esempio, test di 2 anni, riqualificazione il sabato, dimensione dei dati provata da pochi giorni a un anno o due).
Teoricamente, sarebbe meglio definire automaticamente la dimensione del campione di allenamento per ogni riqualificazione. Ma finora non so come.

Aleksey Vyazmikin #:
Generalmente ho sentito una raccomandazione dai fondatori di CatBoost che dovrei trovare iperparametri del modello e poi stupidamente addestrare su tutti i campioni disponibili per utilizzare il modello nel lavoro.

I creatori non consiglieranno male) raccolgo iperparametri su Walking-Forward (VF), poiché la consistenza dei dati rimarrà e qui si può solo raccogliere la profondità della storia per l'apprendimento, per degradazione dell'influenza dei vecchi dati. Si può anche usare la validazione incrociata (CV), se i dati non cambiano nel tempo, ma questo non riguarda i mercati.
Dopo la selezione, naturalmente dovremmo imparare fino al momento presente e utilizzare il modello per il tempo che avete avuto nel TP o TP in avanti.
Allenandoti sulla stessa trama del test, stai regolando il modello e gli iperparametri per quel 1 test. E allenandosi 10-50 volte su KV o VF - si trovano i migliori iperparametri per un ampio tratto di storia.
Forse è meglio, o forse sono solo troppo pigro per prendere gli iperparametri una volta alla settimana)) Quindi cosa è veramente meglio - la pratica lo dimostrerà.

 
elibrarius #:
Teoricamente, sarebbe meglio determinare in qualche modo automaticamente la dimensione del campione di allenamento per ogni riqualificazione. Ma finora non so come

PER DETERMINARE LA MEDIA

se la dimensione del gen. scoop è sconosciuta, considerare la dimensione del ricampione

n=(t^2*sigma^2)/delta_y^2

- per il campionamento casuale (per i campioni stratificati e seriali la formula diventa un po' più complicata)

cioè dobbiamo determinare la probabilità di fiducia richiesta P e il suo corrispondente coefficiente di affidabilità t=2 per un livello di fiducia del 95%... un margine di errore massimo ammissibile (l'esperto del ramo dovrebbe saperlo lui stesso, se sei un trader) nel divisore... e la varianza (sigma) che è sconosciuta, ma può essere conosciuta da osservazioni precedenti...

In generale, è su questo che ho scritto i miei dubbi, quando parlavo di finestra fluttuante [in linea di principio si può dire "dimensione del campione"] e della statistica t per definire una tendenza piatta e la probabilità di "dove siamo" - per costruire su respingere RS o assorbire RS...

Naturalmente, se la tua caratteristica ha una distribuzione normale, ed è il fattore principale che influenza il risultato (potresti aver già definito il suo dy/dx->min)... non è un modello multifattoriale (credo che in questo caso si possa prendere il valore massimo da quelli calcolati... imho)

PER DETERMINARE LA QUOTA DEL TRATTO

lo stesso, ma invece degli indici di errore e varianza della media, usate l'errore marginale della quota (delta_w) e la varianza del tratto alternativo w(1-w)

se la frequenza (w) non è nemmeno approssimativamente nota, il calcolo prende in considerazione il valore massimo della varianza della quota, 0,5(1-0,5)=0,25

cboe per le opzioni nella valutazione dell'asimmetria include i minuti prima della data di scadenza della 2x più vicina K_opt (come indicazioni alternative)...

o qualsiasi altro segno per gusto e colore (se non ci sono opzioni)

p.s. più o meno come qui

p.p.s. è così per logica, e come implementare il calcolo dell'adeguatezza del campione nella costruzione di modelli con popolazione genetica sconosciuta è una questione di disponibilità di dati grezzi e di logica... ma 2 anni mi sembra un intervallo normale per la popolazione... imho

Определение объема выборки
Определение объема выборки
  • 2013.08.16
  • baguzin.ru
Ранее мы рассмотрели методы построения доверительного интервала для математического ожидания генеральной совокупности. В каждом из рассмотренных случаев мы заранее фиксировали объем выборки, не учитывая ширину доверительного интервала. В реальных задачах определить объем выборки довольно сложно. Это зависит от наличия финансовых ресурсов...
 
JeeyCi #:

PER DETERMINARE LA MEDIA

Se la dimensione del gen. scoop è sconosciuta, si considera il volume di ricampionamento per un campione casuale (per campioni stratificati e seriali, la formula diventa leggermente più complicata)

n=(t^2*sigma^2)/delta_y^2

cioè è necessario definire una probabilità di fiducia richiesta P e il relativo coefficiente di fiducia t=2 per un livello di fiducia del 95%... un margine di errore massimo ammissibile (l'esperto del settore dovrebbe saperlo lui stesso, se sei un trader) nel divisore... e la varianza (sigma) che è sconosciuta, ma può essere conosciuta da osservazioni precedenti...

In generale, è su questo che ho scritto i miei dubbi, quando parlavo di finestra fluttuante [in linea di principio, si potrebbe dire "dimensione del campione"] e della statistica t per definire una tendenza piatta e la probabilità di "dove siamo" - per costruire su respingere RS o assorbire RS...

Naturalmente, se la tua caratteristica ha una distribuzione normale, ed è il fattore principale che influenza il risultato (potresti aver già definito il suo dy/dx->min)... non è un modello multifattoriale (credo che in questo caso si possa prendere il valore massimo da quelli calcolati... imho)

PER DETERMINARE LA QUOTA DEL TRATTO

lo stesso, ma invece dei valori di errore e varianza della media, usate l'errore marginale della quota (delta_w) e la varianza del tratto alternativo w(1-w)

cboe per le opzioni, nella stima dell'asimmetria mettere minuti alla data di scadenza di 2 più vicini K_opt (come attributi alternativi)...

o qualsiasi altro segno per il gusto e il colore (se non c'è l'opts)

p.s. più o meno come qui

p.p.s. è così per logica, e come implementare il calcolo dell'adeguatezza del campione nella costruzione di modelli con popolazione genetica sconosciuta è una questione di disponibilità di dati grezzi e di logica... ma 2 anni mi sembra un intervallo normale per la popolazione... imho

Per la determinazione della media:
(Alto+Basso)/2
 
Vladimir Baskakov #:
per la definizione di media:
(Alto+Basso)/2

Non voglio turbarti, ma "media", (alto+basso)/2, in senso stretto non può essere chiamato affatto, ci sono nomi più accademici per esso. Il tempo degli eventi è sconosciuto e irregolare e irregolare.

 
Maxim Kuznetsov #:

Non voglio turbarti, ma "media", (alto+basso)/2, in senso stretto non si può chiamare affatto, ci sono nomi più accademici per queste cose. La tempistica degli eventi è sconosciuta e irregolare e irregolare.

Penso che questa sia la più media delle medie.
 
Maxim Kuznetsov #:

La tempistica degli eventi è sconosciuta e irregolare.

Infatti, per abitudine perdo di vista gli "eventi" mentre considero i "segni"... - Continuo a dimenticare... Grazie per avermi ricordato la parola...! - è qui che entra in gioco il teorema di Bayes, a giudicare dalla logica, quindi credo

 
Forse è sciocco, ma non mi piace usare qualcosa di diverso da vicino. Quando ho una serie di osservazioni (scusate) da vicino, so sempre che c'è un periodo di tempo fisso tra le osservazioni (è sempre lo stesso, stabile e a me noto). Ma quando si usa basso/alto e diversi calcoli con loro, trovo..... un periodo di tempo casuale tra le osservazioni, che è sempre diverso, da un'osservazione all'altra.
 
LenaTrap #:
Forse è sciocco, ma non mi piace usare altro che chiudere. Quando ho una serie di osservazioni (scusate) da vicino, so sempre che c'è un periodo di tempo fisso tra le osservazioni (è sempre lo stesso, stabile e a me noto). Ma quando si usa basso/alto e diversi calcoli con loro, trovo..... un periodo di tempo casuale tra le osservazioni, che è sempre diverso, da un'osservazione all'altra .

sulla casualità e sempre diverso è naturalmente machanuto... che è in realtà l'intero scopo di studiare tutto questo hullabaloo - per determinare alto / basso più o meno accuratamente nel tempo e prezzo :-)

 
LenaTrap #:
Forse è sciocco, ma non mi piace usare altro che chiudere. Quando ho una serie di osservazioni (scusate) da vicino, so sempre che c'è un periodo di tempo fisso tra le osservazioni (è sempre lo stesso, stabile e a me noto). Ma quando si usa basso/alto e diversi calcoli con loro, trovo..... un periodo di tempo casuale tra le osservazioni, che è sempre diverso, da un'osservazione all'altra.

Se da applicare strettamente matematicamente, è necessario usare Open, perché solo per esso il momento della sua ricezione di tick è markoviano - è definito unicamente come un'apertura (sotto l'ipotesi di ore ideali e assenza di quotazioni mancanti). La chiusura al momento della sua ricezione del tick non può essere definita in modo univoco come chiusura fino alla fine della sezione del timeframe.

Ma è più comune lavorare con un vicino. Probabilmente, è lo stesso di quando si lavorava con le quotazioni giornaliere.

 
Aleksey Nikolayev #:

Se l'approccio matematico è rigoroso, allora si dovrebbe usare Open, perché solo per esso il momento dell'arrivo del tick è markoviano - è definito inequivocabilmente come un'apertura

Tecnicamente, la chiusura è l'unico prezzo con tempo affidabile, cioè al momento del cambio di una barra con un'altra, il prezzo è esattamente uguale alla chiusura.

Se questo primo tick si verifica 10 minuti dopo il cambio di barra, significa che il prezzo aperto sarà il prezzo di questo momento.