L'apprendimento automatico nel trading: teoria, modelli, pratica e algo-trading - pagina 1487

 
Aleksey Vyazmikin:

Ecco perché dobbiamo dare delle stime quando ordiniamo i predittori e i loro valori e non prendere quei predittori con valori (intervalli) che sono molto affollati, ma dare la preferenza a quelli che sono distribuiti su tutto il campione.

Tutto sembra sempre molto buono sul backtest)
Suppongo che tu abbia bisogno di un forward uniforme? La foresta non sa nulla dell'attaccante in formazione.
 
elibrario:
Beh, tutto sembra sempre molto buono sul backtest)
Immagino che tu abbia bisogno di un'uniforme in avanti? La foresta non sa nulla dell'attaccante in formazione.

La valutazione dovrebbe essere sui due campioni coinvolti nella formazione.

 
Aleksey Vyazmikin:

La valutazione dovrebbe essere sui due campioni coinvolti nella formazione.

il secondo è la convalida?
 

Poi ci sarà un adattamento con la trama di convalida. Anche se può funzionare se la convalida è più grande dell'allenamento. Nel NS di Ivan Butko, l'addestramento è su una piccola trama e la convalida è su una trama diverse volte più grande. Di solito consideriamo la convalida del 15-25% di tutti i dati, ma nel suo video è circa l'80%.

 
elibrario:
il secondo è la convalida?

Sì, se si applica.

In generale, penso che più grande è il campione, meglio è - è una questione di robustezza del predittore, non solo di apprendimento.

Potrebbe essere possibile pre-elaborare i dati, per raggruppare solo gli intervalli di valori predittori che non sono rari, ma che sono fortemente distorti dal campione.

Sostituirli convenzionalmente con -1 e vietare di fare spaccate iniziali su di essi, almeno fino a una profondità di 2-3.

 
elibrarius:

Poi ci sarà un adattamento con la trama di convalida. Anche se può funzionare se la convalida è più grande dell'allenamento. Nel NS di Ivan Butko, l'addestramento è su una piccola trama e la convalida è su una trama diverse volte più grande. Qui di solito abbiamo considerato varianti con convalida del 15-25% di tutti i dati, e nel suo video circa l'80%.

Non ci sarà un grande adattamento, perché non ci alleniamo essenzialmente sulla convalida, ma prendiamo anche informazioni aggiuntive sulla struttura del mercato.

 
Aleksey Vyazmikin:

Sì, se si applica.

In generale, penso che più grande è il campione, meglio è - è una questione di robustezza del predittore, non solo di apprendimento.

Potrebbe essere possibile pre-elaborare i dati, per raggruppare solo gli intervalli di valori predittori che non sono rari, ma sono molto affollati nel campione.

Sostituirli convenzionalmente con -1 e vietare di fare spaccate iniziali su di essi, almeno fino a una profondità di 2-3.

Troppo complicato... L'algoritmo standard di costruzione degli alberi è semplice e veloce.
Aleksey Vyazmikin:

Non ci sarà nessun aggiustamento speciale, perché non stiamo imparando sulla convalida, prendiamo solo informazioni aggiuntive sulla struttura del mercato da essa.

L'unica variante accettabile è se la convalida è commisurata o superiore alla formazione.
E arriviamo al punto in cui dobbiamo semplicemente includere la convalida nella trama di allenamento.
 
Graal:

No, che tipo di svm è questo "Parzen window", kernel smoothing, e"quasi-ottimale" nel senso che è quasi perfetto (Mitchell lo aveva da qualche parte), ma solo molto lento, ogni iterazione - ordinamento dell'intero dataset ad un nuovo punto e convoluzione con il kernel

Non sono sicuro dell'effetto che avrà sulla non stazionarietà... e se è lento, è difficile perfino montecarrelare

imho il problema principale è il ridimensionamento/trasformazione dei dati, l'estrazione dei cicli poiché anche la regressione non lineare o SVM danno buoni risultati se i modelli si ripetono (su VR artificiale)

cioè i problemi con la selezione dei modelli sono inverosimili
 
Maxim Dmitrievsky:

il problema principale è scalare/convertire i dati, evidenziando i loop

Sì, esattamente.

 
elibrario:
Troppo complicato... L'unica variante accettabile è se la convalida è commisurata o superiore alla formazione.
E arriviamo al punto in cui abbiamo solo bisogno di includere la convalida nella trama di allenamento.

Gli algoritmi standard sono progettati per lavorare con fenomeni stazionari, sistemi chiusi, quindi lì qualsiasi informazione è considerata utile a priori e non c'è una valutazione dal punto di vista della casualità, ma solo la possibilità di utilizzarla per il compito (classificazione per target), mentre noi abbiamo molto rumore e ho proposto un modo logico per combatterlo.

E sì, mi sono allontanato dalla convalida in quanto tale nella raccolta dell'erbario, lasciando i criteri di valutazione delle foglie, compresa l'efficienza sulle trame temporali. Ora ho più di 50 mila foglie di tutte le varianti dell'albero, di cui solo circa 200 sono selezionate come segnale e 600 (3 per foglia di segnale) come filtri, migliorando significativamente i risultati (sulla maggior parte dei periodi).

Dobbiamo assumere che tutto quello che possiamo fare è sviluppare un algoritmo per il miglior adattamento ai dati, perché non conosciamo il futuro e ci sono molte variazioni, anche sulla base dei valori predittivi disponibili. E se siamo fortunati, riusciremo a trovare un modello che continuerà ad esistere per qualche tempo, quindi è importante cercare un tale modello con certi criteri, e la logica suggerisce che almeno dovrebbe essere un modello che si verifica in tutto il campione. Ecco perché il compito è quello di creare un algoritmo che crei molti di questi modelli e costruisca alberi da essi.

Un semplice esempio di perootooting la protezione da cui sarà possibile è rilevare una parte di un campione con una certa gamma di prezzi a cui è stato fissato un lungo flat - quando si allena ora otterremo due gamme di prezzo (o ritorni dai TF superiori) a cui dovremmo commerciare, ma in futuro un flat difficilmente si verificherà nella stessa parte. E con l'approccio suggerito da me, con le stesse caratteristiche, è più probabile che i livelli di strike saranno trovati come significativi per la generazione di eventi.