L'apprendimento automatico nel trading: teoria, modelli, pratica e algo-trading - pagina 1012

 
Aleksey Panfilov:

Molto interessante, puoi approfondire la misurazione della capacità predittiva?

E soprattutto cosa misurare?

Ho scritto, dato grafici, postato codice - il tutto è stato sepolto in queste 1000 pagine...

Troppo pigro per ripetermi. Il più usato qui è vtreat, io non lo uso. La cosa principale è pensare a questo argomento e scartare tutto il resto.

 
Aleksey Vyazmikin:

Quindi non hai sollevato la questione di quali dovrebbero essere le impostazioni ZZ?

Il parametro ZZ è diverso per ogni strumento e timeframe. Per esempio per EURUSD M15 un buon valore iniziale di 15 pips (4 cifre). Dipende anche dai predittori che usate. È una buona idea ottimizzare tutti i parametri dei predittori e ZZ. Quindi è auspicabile avere predittori non parametrici, rende la vita molto più facile. Come tali, i filtri digitali mostrano buoni risultati. Usando gli ensemble e la combinazione a cascata ho ottenuto una precisione media = 0,83. Questo è un ottimo risultato. Domani manderò un articolo per la verifica, che descrive il processo.

Buona fortuna

 
Vladimir Perervenko:

Il parametro ZZ è diverso per ogni strumento e timeframe. Per esempio per EURUSD M15 un buon valore iniziale di 15 pips (4 cifre). Dipende anche dai predittori che usate. È una buona idea ottimizzare tutti i parametri dei predittori e di ZZ. Quindi è auspicabile avere predittori non parametrici, rende la vita molto più facile. Come tali, i filtri digitali mostrano buoni risultati. Usando gli ensemble e la combinazione a cascata ho ottenuto una precisione media = 0,83. Questo è un ottimo risultato. Domani manderò un articolo per la verifica, che descrive il processo.

Buona fortuna

Estremamente interessante. Non vedo l'ora.

 
Graal:

Se potete condividere le vostre file di offerta e domanda del 2004 per la data attuale, ci proverò, di solito imparo 1-3 anni e provo per il 20-30%.

set di dati, lern e test e serie grezze da ducas

Bella curva :) Ma è improbabile che incuriosisca qualcuno, non è chiaro che tipo di software, come ha calcolato questa curva. Sui vostri set di dati ho ottenuto non molto più del 52% di precisione, dal modo in cui finite i marcatori prima dei chip, li ho tagliati nel mio. Ho bisogno di aggiungere altri prezzi tagliati da cui avete ottenuto il lern e il test, per poi eseguire il risultato del classificatore sul bulltester.

PS: in effetti qualsiasi tester curve di rendimento e come si è rivelato rapporti di qualità di classificazione non può dimostrare nulla al pubblico. Qualche tempo fa in un gruppo chiuso di algotrading c'era un'idea interessante di concordare un'interfaccia per lo scambio di modelli già pronti in dll C++ (che comunque tutti gli algotraders e i machineliners usano) che prendono come input un mucchio di righe in json passato e poi integrato con nuovi dati (candlesticks, ticks, tickans, ecc.), e visualizza le previsioni. In breve, l'idea è quella di scambiare una sorta di "scatole nere" standardizzate che possono poi essere testate quando arriva il futuro, sul tester, quando i dati sono disponibili. Questo è l'unico modo per capire se il modello funziona o no, beh, si può anche usare la web-api, ma è ingombrante tenere una VPN per questo, soprattutto se ci sono molti modelli. E così tutte queste cifre precisione, Sharp rapporto ecc hanno poco significato, ci sono 100500 modi non consapevolmente in forma e altrettanti consapevolmente in forma e nessuno lo capirà, avete bisogno di più prove vestigiali.

 
Maxim Dmitrievsky:

Se avete la classificazione, potete stimare con l'errore di classificazione relativo o logloss (entropia incrociata), se la regressione, rmse farà. Si può anche misurare il differenziale di errore su una traccia e un test e ottenere la più piccola differenza.

Solo le impostazioni sono scelte in modo che la traina, la convalida e il test abbiano più o meno la stessa separazione nelle classi previste.

Proprio di questo si tratta, una foresta può essere facilmente sovrallenata anche da alberi poco profondi, e certamente se gli alberi sono creati per pulire i fogli, ci sarà un sovrallenamento lì con una probabilità maggiore.

Quindi come si può evitare tutto questo? Beh, ci risiamo con "la spazzatura dentro la spazzatura fuori". Esistono predittori non "spazzatura" in natura.

L'idea è di prendere ROC_AUC e il valore lungo l'asse orizzontale dovrebbe smettere di crescere se c'è qualcosa di buono nel predittore. Ma dopo averle cercate tutte, non ne ho trovata nessuna.

Ho disegnato una linea rigorosamente piatta verso l'alto.

Ma nessuno degli indicatori farà salire il mercato per storia, certo che no).

L'ho provato molte volte ma non mi ha impressionato molto.

 
forexman77:

Solo le impostazioni sono scelte in modo che l'apprendista, la convalida e il test abbiano più o meno la stessa suddivisione delle classi previste.

Che senso ha tutto questo, una foresta può essere facilmente sovrallenata anche da alberi poco profondi, e certamente se gli alberi sono creati fino a foglie pure, ci sarà sovrallenatura con una probabilità maggiore.

Quindi come si può evitare tutto questo? Beh, ci risiamo con "la spazzatura dentro la spazzatura fuori". Ci sono predittori non "spazzatura" in natura.

L'idea è di prendere ROC_AUC e il valore lungo l'asse orizzontale dovrebbe smettere di crescere se c'è qualcosa di buono nel predittore. Ma dopo averle cercate tutte, non ne ho trovata nessuna.

Ho disegnato una linea rigorosamente piatta verso l'alto.

Ma nessun indicatore farà mai salire il mercato per storia).

Se l'errore sul grafico convalidato è lo stesso della traccia, tutto dovrebbe funzionare. Ovviamente non lo fa

 
Maxim Dmitrievsky:

Se l'errore nella sezione valid. è lo stesso di quello dell'apprendista, allora tutto dovrebbe funzionare. Ovviamente non è così.

Beh, non proprio identici, ma vicini. Se completamente identico, è un albero di profondità tre, l'immagine è stata data.

Viene scelta la profondità 15, che ha mostrato il test più o meno.

Tra circa 20 minuti posterò la ripartizione per classe.

 

Profondità tre:

[[8010 7122]
 [7312 8410]]
трайн наоборот

[[8026 7105]
 [7209 8512]]
трайн 

[[5538 5034]
 [5117 5395]]
предсказание по обученной модели на трайн, эти данные не участвовали в обучении.
Поясню данные для теста берутся не из не использованных выборок, это данные, которые вообще не доступны для
алгоритма в процессе обучения(находятся вне временного промежутка участка обучения).

Profondità 15:

[[7667 7464]
 [7227 8494]]
трайн наоборот

[[14430   702]
 [  661 15061]]
трайн 

[[5405 5167]
 [4958 5554]]
тест

Allo stesso tempo, anche se la profondità 15 porta chiaramente al sovrallenamento, l'attaccante è migliore con essa. Anche sugli altri modelli che ho. Quando non è pesantemente overfitting.

In avanti:

15

3

Risulta prevedere i tag della classe che stai cercando il 4-6% in più del negativo...

 
Gianni:

Bella curva :) Ma è improbabile che incuriosisca qualcuno, non è chiaro che tipo di software, come ha calcolato questa curva. Sui vostri set di dati ho ottenuto non molto più del 52% di precisione, a proposito, i vostri marcatori finiscono prima dei chip, li ho tagliati nel mio. Ho bisogno di aggiungere altri prezzi tagliati da cui avete ottenuto il lern e il test, per poi eseguire il risultato del classificatore sul bulltester.

PS: in effetti qualsiasi tester curve di rendimento e come si è rivelato rapporti di qualità di classificazione non può dimostrare nulla al pubblico. Qualche tempo fa in un gruppo chiuso di algotrading c'era un'idea interessante di concordare un'interfaccia per lo scambio di modelli già pronti in dll C++ (che comunque tutti gli algotraders e i machineliners usano) che prendono come input un mucchio di righe in json passato e poi integrato con nuovi dati (candlesticks, ticks, tickans, ecc.), e visualizza le previsioni. In breve, l'idea è quella di scambiare una sorta di "scatole nere" standardizzate che possono poi essere testate quando arriva il futuro, sul tester, quando i dati sono disponibili. Questo è l'unico modo per capire se il modello funziona o no, beh, si può anche usare la web-api, ma è ingombrante tenere una VPN per questo, soprattutto se ci sono molti modelli. E tutte queste cifre, precisione, rapporto Sharp, ecc. non significano molto, ci sono 100500 modi di non regolare coscientemente e altrettanti coscientemente e nessuno lo capirà, avete bisogno di prove migliori.

Ci sono tuple nulle di caratteristiche all'inizio dei campioni di dati di allenamento e di test, probabilmente non c'era abbastanza storia per calcolarle, e l'algoritmo non l'ha controllato, quindi per un lavoro corretto dovrebbero essere rimosse.

Dov'è questo gruppo, se non è segreto, ed è possibile cercarlo?

 
forexman77:

Profondità tre:

Profondità 15:

Allo stesso tempo, anche se la profondità 15 porta chiaramente al sovrallenamento, l'attaccante è migliore con essa. Anche sugli altri modelli che ho. Quando non è pesantemente overfitting.

In avanti:

15

3


Penso che tu debba ridurre il numero di trade, sembra su ogni barra...