L'apprendimento automatico nel trading: teoria, modelli, pratica e algo-trading - pagina 942

 
Olga Shelemey:
Grazie. Lo leggerà sicuramente più tardi. In questo momento sta dormendo, leggendo un po' di Shelepin. Ha detto di non disturbarlo.

OK.

Che trovi il teorema di Tuckens.

 
Aleksey Vyazmikin:

Ho messo tutto in una tabella secondo questo principio

Ho anche fatto un predittore grouping by arr_TimeH - forse sarà utile in questa forma.

Sto allegando i file.

Il programma che uso ha la seguente immagine: ci sono solo il 30,81% dei risultati


Tuttavia, se sommiamo per esempio gli errori -2 e -1 e aggiungiamo le soluzioni trovate correttamente e poi le contrapponiamo a quelle sbagliate e ignoriamo l'obiettivo numero 3 perché è un filtro e non influenzerà i risultati finanziari, allora otterremo il seguente quadro

in questo caso, l'errore sarà del 49,19% per entrare nella posizione, che non è così male!

 
Maxim Dmitrievsky:

Avete sperimentato con kfold alglib? migliora i risultati? Ho visto in uno dei tuoi vecchi post che non sembra mescolare il campione. Deve proprio farlo?

Qualche conclusione su cosa sovrallena meno - foresta o mlp? sugli stessi dati. Ho il sospetto che per i compiti di regressione la foresta funziona in modo storto e restituisce errori storti (molto piccoli), per le norme di classificazione.

2. Ho visto persone interessate all'OpCl, si è pensato di riscrivere NS ad esso? Per esempio, ho rinunciato del tutto a GA come un incubo senza senso, tutto è ora addestrato in 1 thread su 1 core. Si potrebbe accelerare su Cl (anche se così veloce). Oppure, se ti alleni su Spark, è comunque parallelo e non ha senso.

3. Più o meno capito cosa si mette sul git e come lo si applica. Grande lavoro interessante, rispetto! :)

Quando ho iniziato a fare ricerche sulle reti, il risultato è stato https://github.com/Roffild/RoffildLibrary/blob/master/Experts/Roffild/Alglib_MultilayerPerceptron.mq5. Sono passato attraverso diversi set di predittori in diverse sequenze (con e senza shuffling) - il parametro File_Num è responsabile di questo. E, naturalmente, ho provato a mettere lo stesso numero di record per due classi.

Il problema di questa rete è che non esiste un criterio chiaro per selezionare un campione valido. Per esempio, quando si riconoscono immagini di frutta, si può identificare chiaramente dove sono una mela e un'arancia. Con i grafici di prezzo non esiste un criterio di selezione al 100% e quindi nemmeno un criterio di riqualificazione al 100%.

https://github.com/Roffild/RoffildLibrary/blob/master/Experts/Roffild/Alglib_RandomForest.mq5

Una foresta casuale è meno dipendente dal rumore e ha più probabilità di restituire lo stesso risultato in diverse condizioni di campionamento. Per esempio, nel grafico.

I dati blu e gialli sono quasi identici. Anche se mi aspettavo più differenza perché una parte del campione è stata rimossa per la seconda foresta.

E secondo me alcune persone cercano di ottenere il prezzo di apertura di un ordine usando il netto o la foresta, ma dimenticano che la presa di profitto avviene quando l'ordine viene chiuso. Per risolvere questo problema è apparso https://github.com/Roffild/RoffildLibrary/blob/master/Include/Roffild/OrderData.mqh, ma questa classe è usata esattamente come un "genitore".

OpenCL è necessario solo per l'addestramento della rete. Per i calcoli finali in cui la rete o la foresta è già stata addestrata, OpenCL non è di alcuna utilità perché il tempo necessario per trasferire i dati alla scheda video è molto lungo. E gli algoritmi per recuperare i dati dalla rete o dalla foresta sono davvero molto semplici e la CPU li gestisce molto bene.

Spark in generale mette in parallelo i calcoli non solo tra i core di un singolo computer, ma può anche utilizzare un'intera rete di computer. È uno standard per il calcolo interserver. Per esempio, di solito compro 32 core su amazon per 0,25 dollari/ora per ottenere rapidamente una foresta casuale finita.

 
Roffild:

Il problema di questa rete è che non esiste un criterio chiaro per selezionare un campione valido. Per esempio, quando si riconoscono immagini di frutta, si può identificare chiaramente dove c'è una mela e dove c'è un'arancia. Con i grafici di prezzo non c'è un criterio di selezione al 100% e quindi nemmeno un criterio di riqualificazione al 100%.

https://github.com/Roffild/RoffildLibrary/blob/master/Experts/Roffild/Alglib_RandomForest.mq5

Una foresta casuale è meno dipendente dal rumore e restituisce più spesso lo stesso risultato in diverse condizioni di campionamento. Per esempio, nel grafico

Questo perché in NS devi raccogliere l'architettura, mentre le foreste funzionano sempre allo stesso modo, sì :)

E per prendere un'architettura, si dovrebbe mappare lo spazio multidimensionale delle caratteristiche e capire quale strato è responsabile di cosa, o semplicemente usare l'istinto. Ma un NS raccolto correttamente, in teoria, dovrebbe dare risultati migliori e anche in termini di overfit.

non tutte le biblioteche ancora, grazie, indagherò ulteriormente

 
Incubo
 
Più lontano nel bosco, più grande è la legna da ardere...
 

Un altro utile libro in russo.

Джулли А.,Пал С. - Библиотека Keras - инструмент глубокого обучения [2018, PDF, RUS] :: RuTracker.org
  • rutracker.org
Автор : 2018 : Джулли А.,Пал С.: ДМК Пресс : 978-5-97060-573-8 : Русский: PDF : Отсканированные страницы : 298: Книга представляет собой краткое, но обстоятельное введение в современные нейронные сети, искусственный интеллект и технологии глубокого обучения. В ней представлено более 20 работоспособных нейронных сетей, написанных на языке...
 
Vladimir Perervenko:

Un altro utile libro in russo.

Come si trova Keras? È meglio di Darch o è lo stesso? Può imparare più velocemente con gli stessi dati, numero di epoche, ecc.
 
elibrario:
Come ti è sembrato Keras? È meglio di Darch o le capacità sono le stesse? È più veloce imparare con gli stessi dati, numero di epoche, ecc.

Nessun paragone. Kegas - possibilità illimitate in termini di struttura, formazione e personalizzazione, molti esempi e documentazione dettagliata. Separatamente, riguardo a TensorFlow - si sta sviluppando molto velocemente (già 1.8). È chiaro che questo ha i suoi pro e i suoi contro. Non è così veloce da imparare, bisogna fare un po' di ginnastica in più. È difficile ottimizzare gli iperparametri. Altrimenti questo è l'obiettivo principale per il futuro.

Buona fortuna

 
Aleksey Vyazmikin:

Non ho ancora fatto amicizia con R, quindi sarei interessato a vedere cosa ti viene in mente!

Fatto una decomposizione del TF settimanale, 1400 barre (quasi tutta la storia disponibile nel terminale)

Non visualizza le date qui, quindi non è molto comodo. Dovrò riscriverlo in Plot o in un indicatore per segnarlo su un grafico.

Ci sono tscc più pronunciati sulle mod più piccole. E il più grande è +- 14 anni (2 semiperiodi da 28 anni), che si divide in 4 cicli di 7 anni (come ho detto). Inoltre, l'ultimo ciclo di 7 anni è finito all'inizio di quest'anno (più o meno), suggerendo che non ha molto senso insegnare la griglia in date precedenti

I cicli nel mezzo non sono così pronunciati

E non per scervellarci, abbiamo solo bisogno di far entrare tutti i mod nella NS, in più non sono correlati.

Allora riconoscerà i diversi cicli, e forse no, una questione filosofica, come si fa così sarà :)