L'apprendimento automatico nel trading: teoria, modelli, pratica e algo-trading - pagina 819

 
Maxim Dmitrievsky:

1: decidete la dimensione del campione, il vostro campione è molto piccolo

2. cerca modelli di classificazione/regressione semplici (lineari), molto probabilmente funzioneranno per te, e se l'errore è grande, puoi provare a passare a modelli più complessi (non lineari) nella libreria alglib del terminale (sono disponibili anche alberi decisionali e foreste)

3) Non accettare mai nessun consiglio, soprattutto sul lato R :))) È ora di bandirli da questo forum.

4. Se il problema è risolvibile senza l'apprendimento automatico, è meglio non usarlo

1. Sì, questo è solo un esempio, il campione è grande nella realtà, naturalmente.

2. Grazie, naturalmente è meglio iniziare con uno semplice - penso che questa sia una nuova fase del mio sviluppo in materia di data mining.

3. Buono a sapersi sulle alternative su MQL...

4. Per ora, sto cercando di raggruppare le caratteristiche (modelli) in base al grado della loro influenza sul commercio. Temo di aver iniziato a sviluppare il mio TS in direzione del montaggio, e poi voglio accumulare idee sotto forma di segni di comportamento del mercato per respingere le mie illusioni.

 
Aleksey Vyazmikin:

1. Sì, questo è solo un esempio, il campione è grande nella realtà, naturalmente.

2. Grazie, naturalmente è meglio iniziare in modo semplice - penso che questa sia una nuova fase del mio sviluppo in materia di data mining.

3. Quindi è bene sapere delle alternative su MQL...

4. Per ora, sto cercando di raggruppare le caratteristiche (modelli) in base al grado della loro influenza sul commercio. Perché temo di aver iniziato a sviluppare il mio TS nella direzione del montaggio, e poi voglio accumulare idee sotto forma di segni di comportamento del mercato per respingere le mie allucinazioni.

http://alglib.sources.ru/dataanalysis/

tutto questo è disponibile in mql (la libreria viene fornita di serie con il terminale)

per il clustering si può usare il semplice k-means

E per la tua tabella potresti provare la regressione logistica (youtube è pieno di clip che cos'è e come usarla) (regressione logit multipla), è solo una base per dividere in classi, come nel tuo caso 0 o 1. Poi viene il perseptron multistrato, che divide anche in classi, ma in un modo più complesso (non lineare).

un albero decisionale ordinario è improbabile che funzioni, è meglio usare una foresta, sono costituiti da più alberi di questo tipo che sono partizionati in modo diverso (per esempio, come la 1a partizione verrà utilizzata non la 1a variabile, ma la 3a), poi i risultati di tutti gli alberi sono mediati e ottenere una stima più accurata e robusta. Ma se il problema risulta essere essenzialmente lineare allora lo scaffolding non è adatto, è meglio usare la regressione logistica o perseptron con 1 strato nascosto. Ecco perché si raccomanda di iniziare con i modelli lineari più semplici, e se siete soddisfatti del risultato - non preoccupatevi.

 
Aleksey Vyazmikin:

se voglio guardare l'impatto dei giorni della settimana, devo fare diversi parametri di input che segnano il giorno, o è sufficiente un parametro che segna da 1 a 5?)

Forest crea una regola che utilizza le operazioni "più" o "meno" per confrontare i valori.

Nel caso dei valori 1,2,3,4,5 - se, per esempio, avete bisogno di creare una regola che funzioni solo il mercoledì, allora ci vogliono due rami - "meno di giovedì" e "più di martedì".
Se sono parametri diversi con marcature, allora un confronto è sufficiente (marcature maggiori di zero).
Meno rami sono necessari per creare una regola, più semplice è il modello, e meglio è.

Fate entrambe le cose in generale, insieme. Una colonna con i valori 1,2,3,4,5. E altre 5 colonne con etichette.

 
Aleksey Vyazmikin:

Qualcuno ha mai fatto un confronto tra diversi algoritmi per l'efficienza, beh, se la risposta è nota, come nel mio esempio, ma per compiti più complessi?

Prevedere dati come i vostri si chiama classificazione, quando la risposta necessaria può essere solo una coppia di valori, o anche non numeri ma termini ("exit trade", "roll over" ecc.).
Le neuroniche e il boosting sono buoni con esso, possono essere addestrati su tali dati e poi utilizzati per la predizione su nuovi dati.


Capisco che il vostro obiettivo è quello di estrarre le informazioni più preziose dai vostri dati, e ottenere un set di regole leggibile. Allora la neuronica non funzionerà, estrarre regole e conoscenza dalla neuronica non è così facile.

Una foresta dà molte scelte, molti alberi (formule), e la risposta finale è determinata dal voto, dove ogni formula dà una risposta diversa, e la più popolare alla fine sarà scelta. Ma un tale disordine di regole è troppo complicato da interpretare, ci saranno molte immagini come ho aggiunto sopra, ognuna darà una risposta diversa, e il risultato sarà quello che viene colpito più spesso.

Un albero darà un'immagine come quella sopra, in casi complicati con decine/centinaia di rami nel grafico. Ma può essere facilmente interpretato e ripetuto seguendo i rami nell'immagine.

Ci sono molti modelli, scegliete quello che funziona meglio per la vostra applicazione.


Alglib in MQL può fare anche tutto questo. Ma è scomodo, ogni volta che hai il minimo cambiamento devi compilare uno script, eseguirlo, aspettare il risultato.

R o Python permettono semplicemente di rieseguire una linea di codice precedente e cambiarla in caso di errore. Tutti gli oggetti creati mentre lo script era in esecuzione rimangono in memoria e si può continuare a lavorare con loro, prevedendo ed eseguendo nuove linee di codice. Non c'è bisogno di rilanciare l'intero script dopo il minimo cambiamento, come in mql.

 
Mentre c'è una pausa, posterò un po' di testo qui per vedere se qualcuno è interessato.
 
Yuriy Asaulenko:

E fare previsioni con il 70% di fiducia su un intervallo serve a poco. Non è molto difficile da fare, ma è comunque inutile.

70% di fiducia che il 50% di precisione non è davvero molto, e il 70% di precisione è una favola o un errore di coloro che utilizzano obiettivi misti, al 70% di precisione SharpRatio >30, che è fantastico anche per ultra HFT

 
SanSanych Fomenko:

Per la centesima volta:

1. il data mining è obbligatorio. è obbligatorio iniziare selezionando solo i predittori che hanno un IMPATTO sulla variabile obiettivo. E poi tutto il datamining.

2. Ci sono due modelli:

3. formazione di modelli con convalida incrociata, se possibile

4. valutazione dei modelli al di fuori del file di allenamento

5. Esecuzione del test nel tester.


Per la centesima volta TUTTI i passi sono obbligatori!


Avendo fatto tutto questo, si può fare l'ipotesi che il depo non si venda immediatamente!


Andiamo, uomini! Finisci di frequentare il forum e con tranquilla gioia di attuare il piano delineato per R.


Tre urrà!

Sto solo scherzando, sono proprio come te, sto cercando di insegnare alla gente ad usare ZZ come obiettivo, sono stato ingenuo e non ho capito il tuo piano malvagio :)

 
Aliosha:

Va bene, sto solo scherzando, mi sto agitando come te per usare ZZ come obiettivo, sono stato solo ingenuo e non ho capito i tuoi piani insidiosi :)

Qui devo chiarire di nuovo: non mi sto agitando per ZZ - è solo molto chiaro per i sistemi di trading di tendenza.

E l'obiettivo e i predittori all'obiettivo sono tutti estremamente complicati e molto costosi. E il modello è abbastanza facile da prendere. Ci sono momenti in cui un tipo è categoricamente inadatto all'obiettivo e ai suoi predittori e un altro tipo è adatto. in generale si dovrebbe sempre provare una dozzina o due modelli.

 
Aliosha:

Il 70% di certezza che il 50% di precisione in realtà non fa molto, e il 70% di precisione è una favola o un errore di chi usa obiettivi misti, al 70% di precisione SharpRatio >30, questo è fantastico anche per ultra HFT

Ancora una volta, per coloro che non capiscono. Il 70% è la realtà. Al 70% dell'intervallo di tempo possiamo facilmente fare delle previsioni giustificabili.

La questione dell'inutilità di tale previsione è diversa. Di queste previsioni giustificate al 70% solo un quarto o meno è realistico per entrare in un trade, cioè solo il ~17% dell'intervallo. Tuttavia, dato che non sappiamo a priori dove la previsione si giustifica, e il restante 30% ci dà una parte significativa sia dei trade falliti che di quelli mancati "corretti", è impossibile implementare il 70% di previsioni affidabili.

 
Aliosha:

Va bene, sto solo scherzando, sono proprio come te nell'agitare le persone ad usare ZZ come obiettivo, sono stato solo ingenuo e non ho capito i tuoi piani malvagi :)

L'insidioso piano virale "ZZ-01" è stato sviluppato diversi anni fa in un
in un laboratorio segreto. Fa ha agito solo come suo portatore. Eh, Alyosha...