L'apprendimento automatico nel trading: teoria, modelli, pratica e algo-trading - pagina 883

 
Maxim Dmitrievsky:

le foreste regolari e le foreste casuali e le foreste ad albero sono la stessa cosa :) La foresta è un insieme di alberi

Le caratteristiche sono collassate, cioè ce ne sono meno o cosa? Per caratteristiche collassate intendiamo che cambiano raramente e/o sono categoriche come gli uno e gli zero (beh, questa è una comprensione di alto livello)

No, collassato significa che una variabile ha molti valori, ma il numero di combinazioni rimane lo stesso. Ho allegato un file, simile a quello dell'anno scorso per gli acquisti, ma in un'altra rappresentazione.

File:
 
Vizard_:

La binarizzazione uccide molte informazioni utili.

Che differenza fa come viene presentata l'informazione, non cambia...? ???

 
Maxim Dmitrievsky:

Non ho niente contro SanSanych personalmente, è un uomo molto competente e discreto, facendo qualcosa di suo sconosciuto, probabilmente ha bisogno di R

Preferisco python intuitivamente, anche se non ho inventato nulla di speciale per renderlo wow, ma continuo a studiarlo con calma, vediamo se aiuta :D

R è un ambiente meraviglioso, che ha molti vantaggi rispetto a Python. Soprattutto, R è un ambiente di modellazione. Rispetto a Python, è possibile ottenere risultati più veloci e più facili in R.

È chiaro che Python, in combinazione con i moduli, ha i suoi vantaggi.

A proposito, per RF, sembra che qui come in NS, possiamo fare a meno della provata selezione di predittori e usare direttamente la BP normalizzata come tale.

 
SanSanych Fomenko:

Foresta normale o foresta casuale, o entrambe?

In rattle, eseguite entrambi i modelli di foresta chiamati tree e ada. Aprite la scheda del registro e vedete il codice R, i riferimenti ai pacchetti utilizzati e potete capire le loro differenze.

Capisco la differenza tra albero e scaffolding (o penso di capirla) lo scaffolding è migliore da usare quando c'è più incertezza nei dati, cioè un modello meno stabile poiché lo scaffolding prende decisioni per voto, cosa che avviene su alberi casuali (indipendenti a causa dell'accorciamento), o mi sbaglio? E l'opzione "adad" non ce l'ho, non è nello screenshot, c'è "Forest" - non è così?

SanSanychFomenko:

Ho messo Rattle e R (beh, e glitches tutta questa roba ...),

Non capisco quali glitch, ultimamente ha eseguito un numero enorme di modelli - tutti normali

Ho avuto alcuni problemi con il download dei pacchetti - dice che è iniziato, ma non li scarica, poi li mette giù e dice che non ha le librerie di cui ha bisogno, poi si blocca quando legge i dati da un file... Beh, il processo di lavoro non è visibile - non è chiaro quanto tempo aspettare per il completamento. Finora sto parlando di tali bug. Una volta rimosso un compito dal dispatcher...

SanSanych Fomenko:


L'immagine da sonaglio, hai incompiuto. Come minimo devi andare alla scheda successiva e vedere i risultati lì.

Ma la cosa più importante è dividere il file sorgente in due parti con nomi diversi (molto probabilmente dovrete farlo in R).

Nel primo file costruire tutti e sei i modelli e guardare il loro test di stima, convalidare. Poi il nome del secondo file inserirlo nel campo R Dataset. E su di esso si ottengono di nuovo dei segni. Tutte le stime devono essere approssimativamente uguali!

Se queste stime non coincidono, e il secondo file mostra risultati peggiori dei modelli, allora significa che i modelli sono sovrallenati e la ragione di ciò è il rumore (non legato alla variabile obiettivo) dei predittori.


Questo è il momento della verità: o avete un insieme di predittori rilevanti per una particolare variabile obiettivo o non lo avete. E nessun modello può risolvere questa sfortunata circostanza. Poi inizia lo stupido lavoro di selezione di una coppia di "target-predittori", i modelli non sono affatto interessanti, trova una coppia, poi i modelli sono solo semi in R, ne avrai una dozzina in un giorno e ne farai degli ensemble.

Quindi come si fa a tagliare un file con R, è necessario usare un algoritmo speciale? Interessante vedere cosa succede alla fine.

 
SanSanych Fomenko:


2. Nessun problema con R EA: tutto funziona ed è molto stabile.

Funziona anche per MT5? Dove posso trovare esempi di codice? Penso che sarebbe meglio usare l'indicatore per inviare le informazioni poiché in optimizer sarà più facile confrontarle quando ci si connette all'EA e mostrare visivamente cosa pensa la foresta della situazione del mercato in un dato momento.

 
Yuriy Asaulenko:

R è un ambiente meraviglioso, con molti vantaggi rispetto a Python. Il principale è che R è un ambiente di modellazione. Rispetto a Python, i risultati in R possono essere ottenuti più velocemente e più facilmente.

È chiaro che Python, in combinazione con i moduli, ha i suoi vantaggi.

A proposito, per quanto riguarda RF, sembra che qui, così come in NS, sia possibile fare a meno della ricerca e selezione dei predittori e utilizzare direttamente la BP normalizzata come tale.

si può anche usare il non normalizzato

 
Maxim Dmitrievsky:

Si può fare anche senza razionamento.

Non funzionerà. Ci deve essere un chiaro riferimento della sezione BP a un certo livello, zero, per esempio.

 
Aleksey Vyazmikin:


Capisco la differenza tra alberi e foreste (o penso di capirla) le foreste sono migliori da usare quando c'è più incertezza nei dati, cioè un modello meno stabile poiché le foreste prendono decisioni tramite votazione, cosa che viene fatta da alberi casuali (indipendenti a causa dell'accorciamento), o mi sbaglio?

Non lo so, sto giudicando dai risultati.

E l'opzione "adad" non ho, non è nello screenshot, c'è "Forest" - non è questo?

In ordine:


Albero

Il pacchetto "rpart" fornisce la funzione"rpart".


Aumenta

# Extreme Boost

# Il pacchetto `xgboost' implementa l'algoritmo extreme gradient boost.


SVM

# Macchina vettoriale di supporto.

# Il pacchetto 'kernlab' fornisce la funzione 'ksvm'.


Lineare

# Modello di regressione

# Costruire un modello di regressione.


Rete neurale

# Rete neurale

# Costruisci un modello di rete neurale usando il pacchetto nnet.

libreria(nnet, quietly=TRUE)


A proposito, ho fatto questo lavoro per voi - potete vedere tutto in Log voi stessi. Se avete un'altra versione di rattle, la lista potrebbe essere diversa.


Quindi, come tagliare i file con R, è necessario utilizzare un algoritmo speciale? È interessante vedere quale sarà il risultato.

Per indice, per esempio: [1:2000,], [2001:4000,]. È importante non interrompere la sequenza temporale naturale nel secondo file

 
Aleksey Vyazmikin:

Funziona anche per MT5? Dove posso trovare esempi di codice? Penso che sarebbe meglio fornire informazioni per indicatore, perché l'ottimizzatore può facilmente confrontarli quando si collega all'EA, e vedere visivamente cosa pensa la foresta sulla situazione del mercato in un dato momento.

La libreria è modificata secondo la mia richiesta - avevo bisogno di un tester di MT5. Ho fatto i conti, sono troppo pigro per cercarli, forse li ho ripuliti.

Dai un'occhiata agli articolidi Vladimir Perervenko

Se siete interessati alle reti, è l'ultimo in questo settore, R, consiglieri, l'uomo è disponibile sul sito
 
Aleksey Vyazmikin:

No, collassato, il che significa che una variabile ha molti valori, ma il numero di combinazioni rimane lo stesso. Ho allegato un file analogo all'ultimo per gli acquisti, ma in una rappresentazione diversa.

Provate come volete :) La cosa principale è non dimenticare di leggere la teoria che non farebbe qualcosa di stupido, e il pacchetto di cui avete bisogno non è difficile, sono pieni di loro, e anche online - non è necessario installare nulla. C'è un boom dei dati, "è" ovunque

Non ho tempo per analizzare gli archivi, sto lavorando alle mie cose