L'apprendimento automatico nel trading: teoria, modelli, pratica e algo-trading - pagina 1237

 
Dmitry:

Due anni fa ho scritto qui Maximka che NS è un giocattolo come una bomba nucleare. Che se QUALSIASI altro modello dà risultati almeno soddisfacenti, non è consigliabile usare NS - trovano qualcosa che non esiste e non ci si può fare niente.

Con gli alberi è una buona cosa, ma è meglio usare le impalcature.

Ho intenzione di sperimentare con xgboost via R, tutto ciò di cui ho bisogno sembra essere lì. E sembra essere molto veloce e utilizza la memoria in modo ottimale.
Riuscirà a gestire 100.000 campioni con ad esempio 100 predittori?
 
elibrario:
Ho intenzione di sperimentare con xgboost attraverso R, penso che abbia tutto ciò di cui ho bisogno. E sembra essere molto veloce e utilizza la memoria in modo ottimale.
Riuscirà a gestire 100.000 campioni con ad esempio 100 predittori?

) Non so - questo è per Fa, credo.

Ho giocato con modelli semplici - ho giocato con il binario.

 
elibrario:
Ho intenzione di sperimentare con xgboost attraverso R, penso che tutto ciò di cui ho bisogno sia lì. E sembra essere molto veloce e utilizza la memoria in modo ottimale.
Può gestire 100.000 campioni con ad esempio 100 predittori?

davvero veloce

Lo testerò sui miei dati non appena avrò imparato a salvare le matrici in mql in un file normale (che è una rottura di palle))

non ho alcuna differenza di qualità tra mqlp e logs... quasi nessuna differenza tra qualsiasi cosa e qualsiasi cosa da modelli normali, ma sono interessato a provare il boisting da solo, forse è davvero 40 volte meglio... ma in effetti potrebbe essere un po' meglio.

per quanto riguarda il libro di cui sopra - quando vedo troppe parole e interiezioni inutili nel testo, capisco immediatamente che l'autore è pazzo e lo chiudo ))

 
Maxim Dmitrievsky:

davvero veloce

Lo testerò sui miei dati non appena avrò imparato a salvare le matrici in mql in un file normale (che è una rottura di palle))

non ho alcuna differenza di qualità tra mqlp e logs... quasi nessuna differenza tra qualsiasi cosa e qualsiasi cosa dai modelli normali, ma vorrei provare a boisting io stesso, forse è davvero 40 volte meglio... ma in effetti potrebbe essere un po' meglio.

Per quanto riguarda il libro - quando vedo che il testo è pieno di troppe parole e interiezioni superflue, capisco immediatamente che l'autore è pazzo e lo chiudo ))

Il NS a causa del BackProp quando c'è molto rumore non può trovare dati importanti (e abbiamo tutte le barre lontane sono quasi rumorose, è essenzialmente importante se sono venuti da sopra o sotto).

Con le foreste, non ho ancora capito come trattano il rumore (a parte il fatto che è un voto di molti alberi diversi).


Può il singolo albero stesso sopprimere il rumore? (Ricordo da quello che ho letto un anno fa che può memorizzare completamente il campione insieme al rumore)

 
elibrarius:
NS non può trovare dati importanti con molto rumore (e tutte le barre lunghe sono quasi rumorose, cioè non importa se vengono dall'alto o dal basso).

Con le foreste, non ho ancora capito come trattano il rumore (a parte il fatto che è un voto di molti alberi diversi).


Può il singolo albero stesso sopprimere il rumore? (Da quello che ho letto un anno fa, ricordo che può memorizzare completamente il campione insieme al rumore)

allo stesso modo gli insiemi di reti neurali sono costruiti su bagging e si ottiene la stessa cosa di una foresta

devi capire che una foresta è solo un caso speciale di bagging, invece di alberi puoi ficcarci dentro qualsiasi cosa tu voglia, qualsiasi modello debole. Un singolo albero è un modello elementare che non può sopprimere nulla

la foresta "più o meno" non si riqualifica a causa del campionamento casuale, ma in realtà si riqualifica molto facilmente e senza pretese

entrambi hanno bisogno di essere regolarizzati o tramite Decay (gradiente di passo), arresto anticipato, o tramite il parametro r della foresta, o preprocessing, ma tutti questi miglioramenti sono di solito entro il 5-10%. Sui cattivi dati entrambi i modelli si comportano ugualmente male

riguardo al boosting (estremo, non GBM) dicono che non si sta riqualificando molto, dovresti guardarlo, non posso dire nulla

https://www.analyticsvidhya.com/blog/2016/03/complete-guide-parameter-tuning-xgboost-with-codes-python/

 
Vizard_:

Mio stimato Innocente. Non ho paura di questa parola, Maestro, grazie per questi momenti di gioia!
La vita brillava di nuovi colori (blu, rosso, grigio, verde))))
Se potesse per favore rispondere ad alcune domande. Perché ti riferisci così assiduamente a Vorontsov come Voronov
e perché ci stai parlando delle condizioni di mercato senza MO, e perché stai cercando di darci una specie di bersaglio di stronzate.
E la cosa principale - dov'è il trend-flat?)))

Ho scritto su Vorontsov e la mia disperazione per il tuo scherno, ma i miei post sono stati cancellati, non essere come i nazisti della grammatica, il mio obiettivo non è un grigio (piatto) e colore (tendenza) differiscono con una precisione del 90%, blu e rosso per chiarezza, non uso la direzione, prendo l'indicatore verde come un valore assoluto.

 
Maxim Dmitrievsky:

Lo testerò sui miei dati non appena avrò imparato a salvare le matrici in mql in forma normale in un file (che è una rottura di palle))

creare un array di strutture, scrivere una matrice in ogni struttura e resettarla in una volta sola usandoFileWriteArray()

Документация по MQL5: Файловые операции / FileWriteArray
Документация по MQL5: Файловые операции / FileWriteArray
  • www.mql5.com
//|                                          Demo_FileWriteArray.mq5 | //|                        Copyright 2013, MetaQuotes Software Corp. | //|                                              https://www.mql5.com | //| Структура для хранения данных о ценах                            |...
 
elibrario:
No non grande, ha spiegato su piccoli numeri da 10: 8:2 vs 6:4. Ma abbiamo molti dati.


Quanti campioni possono essere considerati rappresentativi di BP? Di solito non uso meno di 10000, la classe piccola dovrebbe avere almeno 1000

Per gli alberi, c'è un meraviglioso grafico dell'errore in funzione del numero di alberi.

Quindi, per le sentinelle, il numero di alberi superiore a 100 non riduce l'errore.

Il grafico si presenta così:



Puoi prendere file di diverse dimensioni e ottenere la risposta alla tua domanda.

Ma questo non è tutto.

Per rf c'è un altro parametro "Sample Size". Con esso si può livellare la differenza di classe. Comunque questo parametro influenza molto la dimensione dell'errore.

Per esempio.

Per Sample Size = 1000, 500 con un file di 7500 linee sembra deprimente. Ma è a prima vista e non necessariamente deprimente. Supponiamo che la classe "0" sia lunga e la classe "1" sia "fuori mercato". L'errore per "fuori mercato" è superiore a 0,5, il che significa che l'acquisto viene fatto da zero. Se ci scambiamo di posto, significherebbe che "fuori mercato" è gratis, ma l'errore "lungo" è molto piccolo.



E lo stesso file con Sample Size = 1000, 1000 sembra molto decente.

 
Igor Makanu:

creare un array di strutture e scrivere una matrice in ogni struttura, se necessario, e resettarla subito usando FileWriteArray()

Non conosco il numero di colonne in anticipo... e gli array di strutture con array dinamici all'interno non vengono scritti su file? ) Questo è un po' un casino...

Ho solo bisogno di salvare un array 2-d, il cui numero di colonne è sconosciuto in anticipo

 
Maxim Dmitrievsky:

allo stesso modo gli insiemi di reti neurali sono costruiti su bagging e si ottiene la stessa cosa di una foresta

devi capire che una foresta è solo un caso speciale di backgammon, al posto degli alberi puoi mettere qualsiasi cosa, qualsiasi modello debole. Un singolo albero è un modello elementare che non può sopprimere nulla

la foresta "più o meno" non si riqualifica a causa del campionamento casuale, ma in realtà si riqualifica molto facilmente e senza pretese

entrambi hanno bisogno di essere regolarizzati o tramite Decay (gradiente di passo), arresto anticipato, o tramite il parametro r della foresta, o preprocessing, ma tutti questi miglioramenti sono di solito entro il 5-10%. Sui cattivi dati entrambi i modelli si comportano ugualmente male

riguardo al boosting (estremo, non GBM) dicono che non si sta riqualificando molto, dovresti guardarlo, non posso dire nulla

https://www.analyticsvidhya.com/blog/2016/03/complete-guide-parameter-tuning-xgboost-with-codes-python/

Tutto è circa lo stesso: rf, xgboost, SVM, GLM, nnet.

Su alcuni siti un modello è migliore di un altro, su altri peggio - tutte unità di percentuale.

L'impressione è che l'errore del modello sia in realtà l'errore della coppia predittore-variabile obiettivo. C'è un certo limite oltre il quale non si può andare con qualche trucco ma si può facilmente distruggere, si può perdere una coppia promettente.