L'apprendimento automatico nel trading: teoria, modelli, pratica e algo-trading - pagina 1237
Ti stai perdendo delle opportunità di trading:
- App di trading gratuite
- Oltre 8.000 segnali per il copy trading
- Notizie economiche per esplorare i mercati finanziari
Registrazione
Accedi
Accetti la politica del sito e le condizioni d’uso
Se non hai un account, registrati
Due anni fa ho scritto qui Maximka che NS è un giocattolo come una bomba nucleare. Che se QUALSIASI altro modello dà risultati almeno soddisfacenti, non è consigliabile usare NS - trovano qualcosa che non esiste e non ci si può fare niente.
Con gli alberi è una buona cosa, ma è meglio usare le impalcature.
Riuscirà a gestire 100.000 campioni con ad esempio 100 predittori?
Ho intenzione di sperimentare con xgboost attraverso R, penso che abbia tutto ciò di cui ho bisogno. E sembra essere molto veloce e utilizza la memoria in modo ottimale.
Riuscirà a gestire 100.000 campioni con ad esempio 100 predittori?
) Non so - questo è per Fa, credo.
Ho giocato con modelli semplici - ho giocato con il binario.
Ho intenzione di sperimentare con xgboost attraverso R, penso che tutto ciò di cui ho bisogno sia lì. E sembra essere molto veloce e utilizza la memoria in modo ottimale.
Può gestire 100.000 campioni con ad esempio 100 predittori?
davvero veloce
Lo testerò sui miei dati non appena avrò imparato a salvare le matrici in mql in un file normale (che è una rottura di palle))
non ho alcuna differenza di qualità tra mqlp e logs... quasi nessuna differenza tra qualsiasi cosa e qualsiasi cosa da modelli normali, ma sono interessato a provare il boisting da solo, forse è davvero 40 volte meglio... ma in effetti potrebbe essere un po' meglio.
per quanto riguarda il libro di cui sopra - quando vedo troppe parole e interiezioni inutili nel testo, capisco immediatamente che l'autore è pazzo e lo chiudo ))
davvero veloce
Lo testerò sui miei dati non appena avrò imparato a salvare le matrici in mql in un file normale (che è una rottura di palle))
non ho alcuna differenza di qualità tra mqlp e logs... quasi nessuna differenza tra qualsiasi cosa e qualsiasi cosa dai modelli normali, ma vorrei provare a boisting io stesso, forse è davvero 40 volte meglio... ma in effetti potrebbe essere un po' meglio.
Per quanto riguarda il libro - quando vedo che il testo è pieno di troppe parole e interiezioni superflue, capisco immediatamente che l'autore è pazzo e lo chiudo ))
Con le foreste, non ho ancora capito come trattano il rumore (a parte il fatto che è un voto di molti alberi diversi).
Può il singolo albero stesso sopprimere il rumore? (Ricordo da quello che ho letto un anno fa che può memorizzare completamente il campione insieme al rumore)
NS non può trovare dati importanti con molto rumore (e tutte le barre lunghe sono quasi rumorose, cioè non importa se vengono dall'alto o dal basso).
Con le foreste, non ho ancora capito come trattano il rumore (a parte il fatto che è un voto di molti alberi diversi).
Può il singolo albero stesso sopprimere il rumore? (Da quello che ho letto un anno fa, ricordo che può memorizzare completamente il campione insieme al rumore)
allo stesso modo gli insiemi di reti neurali sono costruiti su bagging e si ottiene la stessa cosa di una foresta
devi capire che una foresta è solo un caso speciale di bagging, invece di alberi puoi ficcarci dentro qualsiasi cosa tu voglia, qualsiasi modello debole. Un singolo albero è un modello elementare che non può sopprimere nulla
la foresta "più o meno" non si riqualifica a causa del campionamento casuale, ma in realtà si riqualifica molto facilmente e senza pretese
entrambi hanno bisogno di essere regolarizzati o tramite Decay (gradiente di passo), arresto anticipato, o tramite il parametro r della foresta, o preprocessing, ma tutti questi miglioramenti sono di solito entro il 5-10%. Sui cattivi dati entrambi i modelli si comportano ugualmente male
riguardo al boosting (estremo, non GBM) dicono che non si sta riqualificando molto, dovresti guardarlo, non posso dire nulla
https://www.analyticsvidhya.com/blog/2016/03/complete-guide-parameter-tuning-xgboost-with-codes-python/
Mio stimato Innocente. Non ho paura di questa parola, Maestro, grazie per questi momenti di gioia!
La vita brillava di nuovi colori (blu, rosso, grigio, verde))))
Se potesse per favore rispondere ad alcune domande. Perché ti riferisci così assiduamente a Vorontsov come Voronov
e perché ci stai parlando delle condizioni di mercato senza MO, e perché stai cercando di darci una specie di bersaglio di stronzate.
E la cosa principale - dov'è il trend-flat?)))
Ho scritto su Vorontsov e la mia disperazione per il tuo scherno, ma i miei post sono stati cancellati, non essere come i nazisti della grammatica, il mio obiettivo non è un grigio (piatto) e colore (tendenza) differiscono con una precisione del 90%, blu e rosso per chiarezza, non uso la direzione, prendo l'indicatore verde come un valore assoluto.
Lo testerò sui miei dati non appena avrò imparato a salvare le matrici in mql in forma normale in un file (che è una rottura di palle))
creare un array di strutture, scrivere una matrice in ogni struttura e resettarla in una volta sola usandoFileWriteArray()
No non grande, ha spiegato su piccoli numeri da 10: 8:2 vs 6:4. Ma abbiamo molti dati.
Quanti campioni possono essere considerati rappresentativi di BP? Di solito non uso meno di 10000, la classe piccola dovrebbe avere almeno 1000
Per gli alberi, c'è un meraviglioso grafico dell'errore in funzione del numero di alberi.
Quindi, per le sentinelle, il numero di alberi superiore a 100 non riduce l'errore.
Il grafico si presenta così:
Puoi prendere file di diverse dimensioni e ottenere la risposta alla tua domanda.
Ma questo non è tutto.
Per rf c'è un altro parametro "Sample Size". Con esso si può livellare la differenza di classe. Comunque questo parametro influenza molto la dimensione dell'errore.
Per esempio.
Per Sample Size = 1000, 500 con un file di 7500 linee sembra deprimente. Ma è a prima vista e non necessariamente deprimente. Supponiamo che la classe "0" sia lunga e la classe "1" sia "fuori mercato". L'errore per "fuori mercato" è superiore a 0,5, il che significa che l'acquisto viene fatto da zero. Se ci scambiamo di posto, significherebbe che "fuori mercato" è gratis, ma l'errore "lungo" è molto piccolo.
E lo stesso file con Sample Size = 1000, 1000 sembra molto decente.
creare un array di strutture e scrivere una matrice in ogni struttura, se necessario, e resettarla subito usando FileWriteArray()
Non conosco il numero di colonne in anticipo... e gli array di strutture con array dinamici all'interno non vengono scritti su file? ) Questo è un po' un casino...
Ho solo bisogno di salvare un array 2-d, il cui numero di colonne è sconosciuto in anticipo
allo stesso modo gli insiemi di reti neurali sono costruiti su bagging e si ottiene la stessa cosa di una foresta
devi capire che una foresta è solo un caso speciale di backgammon, al posto degli alberi puoi mettere qualsiasi cosa, qualsiasi modello debole. Un singolo albero è un modello elementare che non può sopprimere nulla
la foresta "più o meno" non si riqualifica a causa del campionamento casuale, ma in realtà si riqualifica molto facilmente e senza pretese
entrambi hanno bisogno di essere regolarizzati o tramite Decay (gradiente di passo), arresto anticipato, o tramite il parametro r della foresta, o preprocessing, ma tutti questi miglioramenti sono di solito entro il 5-10%. Sui cattivi dati entrambi i modelli si comportano ugualmente male
riguardo al boosting (estremo, non GBM) dicono che non si sta riqualificando molto, dovresti guardarlo, non posso dire nulla
https://www.analyticsvidhya.com/blog/2016/03/complete-guide-parameter-tuning-xgboost-with-codes-python/
Tutto è circa lo stesso: rf, xgboost, SVM, GLM, nnet.
Su alcuni siti un modello è migliore di un altro, su altri peggio - tutte unità di percentuale.
L'impressione è che l'errore del modello sia in realtà l'errore della coppia predittore-variabile obiettivo. C'è un certo limite oltre il quale non si può andare con qualche trucco ma si può facilmente distruggere, si può perdere una coppia promettente.