L'apprendimento automatico nel trading: teoria, modelli, pratica e algo-trading - pagina 584

 
Maxim Dmitrievsky:

Non sapevi nemmeno come determinare l'importanza dei predittori in RF, dando qualche sciocchezza sull'annealing e così via senza spiegazioni (cosa c'entra?).

Chi ha detto dove sono i banchi specificamente per applicazioni forex? perché Ada e non GBM? le tue risposte sono troppe astrazioni confuse. in realtà il guadagno non sarà più del 5% con più sovrallenamento.

Al livello in cui si svolge la discussione

Lasciatemi chiarire il livello ALGLIB - il livello di una fattoria collettiva, un villaggio vicino a Novgorod. Lei ha scritto più volte che questo livello le si addice. Può darsi che sia sufficiente per i vostri compiti, ma perché offendersi?


Non sei così bravo a spingere qualche sciocchezzasulla ricottura e lacorruzione.

Non dovresti essere così...

Ho provato quasi tutte le R e questa ricottura è la più efficace.


Perché Ada e non GBM? le tue risposte sono troppe astrazioni confuse. in realtà il guadagno non sarà più del 5% con più sovrallenamento.

Perché li ho provati e non solo loro. Ho ancora i protocolli.

Sì, il meglio è ada? Sì, del 5%, massimo 7% rispetto alla foresta. E non conosco niente di meglio di questo.

E cos'è "un sacco di sovrallenamento"? Di cosa stai parlando? Per quanto riguarda il sovrallenamento, non riesco a ricordare un solo post da parte tua in cui dimostri che i tuoi modelli non sono sovrallenati!

Posso solo ribadire che l'overtraining non dipende affatto dal modello, dipende da:

  • insieme di predittori
  • capacità di coartare i modelli

 
SanSanych Fomenko:

Al livello in cui si svolge la discussione

Chiarisco il livello di ALGLIB - il livello della fattoria collettiva, il villaggio vicino a Novgorod. Lei ha scritto più volte che questo livello le si addice. Può darsi che sia sufficiente per i vostri compiti, ma perché offendersi?


Non sei così bravo a spingere qualche sciocchezzasulla ricottura e lacorruzione.

Non dovresti essere così...

Ho provato quasi tutte le R e questa ricottura è la più efficace.


Perché Ada e non GBM? le tue risposte sono troppe astrazioni confuse. in realtà il guadagno non sarà più del 5% con più sovrallenamento.

Perché li ho provati e non solo loro. Ho ancora i protocolli.

Sì, il meglio è ada? Sì, del 5%, massimo 7% rispetto alla foresta. E non conosco niente di meglio di questo.

E cos'è "un sacco di sovrallenamento"? Di cosa stai parlando? Per quanto riguarda il sovrallenamento, non riesco a ricordare un solo post da parte tua in cui dimostri che i tuoi modelli non sono sovrallenati!

Posso solo ribadire che l'overtraining non dipende affatto dal modello, dipende da:

  • insieme di predittori
  • la capacità di coartare i modelli.


Qual è la differenza tra il binning e il boosting? Nel binning c'è meno adattamento iniziale e più un elemento di casualità, mentre nel boosting uno è montato sui resti del secondo, poi sul terzo e così via. E ti ritrovi con un overfit totale. Cioè RF può già essere reso abbastanza "grossolano" fin dall'inizio, ma dovrò ricontrollare, non ho ancora avuto tempo.

Tutti i miei modelli sono riqualificati :) perché non ho ancora trovato dei modelli permanenti per loro

Alglib ha quasi tutto - convoluzione, PCA, clustering, ensemble di reti neurali, forrest... così, secondo i classici, tutto è lì, cos'altro avete bisogno - non capisco :) cose più moderne, naturalmente non

E l'autore scrive che non tratta le reti neurali ecc. con grande riverenza, ma le considera come strumenti abituali di cassificazione/regressione e non le distingue da altri metodi. Mi piace questo approccio realistico.

Riguardo all'annealing e così via, non lo capisco nemmeno io - c'è un modo universale per tutti i modelli? Ogni modello dovrebbe avere il suo modo di stimare, in quale modo questa cosa specifica può essere addestrata meglio?

 
Maxim Dmitrievsky:

Che differenza c'è tra lo sbattere e il vantarsi? Nello sbattere c'è meno regolazione iniziale e più un elemento di casualità, ma nel vantarsi ci si regola sugli avanzi del secondo, poi sul terzo e così via. E ti ritrovi con un overfit totale. Cioè RF può già essere reso abbastanza "grossolano" fin dall'inizio, ma dovrò ricontrollare, non ho ancora avuto tempo.

Tutti i miei modelli sono riqualificati :) perché non ho ancora trovato alcun modello permanente per loro

Alglib ha quasi tutto - convoluzione, PCA, clustering, ensemble di reti neurali, forrest... così, secondo i classici, tutto è lì, cos'altro avete bisogno - non capisco :) cose più moderne, naturalmente non

E l'autore scrive che non tratta le reti neurali ecc. con grande riverenza, ma le considera come strumenti abituali di cassificazione/regressione e non le distingue da altri metodi. Mi piace questo approccio realistico.

Per quanto riguarda l'annealing e così via, non lo capisco nemmeno io - è un metodo universale per tutti i modelli? Ogni modello dovrebbe avere il proprio metodo di valutazione, attraverso il quale questa cosa particolare può essere addestrata nel modo migliore

Ho cercato più volte di spiegarvi alcune cose elementari dal mio punto di vista. Ho fallito.


Posso solo consigliare: passate un paio di mesi su Caret e avrete un modo diverso di pensare, una visione qualitativamente diversa.

 
Maxim Dmitrievsky:

Anche per quanto riguarda l'annealing e così via, non è chiaro - è qualche metodo universale per tutti i modelli o cosa? Ogni modello dovrebbe avere il proprio modo di valutazione, attraverso il quale questa cosa particolare può essere addestrata nel modo migliore

L'annealing è l'annealing in Africa, e gli obiettivi sono più o meno gli stessi. Permette al modello di trovare non le minime locali, ma quelle globali.

Non so per ADA, ma per NS la ricottura dà ottimi risultati. Non mi piace quello integrato, perché i parametri di ricottura devono essere impostati in anticipo, quindi ho ricotto manualmente, cambiando i parametri in base ai risultati dell'apprendimento precedente.

HZZ A proposito, NS più o meno complicati senza ricottura in genere non insegnano nulla.

 
Maxim Dmitrievsky:

Sì, ma è così superiore che non lo trascinerò in questa fase :) + ha scritto che è impossibile guadagnare più del 20% all'anno... Immagino che si debba sempre iniziare con queste affermazioni e poi andare più a fondo nei dettagli :)

Maxim, smetti di fumare. Prendere le parole di qualcun altro fuori dal contesto, attribuirle ad altri, ecc.
+ parte dei commenti cancellati. Allo stesso modo, non attribuite la paternità della parola serpente a sonagli a Fa (Fomenko)).

 
Vizard_:

Maximka, smetti di fumare. Si prendono le cose fuori contesto, attribuendo le parole di altre persone ad altri, ecc. + alcuni commenti sono stati cancellati.
+ alcuni commenti sono stati cancellati. Inoltre, non attribuire la paternità della parola serpente a sonagli Fa (Fomenko)).


Sto solo dicendo :) quello che hai in mente è sulla tua lingua

e poi qualcosa salterà fuori... il flusso di lavoro è impersonale.

Mi sbagliavo sul sonaglio). SanSanych una volta ha scritto qualcosa di simile... nonsense o qualcosa del genere

 

(Dall'ozio e dalla completa mancanza di idee per un ulteriore lavoro, ho deciso di imparare qualcosa di nuovo, per me stesso naturalmente - forse è già molto vecchio). Ho iniziato con RF, e attraverso RF sono arrivato a Python, poiché è compatibile (come dicono) in entrambe le direzioni con il mio software SciLab. Ora sono venuto a rivedere i pacchetti per Python.

In totale, ci sono più di 120.000 pacchetti. Da loro su Machine Learning - circa 70, sulle reti neurali, compreso l'apprendimento profondo - circa 70. Probabilmente ce ne sono molti altri - ho cercato tra le rubriche e alcuni pacchetti potrebbero apparire in altre sezioni.

Senza contare i pacchetti distribuiti direttamente da altre aziende. Ci sono anche molti pacchetti di questo tipo. Ci sono anche su argomenti interessanti per noi - li ho visti io stesso, tra cui MoD, RF National Assembly e ADA.

Tra le altre aziende ci sono machine learning, alberi, NS e qualcosa legato all'ADA.

Molti pacchetti sono fatti in C/C++, quindi non c'è bisogno di preoccuparsi delle prestazioni - Python è solo un'interfaccia (linguaggio di scripting). Anche R, infatti, lo è.

Tutto sommato, sto vivendo un periodo interessante).

 
Maxim Dmitrievsky:

Perché Ada e non GBM? ci sono troppe astrazioni vaghe nelle tue risposte. in realtà il guadagno non sarebbe più del 5% con più sovrallenamento.

Nella classificazione, è molto comune usare la "precisione" - la percentuale di risposte corrette - per valutare un modello. A mio parere questa è una delle valutazioni più deboli e inappropriate dei modelli di trading e dovrebbe essere evitata. Ho suggerito di provare un mucchio di altri qui nel thread - kappa, f-score, logloss.

Ada in R (forse non solo in R) usa una stima leggermente diversa del modello di classificazione incorporato nell'addestramento, che è molto meglio rispetto alla "precisione".

 
Yuriy Asaulenko:

(Dall'ozio e dalla completa mancanza di idee per un ulteriore lavoro, ho deciso di imparare qualcosa di nuovo, per me stesso naturalmente - forse è già molto vecchio). Ho iniziato con RF, e attraverso RF sono arrivato a Python, poiché è compatibile (come dicono) in entrambe le direzioni con il mio software SciLab. Ora sono arrivato alle recensioni dei pacchetti.

In totale ci sono più di 120.000 pacchetti. Di questi circa 70 su Machine Learning e circa 70 su Reti Neurali, compreso l'apprendimento profondo. Probabilmente ce ne sono molti altri - stavo cercando per rubriche e alcuni pacchetti potrebbero apparire in altre sezioni.

Senza contare i pacchetti distribuiti direttamente da altre aziende. Ci sono anche molti pacchetti di questo tipo. Ce ne sono anche su argomenti interessanti per noi - li ho visti io stesso, tra cui MoD, RF National Assembly e ADA.

Tra le altre aziende ci sono machine learning, alberi, NS e qualcosa legato all'ADA.

Molti pacchetti sono fatti in C/C++, quindi non c'è bisogno di preoccuparsi delle prestazioni - Python è solo un'interfaccia (linguaggio di scripting). E anche R, a dire il vero.

Tutto sommato, sto vivendo un periodo interessante).

guarda più di questa roba https://cloud.google.com/datalab/

La cosa malvagia è che la direzione di AutoML si sta sviluppando anche lì - il servizio prenderà un modello per certi compiti da solo

Cloud Datalab - Interactive Data Insights Tool  |  Google Cloud Platform
Cloud Datalab - Interactive Data Insights Tool  |  Google Cloud Platform
  • cloud.google.com
Integrated Cloud Datalab simplifies data processing with Cloud BigQuery, Cloud Machine Learning Engine, Cloud Storage, and Stackdriver Monitoring. Authentication, cloud computation and source control are taken care of out-of-the-box. Multi-Language Support Cloud Datalab currently supports Python, SQL, and JavaScript (for BigQuery...
 
Ildottor Trader:

Nella classificazione, è molto comune usare la "precisione" - la percentuale di risposte corrette - per valutare un modello. A mio parere, questa è una delle valutazioni più deboli e inappropriate dei modelli di trading, e dovrebbe essere evitata. Ho suggerito di provare un mucchio di altri qui nel thread - kappa, f-score, logloss.

Ada in R (forse non solo in R) usa una valutazione integrata leggermente diversa del modello di classificazione in allenamento, che è molto meglio rispetto alla "precisione".


Per quelli di trading è difficile da valutare in questo modo, c'è la durata dell'affare e i livelli di stop loss devono essere aggiunti a tutto il resto, e il programma stesso si riqualifica periodicamente... quindi è un peccato :)