L'apprendimento automatico nel trading: teoria, modelli, pratica e algo-trading - pagina 2788

 
Maxim Dmitrievsky #:
Si verificano molte incongruenze, compresa la rimozione degli outlier. Di solito ammontano al 10% della dimensione del set di dati, secondo diversi calcoli. Eliminato e cosa, e come scambierà il modello quando l'outlier viene catturato? )
La stessa situazione con le trasformazioni.
Se si esegue una preelaborazione classica, i risultati diventano peggiori rispetto ai dati grezzi.
Oppure i miglioramenti casuali delle metriche vengono spacciati per sistemici.

Non si può fare nulla così, dopo aver letto libri di testo e articoli: questa è una fase separata e si chiama apprendimento. Senza una conoscenza sistematica della statistica non c'è nulla da fare nel MOE.

È sempre necessario fare, cercando di raggiungere l'obiettivo.

Se prendiamo un obiettivo intermedio - la massima capacità predittiva del predittore, allora:

1. È obbligatorio rimuovere gli outlier. Se i valori superiori allo 0,5% del quantile sono considerati outlier, gli outlier sono inferiori all'1%. A proposito, questa è la percentuale di stop attivati in futuro. Sviluppiamo il sistema di trading da soli, abbiamo limitazioni digitali.

2. La pre-elaborazione è obbligatoria, ma anche in questo caso dipende dal tipo di elaborazione. Se stiamo parlando della capacità predittiva del predittore, allora non è possibile correggere le pendenze che aumentano la capacità predittiva. Questo è un esempio. In generale, si prende un algoritmo di pre-elaborazione e si valuta il suo effetto sulla capacità predittiva. La risposta in questo caso è.

3. Tenere sempre presente il significato di MO, che a mio avviso è la ricerca di alcuni modelli. Ovviamente in RF. quale numero di pattern è contenuto, ad esempio, in 5000 barre? Oppure a partire da quale valore della finestra l'aumento del numero di pattern non riduce l'errore? Oppure, per una finestra fissa, a partire da quale valore del numero di pattern l'errore smette di diminuire?

Risposte per RF.

1. Non ha senso aumentare la finestra oltre i 1500 bar.

2. La relazione tra l'errore e il numero di modelli (alberi) è chiaramente visibile sul grafico:

Minimo 50. Generalmente da 100 a 200. Il grafico non cambia quando si aumenta la finestra fino a 5000.

È sempre necessario formulare chiaramente l'obiettivo e il criterio per raggiungerlo. Tutto il resto è bla bla.

 
СанСаныч Фоменко #:

Non si può fare nulla così, dopo aver letto libri di testo e articoli: è una fase separata e si chiama studio. Senza una conoscenza sistematica della statistica non c'è nulla da fare nel Ministero dell'Economia e delle Finanze.

È sempre necessario fare, cercando di raggiungere l'obiettivo.

Se prendiamo un obiettivo intermedio - la massima capacità predittiva del predittore, allora:

1. È obbligatorio rimuovere gli outlier. Se i valori superiori allo 0,5% del quantile sono considerati outlier, gli outlier sono inferiori all'1%. A proposito, questa è la percentuale di stop attivati in futuro. Stiamo sviluppando il sistema di trading stesso, abbiamo vincoli digitali.

2. La pre-elaborazione è obbligatoria, ma anche in questo caso dipende dal tipo di elaborazione. Se stiamo parlando della capacità predittiva del predittore, allora non è possibile correggere le pendenze, che aumentano la capacità predittiva. Questo è un esempio. In generale, prendiamo un algoritmo di pre-elaborazione e valutiamo la sua influenza sul potere predittivo. Ecco la risposta.

3. Tenete sempre presente il significato di MO, che a mio avviso è la ricerca di alcuni pattern. Ovviamente in RF. quale numero di pattern è contenuto, ad esempio, in 5000 barre? Oppure, a partire da quale valore della finestra l'aumento del numero di pattern non riduce l'errore? Oppure, per una finestra fissa, a partire da quale valore del numero di pattern l'errore smette di diminuire?

Risposte per RF.

1. Non ha senso aumentare la finestra oltre le 1500 barre.

2. la relazione tra l'errore e il numero di modelli (alberi) è chiaramente visibile sul grafico:

Minimo 50. Generalmente da 100 a 200. Il grafico non cambia quando la finestra viene aumentata fino a 5000.

È sempre necessario formulare chiaramente l'obiettivo e il criterio per raggiungerlo. Tutto il resto è blah blah.

Ho rilevato le emissioni attraverso la foresta di isolamento, le ho eliminate e il risultato dell'addestramento non è cambiato. Ho provato ad allenarmi sulle emissioni: nessun cambiamento. Ho l'impressione che al modello (catbust) non interessino le emissioni. Come se fossero ben riconosciute attraverso la ricerca di anomalie, ma la loro rimozione non è necessaria.
 
Maxim Dmitrievsky #:
Ho rilevato le emissioni attraverso la foresta di isolamento, le ho eliminate e il risultato dell'addestramento non è cambiato. Ho provato ad allenarmi sulle emissioni: nessun risultato. Ho l'impressione che al modello (catbust) non interessino le emissioni. Come se fossero ben riconosciute attraverso la ricerca di anomalie, ma la loro rimozione non è necessaria.

Gli outlier influenzano fortemente il potere predittivo e la stabilità del potere predittivo influenza la stabilità dell'errore di previsione.

E per il modello stesso, dipende dal modello, soprattutto se il campione di addestramento è ottenuto dal campione.

 
Aleksey Nikolayev #:

Mi è venuta in mente l'idea di un albero decisionale locale. Si tratta di un analogo di KNN o di una regressione locale (potenzialmente adatta anche alla non stazionarietà). L'idea è quella di dividere in caselle solo la casella che contiene il punto di interesse (fino ad almeno un determinato numero di punti K), senza preoccuparsi del resto delle caselle. Può essere migliore di KNN o della regressione locale se i confini tra le classi sono netti e il punto è vicino a tale confine.

Mi chiedo se questo approccio abbia senso.

Mi sembra che stiate confrontando cose incomparabili : la scalatura è una scalatura (anche multidimensionale, se volete, purché la distanza vi vada bene), e il filtraggio del rumore si può fare con le derivate (1a e 2a).-- Oppure passate alle matrici vettoriali in modo completamente non supervisionato, invece di dimostrare la significatività delle differenze di classe (etichettate) attraverso le matrici di covarianza dei dati etichettati e sfruttare ulteriormente la significatività confermata per la classificazione del soggetto di vostro interesse...

le ipotesi, signori, le ipotesi non sono un modo di calcolare, ma un oggetto di prova (o di confutazione)....

 
JeeyCi #:

mi sembra che stiate confrontando cose incomparabili - lo scaling è lo scaling (anche multidimensionale se volete, purché la distanza vi vada bene), e il filtraggio del rumore - si può fare con le derivate (1° e 2°).-- Oppure passate alle matrici vettoriali in modo completamente non supervisionato, invece di dimostrare la significatività delle differenze di classe (etichettate) attraverso le matrici di covarianza dei dati etichettati e sfruttare ulteriormente la significatività confermata per la classificazione del soggetto di vostro interesse...

le ipotesi, signori, le ipotesi non sono un modo di calcolare, ma un oggetto di prova (o di confutazione)....

Non ho capito nulla, ma molto interessante.

 
СанСаныч Фоменко #:

Gli outlier influenzano fortemente la capacità predittiva e la stabilità della capacità predittiva oscilla con la stabilità dell'errore di previsione.

E per il modello stesso, dipende dal modello, soprattutto se il campione di addestramento è ottenuto dal campione.

qual è il valore R2 tra il vostro metodo per determinare la capacità predittiva e l'importanza delle caratteristiche dalla foresta casuale?

 

Ciao a tutti.
Ho una domanda: è realistico usare un hash come predittore?

Per esempio
LlLCmywDpe8dj_j8t8DWwoMjaIhTLnOedRh6KET7R7k

dove l'obiettivo è
1,04.

Ha senso convertirlo in qualche modo in un numero o in un'altra forma?

 
Roman #:

Ciao a tutti.
Mi è venuta una domanda: è realistico usare un hash come predittore?

come questo
LlLCmywDpe8dj_j8t8DWwoMjaIhTLnOedRh6KET7R7k

dove il target
1.04

Ha senso convertirlo in qualche modo in un numero o in un'altra forma?

Quindi è un numero in notazione a 256 voci (se la stringa è codificata ANSI). Dato che gli hash hanno una lunghezza fissa, è comunque possibile rappresentarli come vettori di numeri da 0 a 255.

Vuoi craccare bitcoin?)

 
Aleksey Nikolayev #:

Si tratta quindi di un numero in un record di 256 voci (se la stringa è codificata ANSI). Poiché gli hash hanno una lunghezza fissa, possono essere rappresentati anche come vettori di numeri da 0 a 255.

Vuoi craccare bitcoin?)

Cavolo,come ti rilassa il tipo di stringa che ti fa dimenticare la codifica ANSI.
No, non bitcoin, lotterie online :))))


 
Evgeni Gavrilovi #:

qual è il valore R2 tra il vostro metodo per determinare la capacità predittiva e l'importanza delle caratteristiche dalla foresta casuale?

Spiegato più volte.