L'apprendimento automatico nel trading: teoria, modelli, pratica e algo-trading - pagina 1203

 
Aleksey Vyazmikin:

Grazie. Randomizzare con gli stessi valori del predittore nel campione, giusto?

In generale l'approccio è chiaro, grazie, devo pensare a come implementarlo e provarlo.

Ahimè, non posso padroneggiarlo, quindi ascolterò un racconto dalle tue labbra in questa occasione.

No, per randomizzare del tutto, cioè pulire completamente i valori dei predittori e metterci del rumore bianco

poi rimettete i valori originali quando andate a controllare il prossimo.

In parole povere, spingete il rumore bianco al posto di ogni predittore, uno alla volta. Questo è probabilmente più facile da capire.

Una condizione importante: i predittori non devono essere correlati, altrimenti si otterrà un'incomprensione con errori... Per questo ho prima trasformato tramite PCA, ma è possibile fare una matrice di correlazione e rimuovere tutti quelli fortemente correlati. C'è un altro meccanismo, ma è complicato
 
Maxim Dmitrievsky:

No, randomizzare del tutto per mancinismo, cioè ripulire completamente i valori predittivi e ficcarci dentro del rumore bianco

poi rimettere i valori originali quando si va a controllare il prossimo

Se è solo rumore, allora interrompiamo la suddivisione a tutti, per esempio, c'è una suddivisione con la regola "oltre 100", ma aggiungeremo casuale da 0 a 99, quindi un'ulteriore suddivisione non sarà più attiva. Probabilmente è importante vedere come funzionerà un'ulteriore suddivisione se una delle regole della lista cade...

 
Maxim Dmitrievsky:


Una condizione importante: i predittori non devono essere correlati, altrimenti si otterrà un'incomprensione con errori... Per questo ho prima trasformato tramite PCA, ma è possibile fare una matrice di correlazione e rimuovere tutti quelli fortemente correlati. C'è un altro meccanismo, ma è complicato

Che tipo di correlazione è accettabile? Dopo tutto, i buoni predittori dovrebbero essere correlati con l'obiettivo, il che significa che saranno correlati tra loro in una certa misura...

 
Aleksey Vyazmikin:

Se è solo rumore, allora romperemo la divisione a tutti, per esempio c'è una divisione con la regola "oltre 100", e metteremo un casuale da 0 a 99, allora un'ulteriore divisione non sarà più attiva, e probabilmente è importante vedere come funzionerà un'ulteriore divisione quando una delle regole del foglio cade...

quindi l'errore scenderà molto e tutto andrà bene, l'importanza è bassa. Non entrare nei modelli, come fai a sapere come sono divisi gli alberi, e ognuno è diverso con un numero diverso di caratteristiche. Sembrano sempre la media dell'ospedale.

 
Aleksey Vyazmikin:

Che tipo di correlazione è accettabile? Dopo tutto, i buoni predittori devono correlarsi con l'obiettivo, il che significa che si correleranno tra loro in una certa misura...

Questa è un'eresia per la regressione lineare con un predittore, nei modelli non lineari nulla deve correlare con l'obiettivo, soprattutto se si tratta di una classificazione

Non so quale sia accettabile, è difficile... o sperimentale. È più facile usare la PCA in questo senso, naturalmente.
 
Maxim Dmitrievsky:

Così l'errore scenderà drasticamente e tutto andrà bene, le importazioni sono basse. Non entrare nei modelli, come fai a sapere come sono divisi gli alberi, e ognuno è diverso con un numero diverso di caratteristiche. Si guarda sempre la media dell'ospedale.

Poi si può semplicemente annullare il valore o sostituirlo con qualsiasi altro valore - lo stesso casuale, ma non mi sembra logico... Comunque, se posso implementarlo, proverò due varianti.

Maxim Dmitrievsky:

Questa è un'eresia per la regressione lineare, nei modelli non lineari nulla dovrebbe correlare con l'obiettivo

Qual è l'argomento che se c'è una correlazione con l'obiettivo, allora il predittore è cattivo?

 
Aleksey Vyazmikin:

Poi si potrebbe semplicemente annullare il valore o sostituirlo con qualsiasi altro valore - lo stesso casuale, ma non mi sembra logico... Comunque, se posso implementarlo, proverò due opzioni.

Bene, che argomento può esserci che se c'è una correlazione con l'obiettivo, allora il predittore è cattivo?

Non mi interessa come si fa, l'importante è il principio del rimescolamento delle schede, mi sembra che sia più una sciocchezza.

Non sto parlando di uno ma di quando ce ne sono molti e le importazioni sono più o meno le stesse perché la correlazione tra loro è forte. Si scopre che rimuovendo una caratteristica forte durante il riordino, l'errore del modello non cadrà, perché ci saranno caratteristiche simili con la stessa importanza, e nessuna delle caratteristiche forti sarà riconosciuta. Ecco perché dovreste o randomizzare tutte le caratteristiche correlate in una volta sola (che è più difficile da implementare) o fare attenzione a non correlare fortemente nulla

 
Maxim Dmitrievsky:

fate come volete, la cosa principale è il principio di riorganizzazione del chip, penso che sia più probabile che sia un'inezia

Non sto parlando di uno, ma di quando ce ne sono molti e l'importanza è circa la stessa, perché la correlazione è forte. Quindi, la rimozione di una caratteristica forte nel riordino non farà diminuire l'errore del modello, perché ci saranno caratteristiche simili con la stessa importanza e nessuna delle caratteristiche forti sarà riconosciuta.

Questo è il modo in cui il modello dovrebbe costruire predittori per costruire alberi simmetrici - senza ri-addestramento è improbabile, come mi sembra, quindi non ha senso quando si crea il modello.

Quindi quale correlazione è accettabile?
 
Aleksey Vyazmikin:

Sta ancora al modello ottenere che i predittori costruiscano alberi simmetrici - perché senza riapprendimento è improbabile, mi sembra, perché non ha senso quando si crea il modello.

funziona bene in caso di foresta, in caso di catbusto bisogna leggere, non ricordo come funziona. Forse ha una buona importazione in sé, a causa della struttura del modello stesso

Non so cosa sia accettabile, fissa una soglia e vedi. +- poco cambierà nel modello. Tanto più che il boosting non funziona come RF, forse c'è una chiara importanza fin dall'inizio.

o se siete sicuri che le caratteristiche sono eterogenee e non sono correlate, allora dimenticate di provare questo passo.

Queste sono tutte cose importanti, specialmente se hai molte caratteristiche e hai bisogno di tagliare il rumore dal modello, ma non così tanto che devi preoccuparti di ogni % di correlazione, penso. nell'intervallo di -0.5; 0.5 è probabilmente normale.

Più tardi farò io stesso una tale variante e la controllerò.

 
Maxim Dmitrievsky:

Funziona bene nel caso della foresta, nel caso di catbust bisogna leggere, non ricordo come funziona. Forse ha buone importazioni da solo, a causa della struttura del modello stesso

Non so cosa sia accettabile, fissa una soglia e vedi. +- poco cambierà nel modello. Tanto più che il boosting non funziona come RF, forse c'è una chiara importanza fin dall'inizio.

o se siete sicuri che le caratteristiche sono eterogenee e non sono correlate, allora dimenticate di provare questo passo.

Queste sono tutte cose importanti, specialmente se hai molte caratteristiche e hai bisogno di tagliare il rumore dal modello, ma non così tanto che devi preoccuparti di ogni % di correlazione, penso. nell'intervallo di -0.5; 0.5 è probabilmente normale.

Più tardi farò io stesso una tale variante e darò un'occhiata.

Capisco, dovrò provare. So per certo che l'accoppiamento dei modelli è possibile - una semplice ricerca lo ha dimostrato, ma dovrei fare tutto in modo ragionevole, e la correlazione rilevata ridurrà il numero di iterazioni per l'accoppiamento dei modelli.