L'apprendimento automatico nel trading: teoria, modelli, pratica e algo-trading - pagina 2804

 
mytarmailS #:

Qual è lo scopo di questa esagerazione?

Per filtrare i tratti con correlazioni superiori a 0,9.

per filtrare i tratti con correlazione superiore a 0,8.

filtrare i tratti con una correlazione superiore a 0,7

escludere i tratti con una correlazione superiore a 0,6

....

..

Non vedo quale sia lo scopo, basta fare uno screening una volta e il gioco è fatto.

Cosa intendi con "una volta per tutte"? Ci sono molti campioni, quindi è necessario un approccio sistematico. Se sarà utile, lo farò in MQL5, in modo che funzioni subito e, si spera, più velocemente.

mytarmailS #:

========================================

Inoltre, è noto che il legno non si preoccupa dei segni correlati.

Prendete, addestrate il modello, selezionate le caratteristiche importanti dal modello e non preoccupatevi....

non fare sciocchezze, non sprecare il tuo tempo e quello degli altri.

CatBoost sceglie in modo casuale il numero di predittori a ogni iterazione della suddivisione o della costruzione dell'albero - dipende dalle impostazioni, e significa che i predittori fortemente correlati hanno più possibilità di andare a caso, cioè non a loro, ma all'informazione che portano.

Lo sto facendo ora, anche per il thread del forum, per vedere se ha senso per quel campione.

Per lo meno, mi aspetto che questo approccio permetta di rendere i modelli più diversificati, il che consentirà di descrivere (il richiamo sarà maggiore) più situazioni nel campione e di utilizzare ulteriormente il pacchetto di modelli.

 
Aleksey Vyazmikin #:

Lo sto facendo ora, anche per un thread del forum per vederese hasenso per quel campione.

Non è così

 
mytarmailS #:

Non ha senso

Pensi che il campione sia senza speranza?

 
Aleksey Vyazmikin #:

CatBoost sceglie in modo casuale il numero di predittori a ogni iterazione della suddivisione o della costruzione dell'albero - dipende dalle impostazioni, e significa che i predittori fortemente correlati hanno più possibilità di entrare in gioco in modo casuale, cioè non su di loro, ma sulle informazioni che portano.

Già, e i creatori di boost non lo sanno...

Non sanno nemmeno che è possibile filtrare i segni per correlazione))) come potrebbero saperlo, il metodo ha solo 50 anni))))

credete davvero di saperne di più di loro?

Aleksey Vyazmikin #:

Pensi che il campione sia senza speranza?

Certo... Boost tiene conto di tutto.

E non mi faccia arrabbiare, probabilmente sono più giovane di lei).

 
Aleksey Vyazmikin #:

Pensi che il campione sia senza speranza?

https://datascience.stackexchange.com/questions/12554/does-xgboost-handle-multicollinearity-by-itself


Gli alberi decisionali sono intrinsecamente immuni alla multicollinearità. Ad esempio, se si hanno due funzioni ,

che sono correlate al 99%, l'albero sceglierà solo una di esse quando prenderà una decisione di partizione. Altri modelli,

come la regressione logistica, utilizzeranno entrambe le funzioni.

Poiché gli alberi di bousting utilizzano alberi decisionali separati, non sono influenzati dalla multicollinearità.

========

Èpossibile utilizzare questo approccio, valutare l'importanza di ciascuna funzione e mantenere solo le funzioni migliori per il modello finale.


Che in realtà è quello che vi ho detto prima

Does XGBoost handle multicollinearity by itself?
Does XGBoost handle multicollinearity by itself?
  • 2016.07.02
  • ope ope 1,653 3 3 gold badges 16 16 silver badges 27 27 bronze badges
  • datascience.stackexchange.com
I'm currently using XGBoost on a data-set with 21 features (selected from list of some 150 features), then one-hot coded them to obtain ~98 features. A few of these 98 features are somewhat redundant, for example: a variable (feature) $A$ also appears as $\frac{B}{A}$ and $\frac{C}{A}$. My questions are : From what I understand, the model is...
 
mytarmailS #:

Già, e i creatori di boost del genere non lo sanno....

Non sanno nemmeno che è possibile filtrare i segni per correlazione)) come potrebbero saperlo, il metodo ha solo 50 anni))

Credete davvero di saperne di più di loro?

Io sì. Boost tiene conto di tutto.

E non ditemi queste cose, probabilmente sono più giovane di voi).

Analizzo i risultati dei modelli e vedo che prendono i predittori altamente correlati, ad esempio i predittori basati sul tempo - anche se hanno un piccolo ritardo temporale.

Penso che sappiano tutto perfettamente, ma anche che non dovrebbero parlarvi di luoghi comuni che sono vecchi di decenni....

Riguardo al "Tu" o al "Tu" - penso che sia meglio per tutti chiamare l'interlocutore come gli conviene, se non porta un messaggio offensivo e non impedisce un dialogo costruttivo.


mytarmailS #:

https://datascience.stackexchange.com/questions/12554/does-xgboost-handle-multicollinearity-by-itself


Gli alberi decisionali sono intrinsecamente immuni alla multicollinearità. Ad esempio, se si hanno due funzioni,

che sono correlate al 99%, l'albero sceglierà solo una di esse quando deciderà se dividere. Altri modelli,

come la regressione logistica, utilizzeranno entrambe le funzioni.

Poiché gli alberi di bousting utilizzano alberi decisionali separati, non sono influenzati dalla multicollinearità.

========

è possibile utilizzare questo approccio, valutare l'importanza di ogni caratteristica e mantenere solo le caratteristiche migliori per il modello finale.


Che in realtà è ciò che vi ho detto prima

Questo è il punto, sceglierà - sì uno, ma quante volte questa scelta andrà attraverso....

Inoltre CatBoost ha alcune differenze rispetto a xgboost, e ci sono risultati diversi su campioni diversi, in media CatBoost è più veloce e anche migliore, ma non sempre.

 

Inoltre, ho un mio metodo per raggruppare predittori simili e selezionare l'opzione migliore tra questi, e ho bisogno di un gruppo di controllo sotto forma di correlazione...

 
Lo script funziona, credo che dovrò lasciarlo durante la notte....
 
Aleksey Vyazmikin #:

CatBoost sceglie in modo casuale il numero di predittori a ogni iterazione della suddivisione o della costruzione dell'albero - dipende dalle impostazioni, e significa che i predittori fortemente correlati hanno più possibilità di entrare in gioco in modo casuale, cioè non su di loro, ma sulle informazioni che portano.

Siete sicuri che stia scegliendo i predittori a caso? Non stavo facendo catbusting, stavo guardando il codice degli esempi di bousting di base. Lì vengono utilizzati tutti i predittori. Cioè, viene preso il migliore. Quello correlato sarà accanto ad esso, ma leggermente peggiore. Ma in altri livelli di suddivisione o negli alberi di correzione, un altro dei predittori correlati potrebbe essere migliore.

 
Aleksey Vyazmikin raggruppare predittori simili e selezionare la variante migliore tra questi, e ho bisogno di un gruppo di controllo sotto forma di correlazione....
Quindi, proponetemi un paio di formule informative da provare.