L'apprendimento automatico nel trading: teoria, modelli, pratica e algo-trading - pagina 2799

 
elibrarius #:

Busting cerca le migliori suddivisioni tra tutte le colonne e tutti gli esempi. Utilizza cioè le migliori schede.
Schuch. forest prende metà delle schede e metà degli esempi (la quota è configurabile) per ogni albero e poi da 20-100 alberi trova la media. Se ci sono solo 5 chip informativi su 200 chip, alcuni degli alberi non includeranno chip informativi (in media 2,5 chip informativi per albero). E una parte degli alberi informativi verrà mediata con alberi rumorosi. Il risultato sarà anche molto rumoroso.
Una foresta sporadica funziona bene se ci sono molti chip informativi (come negli esempi classici/ problemi di MO).

Busting troverà e utilizzerà le fiche più informative, poiché le controlla tutte. Quindi, secondo la logica del bousting, selezionerà da solo le schede migliori. Ma anche il busting ha i suoi problemi.

Non posso essere d'accordo con voi su bousting.

Busting troverà le caratteristiche che hanno una forte correlazione (potere predittivo) - credeteci. Tutto va bene se l'entità della correlazione è costante. Rinunciando alla stima del tratto stesso, nel bousting non possiamo tenere traccia della variabilità della grandezza dell'associazione, e secondo i miei dati la SD della stima dell'associazione può variare dal 10% al 120 (sui miei tratti). Cosa ci darà il bousting? Dopo tutto, abbiamo bisogno di campionare i tratti che presentano una maggiore variabilità.

 
СанСаныч Фоменко #:

La valutazione stessa è un dato relativo.

Ripeterò le immagini.

È brutto, è senza speranza.


Meglio, se ce ne sono diversi, possiamo parlare di un errore di previsione del 30%.


E la spazzatura deve essere rimossa, perché sul set di addestramento il chip può trovarsi a favore della spazzatura, è più facile trovare il valore che porta all'optimum.

più informazioni reciproche ci sono nella suddivisione in classi, meno le distribuzioni si sovrappongono, il che è logico.

Le distribuzioni continueranno a fluttuare su nuovi dati.

Non farei molto affidamento su questa manipolazione, è solo un'idea da provare.
 
elibrarius #:

Busting cerca le migliori suddivisioni tra tutte le colonne e tutti gli esempi. Utilizza cioè le migliori schede.
Schuch. forest prende metà delle schede e metà degli esempi (la quota è configurabile) per ogni albero e poi da 20-100 alberi trova la media. Se ci sono solo 5 chip informativi su 200 chip, alcuni alberi non conterranno chip informativi (in media 2,5 chip informativi per albero). E una parte degli alberi informativi verrà mediata con alberi rumorosi. Il risultato sarà anche molto rumoroso.
Una foresta sporadica funziona bene se ci sono molti chip informativi (come negli esempi classici/ problemi di MO).

Busting troverà e utilizzerà le fiche più informative, poiché le controlla tutte. Quindi, secondo la logica del bousting, selezionerà da solo le schede migliori. Ma anche il busting ha i suoi problemi.

Logicamente
 
Maxim Dmitrievsky #:
maggiore è l'informazione reciproca quando si divide in classi, minore è la sovrapposizione delle distribuzioni, il che è logico

Le distribuzioni continueranno a fluttuare sui nuovi dati.

Non farei molto affidamento su questa manipolazione, ma è solo un'idea da provare.

Non avete notato la variabilità di sd

 
СанСаныч Фоменко #:

Non posso essere d'accordo con il bousting.

Il bosting troverà caratteristiche che hanno una forte correlazione (potere predittivo) - credeteci. Tutto va bene se l'entità della relazione è costante. Rinunciando alla stima del tratto stesso, nel bousting non possiamo tenere traccia della variabilità della grandezza dell'associazione, e secondo i miei dati la SD della stima dell'associazione può variare dal 10% al 120 (sui miei tratti). Cosa ci darà il bousting? Dopo tutto, abbiamo bisogno di campionare i tratti che hanno una maggiore variabilità.

Tutti i modelli MO cercano modelli. Il bousting seleziona automaticamente i tratti migliori della linea.

Se c'è variabilità (ad esempio nei dati di mercato), dobbiamo fare qualcosa in più. Ho sperimentato il Walking Forward. Ma mostra solo il risultato, non influisce sulla selezione dei segni. E nulla può prevedere quali caratteristiche funzioneranno in futuro se non ci sono schemi o se questi cambiano. L'unica possibilità è che non cambino all'istante e che lo schema funzioni per qualche tempo.

 
Aleksey Vyazmikin #:

Ho creato un thread con un campione che dimostra il contrario: il bousting non è onnipotente, specialmente fuori dalla scatola.

Penso che non sia un problema di boosting, ma di variabilità dei dati. Proverò ad allenarmi sui vostri dati.
 
elibrarius #:
Penso che non sia un problema di boost, ma di variabilità dei dati. Proverò ad allenarmi sui vostri dati.

Naturalmente non si tratta dell'algoritmo in sé, ma dei dati.

Fate una prova e vedete cosa ne viene fuori!

Il campione è relativamente unico, in quanto è difficile addestrarlo in modo che funzioni anche al di fuori dell'addestramento.

Sto ancora sperimentando.

 
Aleksey Vyazmikin #:

Il campione è relativamente unico, in quanto è difficile allenarsi su qualcosa che funzionerebbe anche al di fuori dell'allenamento.

Come mai è unico? I dati di mercato di solito non funzionano al di fuori della formazione. Le ho fatto un paio di domande

 
elibrarius #:

Si tratta di unicità? Al di fuori della formazione, i dati di mercato di solito non funzionano. Le ho fatto un paio di domande

Beh, non funzionano, di solito funzionano, ma non molto bene.

La particolarità è che il modello CatBoost preferisce assegnare a tutti gli esempi una probabilità inferiore a 0,5 - quindi non classifica l'obiettivo "1", e anche ciò che è compreso tra 0 e 0,5 non è molto ben distribuito - ci sono screenshot del modello nel thread.

 
Aleksey Vyazmikin #:

La particolarità è che il modello CatBoost preferisce assegnare a tutti gli esempi una probabilità inferiore a 0,5 - quindi non classifica l'obiettivo "1", e anche ciò che è compreso tra 0 e 0,5 è distribuito molto male - ci sono screenshot del modello nel thread.

La particolarità qui è che sembra esserci un forte squilibrio tra le classi, se per 100 esempi ci sono 5 etichette di una classe e 95 etichette di un'altra classe, come può il modello dare una probabilità superiore a 0,5 per la prima classe? Questa non è una domanda al modello, ma all'autore del dataset...?