L'apprendimento automatico nel trading: teoria, modelli, pratica e algo-trading - pagina 2799
Ti stai perdendo delle opportunità di trading:
- App di trading gratuite
- Oltre 8.000 segnali per il copy trading
- Notizie economiche per esplorare i mercati finanziari
Registrazione
Accedi
Accetti la politica del sito e le condizioni d’uso
Se non hai un account, registrati
Busting cerca le migliori suddivisioni tra tutte le colonne e tutti gli esempi. Utilizza cioè le migliori schede.
Schuch. forest prende metà delle schede e metà degli esempi (la quota è configurabile) per ogni albero e poi da 20-100 alberi trova la media. Se ci sono solo 5 chip informativi su 200 chip, alcuni degli alberi non includeranno chip informativi (in media 2,5 chip informativi per albero). E una parte degli alberi informativi verrà mediata con alberi rumorosi. Il risultato sarà anche molto rumoroso.
Una foresta sporadica funziona bene se ci sono molti chip informativi (come negli esempi classici/ problemi di MO).
Busting troverà e utilizzerà le fiche più informative, poiché le controlla tutte. Quindi, secondo la logica del bousting, selezionerà da solo le schede migliori. Ma anche il busting ha i suoi problemi.
Non posso essere d'accordo con voi su bousting.
Busting troverà le caratteristiche che hanno una forte correlazione (potere predittivo) - credeteci. Tutto va bene se l'entità della correlazione è costante. Rinunciando alla stima del tratto stesso, nel bousting non possiamo tenere traccia della variabilità della grandezza dell'associazione, e secondo i miei dati la SD della stima dell'associazione può variare dal 10% al 120 (sui miei tratti). Cosa ci darà il bousting? Dopo tutto, abbiamo bisogno di campionare i tratti che presentano una maggiore variabilità.
La valutazione stessa è un dato relativo.
Ripeterò le immagini.
È brutto, è senza speranza.
Meglio, se ce ne sono diversi, possiamo parlare di un errore di previsione del 30%.
E la spazzatura deve essere rimossa, perché sul set di addestramento il chip può trovarsi a favore della spazzatura, è più facile trovare il valore che porta all'optimum.
Busting cerca le migliori suddivisioni tra tutte le colonne e tutti gli esempi. Utilizza cioè le migliori schede.
Schuch. forest prende metà delle schede e metà degli esempi (la quota è configurabile) per ogni albero e poi da 20-100 alberi trova la media. Se ci sono solo 5 chip informativi su 200 chip, alcuni alberi non conterranno chip informativi (in media 2,5 chip informativi per albero). E una parte degli alberi informativi verrà mediata con alberi rumorosi. Il risultato sarà anche molto rumoroso.
Una foresta sporadica funziona bene se ci sono molti chip informativi (come negli esempi classici/ problemi di MO).
Busting troverà e utilizzerà le fiche più informative, poiché le controlla tutte. Quindi, secondo la logica del bousting, selezionerà da solo le schede migliori. Ma anche il busting ha i suoi problemi.
maggiore è l'informazione reciproca quando si divide in classi, minore è la sovrapposizione delle distribuzioni, il che è logico
Non avete notato la variabilità di sd
Non posso essere d'accordo con il bousting.
Il bosting troverà caratteristiche che hanno una forte correlazione (potere predittivo) - credeteci. Tutto va bene se l'entità della relazione è costante. Rinunciando alla stima del tratto stesso, nel bousting non possiamo tenere traccia della variabilità della grandezza dell'associazione, e secondo i miei dati la SD della stima dell'associazione può variare dal 10% al 120 (sui miei tratti). Cosa ci darà il bousting? Dopo tutto, abbiamo bisogno di campionare i tratti che hanno una maggiore variabilità.
Tutti i modelli MO cercano modelli. Il bousting seleziona automaticamente i tratti migliori della linea.
Se c'è variabilità (ad esempio nei dati di mercato), dobbiamo fare qualcosa in più. Ho sperimentato il Walking Forward. Ma mostra solo il risultato, non influisce sulla selezione dei segni. E nulla può prevedere quali caratteristiche funzioneranno in futuro se non ci sono schemi o se questi cambiano. L'unica possibilità è che non cambino all'istante e che lo schema funzioni per qualche tempo.
Ho creato un thread con un campione che dimostra il contrario: il bousting non è onnipotente, specialmente fuori dalla scatola.
Penso che non sia un problema di boost, ma di variabilità dei dati. Proverò ad allenarmi sui vostri dati.
Naturalmente non si tratta dell'algoritmo in sé, ma dei dati.
Fate una prova e vedete cosa ne viene fuori!
Il campione è relativamente unico, in quanto è difficile addestrarlo in modo che funzioni anche al di fuori dell'addestramento.
Sto ancora sperimentando.
Il campione è relativamente unico, in quanto è difficile allenarsi su qualcosa che funzionerebbe anche al di fuori dell'allenamento.
Come mai è unico? I dati di mercato di solito non funzionano al di fuori della formazione. Le ho fatto un paio di domande
Si tratta di unicità? Al di fuori della formazione, i dati di mercato di solito non funzionano. Le ho fatto un paio di domande
Beh, non funzionano, di solito funzionano, ma non molto bene.
La particolarità è che il modello CatBoost preferisce assegnare a tutti gli esempi una probabilità inferiore a 0,5 - quindi non classifica l'obiettivo "1", e anche ciò che è compreso tra 0 e 0,5 non è molto ben distribuito - ci sono screenshot del modello nel thread.
La particolarità è che il modello CatBoost preferisce assegnare a tutti gli esempi una probabilità inferiore a 0,5 - quindi non classifica l'obiettivo "1", e anche ciò che è compreso tra 0 e 0,5 è distribuito molto male - ci sono screenshot del modello nel thread.
La particolarità qui è che sembra esserci un forte squilibrio tra le classi, se per 100 esempi ci sono 5 etichette di una classe e 95 etichette di un'altra classe, come può il modello dare una probabilità superiore a 0,5 per la prima classe? Questa non è una domanda al modello, ma all'autore del dataset...?