L'apprendimento automatico nel trading: teoria, modelli, pratica e algo-trading - pagina 2111

 
Aleksey Vyazmikin:

No, sarebbe un modello adatto e basta, non un modello con un significato!

Non sono d'accordo. Quantificando si riduce la quantità di informazioni. Il numero massimo di quantizzazione lascerà la massima quantità di informazioni.

Ma ci vuole più tempo per quantizzare a 65535 che a 255.

 
elibrarius:

Sai come?

Sì, ci sto lavorando - è stato fatto originariamente per gli alberi genetici.

È necessario valutare la distribuzione delle informazioni nel campione e la loro relazione con l'obiettivo. Guardo come l'errore è ridotto in una particolare sezione di quantizzazione e quale percentuale di campioni contiene - bilanciare queste metriche permette di selezionare le migliori partizioni.

 
elibrarius:

Non sono d'accordo. Quantificando si riduce la quantità di informazioni. Il numero massimo di quantizzazione lascerà la massima quantità di informazioni.

Ma ci vuole più tempo per quantizzare a 65535 che a 255.

Dovresti avere torto a non essere d'accordo - non ci sono molte informazioni là fuori e bisogna separarle dal rumore. Noi (io) abbiamo bisogno di dipendenze stabili, non di quelle che si ripetono ogni 5 anni e quindi non ci sono abbastanza statistiche per stimare la loro propensione a un particolare obiettivo, usare esempi insufficienti porta semplicemente ad adattarsi.

 
Aleksey Vyazmikin:

Sì, ci sto lavorando - è stato fatto originariamente per gli alberi genetici.

È necessario valutare la distribuzione delle informazioni nel campione e la loro relazione con l'obiettivo. Guardo come l'errore è ridotto in una particolare sezione di quantizzazione e quale percentuale di campioni contiene - bilanciare queste metriche permette di selezionare le migliori partizioni.

Come stimare l'errore di quantizzazione. Si può ottenere solo eseguendo l'allenamento e per tutte le colonne in una volta e non ogni colonna quantizzata al momento.

 
elibrarius:
Aleksey Vyazmikin:

Come stimare l'errore di quantizzazione. Può essere ottenuto solo eseguendo il training su tutte le colonne in una volta sola, non su ogni colonna attualmente quantizzata.

Stimo il cambiamento dell'equilibrio degli obiettivi rispetto all'intero campione. Questo è particolarmente vero se ci sono più di due obiettivi.

 
Aleksey Vyazmikin:

Stimo il cambiamento dell'equilibrio degli obiettivi rispetto all'intero campione. Questo è particolarmente vero se ci sono più di due obiettivi.

In ogni caso, la prossima divisione si dividerà attraverso il punto di quantizzazione in 2 parti.

Si può spostare il confine di un quantum in modo abbastanza approssimativo - 5-10-20% della sua dimensione - quantizzando grandi 255 pezzi. Applicando 65535 quanti avrete un passo dello 0,5% del vostro quantum. E l'albero sceglierà il migliore.

Improbabile però. Di solito colpisce solo il centro o i quarti. Con 65535 quanti troverete il centro in modo più preciso, e con 255 è 256 volte più grezzo.

 
elibrarius:

In ogni caso, la prossima divisione si dividerà attraverso il punto di quantizzazione in 2 pezzi.

Si può spostare il confine di un quantum abbastanza grossolanamente - 5-10-20% della sua dimensione - quantizzando grandi 255 pezzi. Applicando 65535 quanti avrete un passo dello 0,5% del vostro quantum. E l'albero sceglierà il migliore.

Improbabile però. Di solito colpisce solo il centro o i quarti. Con 65535 quanti il centro sarà trovato più accuratamente, e con 255 è 256 volte più grezzo.

Esattamente, ci sarà una spaccatura, ma la spaccatura non sarà del 50% ma disuguale - a seconda della corrispondenza con la/e spaccatura/i superiore/i, ma la logica suggerisce che le probabilità saranno diverse se si guarda dove il segmento è saturo di unità o dove ce n'è un numero uguale (rispetto al saldo dell'intero campione). L'obiettivo è quello di ottenere almeno l'1% dei campioni nelle foglie, e allo stesso tempo circa il 65% delle etichette della stessa classe.

 
Aleksey Vyazmikin:

Esattamente, ci sarà uno split, ma lo split non sarà del 50% ma disomogeneo - a seconda della corrispondenza con il top split(s), ma la logica suggerisce che le probabilità saranno diverse se si cerca dove il segmento è saturo di unità o dove ce n'è un numero pari (rispetto al saldo dell'intero campione). L'obiettivo è quello di ottenere almeno l'1% del campione nelle foglie, e allo stesso tempo circa il 65% delle etichette della stessa classe.

Penso che questo sia un compito abbastanza difficile.

E se una tale caratteristica può essere trovata, è l'unico modo per lavorare, anche senza MO.

Purtroppo non abbiamo queste caratteristiche.

 
Maxim Dmitrievsky:

Non ne ho bisogno per l'esame, ma potrebbe tornarmi utile.

I risultati sono strani - sul test e sul campione di allenamento Recall 0.6-0.8 e sull'esame senza conversione 0.009 e con la conversione 0.65 - c'è qualcosa di sbagliato qui :(

Ho la sensazione che CatBoost abbia imparato l'algoritmo di conversione :)

E c'è la possibilità di marcare linee vecchie e nuove? Poi è possibile rimuovere le stringhe trasformate dal campione trasformato e vedere se è un problema di interpretazione o non di formazione qualitativa tutto uguale.

 
elibrarius:

Penso che questa sia una bella sfida.

E se si trova una tale caratteristica, è l'unico modo per lavorare, anche senza il Ministero della Difesa.

Sfortunatamente, non abbiamo queste caratteristiche.

Per y è la divisione della griglia, e per X è la deviazione percentuale della somma dell'obiettivo di ogni classe nell'intero campione. Il filtro è al 5%. Possiamo vedere che diverse classi dominano diverse sezioni e a volte c'è un cambiamento speculare in cui il miglioramento è dovuto a una certa classe (l'istogramma va alla posizione meno) e a volte no. Tutto questo dovrebbe essere utilizzato nell'allenamento, ma i metodi di allenamento standard che conosco non ne tengono molto conto. È possibile che il sovrallenamento con la genetica (più precisamente sull'eliminazione) sia più efficace - dovrebbe essere fatto.