L'apprendimento automatico nel trading: teoria, modelli, pratica e algo-trading - pagina 2254

 
Maxim Dmitrievsky:

Non stavo pensando molto, solo un'ipotesi basata sul frugare in giro.

hmm vi darà dei chip che il cane non ha mai visto prima. Ma simile a quelli che avete visto. In una trasformazione inversa potrebbe avere qualche effetto, credo. Aggiungete un po' di rumore.

Questa è una supposizione.

Sono un po' confuso qui...

In ogni modo la PCA è lineare, non distorce nulla, se hai tutte le componenti puoi rimettere ciò che hai scomposto senza perdite

 
mytarmailS:

Sono già confuso qui...

In ogni modo la PCA è lineare, non distorce nulla, se hai tutti i componenti puoi rimettere insieme ciò che hai scomposto senza perdite.

Quindi c'è una trappola da qualche altra parte. Funziona bene con le immagini con PCA, e peggio con le citazioni, anche se più velocemente.

Beh, è comprensibile... le immagini e i numeri sono facili da prevedere, ma il mercato non è stazionario. Se usate la PCA, i componenti smettono di essere rilevanti quando cambia la volatilità o qualcos'altro.

come i filtri digitali )))

 
Maxim Dmitrievsky:

La tua PCA non lo risolve, le componenti smettono di essere rilevanti quando cambia la volatilità

Non so cosa intendi, ma...

se si sommano tutte le componenti della PCA sui nuovi dati si ottiene lo stesso prezzo tick per tick, quindi... Non so cosa intendi per pertinenza

 
mytarmailS:

Non so cosa intendi, ma...

Se si sommano tutte le componenti della PCA sui nuovi dati, si ottiene lo stesso prezzo tick per tick, quindi... Non so cosa intendi per rilevanza.

parliamo del cane più tardi, ho sonno)

i codificatori non hanno lavorato empiricamente

 
Maxim Dmitrievsky:

Parliamo del cane più tardi, ho sonno).

I codificatori non hanno funzionato empiricamente.

ok

 
mytarmailS:

Sarai il primo.

Guardando un corso sul metodo bayesiano 2019, ci sono alcune idee interessanti, ma le formule inibiscono la comprensione. Ecco un pensiero, che ha provato approcci moderni con la logica bayesiana. Il docente sostiene in generale che tutto il MO senza metodi bayesiani per la stima della probabilità nel MO è solo un adattamento.


Parlando di adattamento, sono sempre più propenso a concludere che i modelli CatBoost degradano i loro risultati su campioni al di fuori del training a causa del campione non rappresentativo e del modo in cui il modello è costruito. Il punto è che nei modelli classici gli alberi sono simmetrici e non c'è potatura, il che può portare a una situazione in cui ci sono pochissimi dati in una foglia, ma la foglia ottiene un peso non piccolo, e se questa è una partizione difettosa, allora sui campioni fuori dall'allenamento, se ci sono molti esempi nella foglia difettosa, porterà a una distorsione significativa dei risultati. E ci potrebbero essere migliaia di queste foglie. Se il campione fosse rappresentativo, non ci sarebbero problemi perché il peso nel foglio sarebbe adeguato e coerente con la natura della distribuzione dei dati (entropia). Dovresti provare a smistare le foglie con un piccolo numero di esemplari azzerando i loro pesi.

L'idea è che il modello risponderebbe solo ai dati di cui ha conoscenza, non un giudizio del tipo "se questo è giusto, questo è sbagliato" come avviene ora.
 
Aleksey Vyazmikin:

Guardando un corso sul metodo bayesiano 2019, ci sono alcune idee interessanti, ma le formule ostacolano la comprensione. Ecco un pensiero, che ha provato approcci moderni con la logica bayesiana. Il docente sostiene in generale che tutto il MO senza metodi bayesiani per la stima della probabilità nel MO è solo un adattamento.


Parlando di adattamento, sono sempre più propenso a concludere che i modelli CatBoost degradano i loro risultati su campioni al di fuori del training a causa del campione non rappresentativo e del modo in cui il modello è costruito. Il punto è che nei modelli classici gli alberi sono simmetrici e non c'è potatura, il che può portare a una situazione in cui ci sono pochissimi dati in una foglia, ma la foglia ottiene un peso non piccolo, e se questa è una partizione difettosa, allora sui campioni fuori dall'allenamento, se ci sono molti esempi nella foglia difettosa, porterà a una distorsione significativa dei risultati. E ci potrebbero essere migliaia di queste foglie. Se il campione fosse rappresentativo, non ci sarebbero problemi perché il peso nel foglio sarebbe adeguato e coerente con la natura della distribuzione dei dati (entropia). Dovremmo cercare di escludere le foglie con un piccolo numero di esempi azzerando i loro pesi.

L'idea è che il modello reagisca solo ai dati di cui ha un'idea, non un giudizio del tipo "se questo è giusto, quello è sbagliato", come succede ora.

La rappresentatività è una condizione importante.

Il katbust, quando viene diviso, produce foglie con un piccolo numero di esemplari per foglia? La profondità consigliata è di 6, cioè 2^6=64, cioè un foglio farà la media di 1/64 delle righe dell'intero campione. Se avete almeno 10000 righe di formazione, ci saranno in media circa 156 esempi per foglio. Penso che questo sia abbastanza rappresentativo secondo me.

Anche se se fai gli alberi simmetrici, ci potrebbe essere qualche distorsione. Quanto piccole sono state le foglie e quante file sono state presentate per la formazione?

 
elibrarius:

La rappresentatività è un prerequisito importante.

Il katbust, quando è diviso, produce foglie con un piccolo numero di esempi nel foglio? La profondità consigliata è di 6, che è 2^6=64, cioè il foglio farà la media di 1/64 delle righe dell'intero campione. Se avete almeno 10000 righe di formazione, ci saranno in media circa 156 esempi per foglio. Penso che questo sia abbastanza rappresentativo secondo me.

Anche se se fai gli alberi simmetrici, ci potrebbe essere qualche distorsione. Quanto piccole sono state le foglie e quante file sono state presentate per la formazione?

In questo momento non ho numeri esatti - questa è solo un'ipotesi. Devo tornare ai miei vecchi codici, credo di aver avuto la possibilità di ottenere tali statistiche lì - ho dimenticato. Hai ragione a dire che la media non sembra scoraggiante, ma questo non significa che non ci saranno parecchi esempi in un foglio.

Vediamo che i margini di estrema probabilità sul campione di allenamento e sul campione di test di solito differiscono in modo significativo - suppongo che proprio la ragione siano le foglie con un piccolo numero di esempi, tali foglie si trovano solo raramente sul campione di test.

 

C'è una visualizzazione della stima delle statistiche di attivazione delle foglie degli alberi - uno dei vecchi modelli.

La y è il numero della foglia e la x è la riga di campionamento. Il colore mostra il coefficiente di peso della foglia modulo.

Si può vedere che anche qui ci sono rare attivazioni di foglie, il che significa che l'ipotesi è valida - è un esame a campione


 
Aleksey Vyazmikin:

C'è una visualizzazione della stima delle statistiche di attivazione delle foglie degli alberi - uno dei vecchi modelli.

La y è il numero della foglia e la x è la riga di campionamento. Il colore mostra il coefficiente di peso della foglia modulo.

Si può vedere che anche qui ci sono rare attivazioni di foglie, quindi l'ipotesi è ragionevole - è un campionamento


L'attivazione rara su Exam significa piuttosto che il mercato è cambiato e ciò che accadeva sul traino ha smesso di accadere. E non è nemmeno detto che ci siano state poche attivazioni sul foglio degli apprendisti.