L'apprendimento automatico nel trading: teoria, modelli, pratica e algo-trading - pagina 2126

 
elibrarius:
E che senso ha se lo spread non lo copre?

con duplicati sempre sovracopertura, i residui del modello sono autocorrelati

cioè l'auto-inganno. vedi l'immagine del post precedente.
 
Maxim Dmitrievsky:

con i duplicati sempre sovrascritti, i residui del modello sono autocorrelati

Cioè l'auto-inganno. vedi l'immagine del post precedente.
Immagine senza spiegazioni - solo un'immagine)
 
elibrarius:
Immagine senza spiegazione - solo un'immagine)

I cicli nella prima immagine sono le serie di marchi, il modello viene riqualificato su di essi. Perché i nuovi dati hanno una serie completamente diversa

presi dal set di dati, le loro relazioni(spazio delle caratteristiche). Ho già scritto e lanciato tali screenshot.

 
Maxim Dmitrievsky:

Le cerniere nella prima foto sono le marcature di serie e il modello è riqualificato su di esse. Perché i nuovi dati hanno una serie completamente diversa

presi dal dataset, 5 componenti principali e le loro relazioni (spazio delle caratteristiche). Ho già scritto e incollato questi screenshot.

Se non riesci a sbarazzarti dello spread, significa che non hai bisogno di molta riqualificazione.
Secondo me, è meglio usare altri modi per combattere il sovrallenamento.
 
elibrarius:
Se non riesci a battere lo spread, allora non ti stai davvero sovrallenando.
Secondo me, è meglio non dimagrire, ma usare altri modi per combattere il sovrallenamento.
Lo spread non può essere battuto dopo la semplice decorrelazione, ma il modello è più stabile sui nuovi dati senza spread. Qualsiasi modello che è sovraccarico su serie, versa senza spread su n.d., ma su un vassoio è molto meglio del primo (funziona anche con lo spread). Questo mostra chiaramente una riqualificazione alla serializzazione e nient'altro. So che è difficile da capire, ma è così 🤣 Se guardi di nuovo le immagini, vedrai picchi di distribuzione più alti e forse code, sulla prima. Questa è serialità, volatilità, qualsiasi cosa. Cambia quasi immediatamente sui nuovi dati, da cui l'overfit. La seconda immagine in basso non ce l'ha, è tutto ciò che resta, e in quella spazzatura bisogna cercare un'Alfa che batta lo spread. Guardate i vostri dati e rimuovete almeno la serialità, o trasformateli in qualche modo per rimuovere le code. E poi guardate le distribuzioni delle classi di ciò che rimane, ci sono gruppi di cluster normali o una completa casualità come la mia. In questo modo puoi anche vedere visivamente se il dataset funziona o fa schifo. E poi si può mescolare la convalida con il trayn, non influenzerà nulla. E tu dici "solo una foto".
 
elibrarius:

//день недели, час = ввести через 2 предиктора sin и cos угла от полного цикла 360/7,  360/24
                     
if(nameInd[nInd]=="Hour")        {CopyTime        (sim,per,startDt,n_bar+1,dtm);TimeToStruct(dtm[0],dts);ArrayResize(tmp,1);tmp[0]=(double)(dts.hour*60+dts.min)*360.0/1440.0;tmp[0]=(buf==0?MathSin(tmp[0]*pi/180.0):MathCos(tmp[0]*pi/180.0));}// для увеличения точности добавлены минуты  360/24 = 360/24/60 = 360/1440

if(nameInd[nInd]=="WeekDay")     {CopyTime        (sim,per,startDt,n_bar+1,dtm);TimeToStruct(dtm[0],dts);ArrayResize(tmp,1);tmp[0]=(double)(dts.day_of_week*1440+dts.hour*60+dts.min)*360.0/10080.0;tmp[0]=(buf==0?MathSin(tmp[0]*pi/180.0):MathCos(tmp[0]*pi/180.0));}// для увеличения точности добавлены часы и минуты 360/7 = 360/7/24/60 = 360/10080

Per codice, se buf==0, ha un seno, altrimenti ( buf==1 ) coseno.


I modelli di legno digeriscono tutto.
Il seno e il coseno sono buoni per NS perché sono già normalizzati a -1...+1

Se confronti questa variante con il tempo numerato, dimmi quale è meglio. Mi sembra che dovrebbe corrispondere al 100% se si inserisce il giorno della settimana, l'ora e i minuti.

Non sei sicuro che il seno o il coseno siano a discrezione dell'utente?

pi - l'hai preso da una biblioteca o è solo preciso fino a una certa cifra, quale - faresti meglio a scrivere qui quale costante hai impostato.

 
Aleksey Vyazmikin:

Non ho capito bene - il seno o il coseno si ottiene a discrezione dell'utente?

pi - l'hai preso dalla biblioteca, o è solo accurato fino a un certo segno, quale - faresti meglio a scrivere la costante che hai impostato qui.

Hai bisogno di 2 colonne nel modello - sia seno che coseno per l'orologio. E seno + coseno per il giorno della settimana. Vedi il link per una descrizione del perché questo dovrebbe essere fatto.

pi = 3,141529 ... dalla scuola

 

Il libro discusso sopra mi rende consapevole della pochezza delle mie conoscenze in matematica, se qualcuno legge liberamente lo invidio.

La domanda è: qual è il modo migliore per descrivere con un numero o due un processo che si ripete periodicamente a diversi intervalli di tempo? Il processo ha un alto tasso di ripetizione, una certa banda densa e poi la frequenza si affievolisce e può non esserci alcun segnale per il 15% dell'intervallo osservato. Lo scopo è quello di determinare se non c'è un affollamento critico (70%) in qualsiasi parte del periodo di osservazione e non c'è abbastanza segnale in altri intervalli, cioè più vicino ad una distribuzione uniforme meglio è, ma la natura del segnale stesso è lontano da una distribuzione uniforme (penso così).

 
Aleksey Vyazmikin:

Non ho capito bene - il seno o il coseno si ottiene a discrezione dell'utente?

pi - l'hai preso da una biblioteca o è solo accurato fino a un certo segno, quale - faresti meglio a scrivere qui la costante che hai impostato.

Hai CATboost 😑 basta segnare le caratteristiche come categoriche