L'apprentissage automatique dans la négociation : théorie, modèles, pratique et algo-trading - page 2126

 
elibrarius:
Et quel est l'intérêt si le spread ne le couvre pas ?

avec des doublons toujours en surcouverture, les résidus du modèle sont autocorrélés.

c'est-à-dire l'auto-illusion. voir l'image du post précédent.
 
Maxim Dmitrievsky:

avec les doublons toujours écrasés, les résidus du modèle sont autocorrélés

C'est-à-dire l'auto-illusion. Voir l'image du post précédent.
Photo sans explications - juste une photo)
 
elibrarius:
Image sans explication - juste une image)

Les boucles dans la première image sont les séries de marques, le modèle est réentraîné sur elles. Parce que les nouvelles données ont une série complètement différente

prises dans l'ensemble de données, leurs relations(espace des caractéristiques). J'ai déjà écrit et jeté de telles captures d'écran.

 
Maxim Dmitrievsky:

Les charnières sur la première photo sont les marques de série et le modèle est recyclé sur celles-ci. Parce que les nouvelles données ont une série complètement différente

extraites du jeu de données, 5 composantes principales et leurs relations (espace des caractéristiques). J'ai déjà écrit et collé ces captures d'écran.

Si vous ne pouvez pas vous débarrasser de la propagation, cela signifie que vous n'avez pas besoin de beaucoup de recyclage.
À mon avis, il est préférable d'utiliser d'autres moyens pour lutter contre le surentraînement.
 
elibrarius:
Si vous ne pouvez pas battre le spread, alors vous n'êtes pas vraiment en surentraînement.
À mon avis, il vaut mieux ne pas maigrir, mais utiliser d'autres moyens pour lutter contre le surentraînement.
L'écart ne peut être battu après une simple décorrélation, mais le modèle est plus stable sur les nouvelles données sans écart. Tout modèle qui est trop rempli sur la série, verse sans étalement sur le n.d., mais sur un plateau est bien meilleur que le premier (il fonctionne aussi avec l'étalement). Cela montre clairement une reconversion vers la sérialisation et rien d'autre. Je sais que c'est difficile à comprendre, mais ça l'est 🤣 Si vous regardez à nouveau les images, vous verrez des pics de distribution plus élevés et peut-être des queues, sur la première. C'est la sérialité, la volatilité, peu importe. Il change presque immédiatement sur les nouvelles données, d'où l'overfit. La deuxième photo du bas n'en a pas, c'est tout ce qui reste, et dans ce fatras, il faut chercher un Alpha qui bat le spread. Regardez simplement vos données et supprimez au moins la sérialité, ou transformez-les d'une manière ou d'une autre pour supprimer les queues. Et ensuite, regardez la distribution des classes de ce qui reste, y a-t-il des groupes normaux ou un hasard complet comme le mien ? De cette façon, vous pouvez même voir visuellement si l'ensemble de données fonctionne ou non. Et puis vous pouvez mélanger la validation avec trayn, ça n'affectera rien. Et vous dites "juste une photo".
 
elibrarius:

//день недели, час = ввести через 2 предиктора sin и cos угла от полного цикла 360/7,  360/24
                     
if(nameInd[nInd]=="Hour")        {CopyTime        (sim,per,startDt,n_bar+1,dtm);TimeToStruct(dtm[0],dts);ArrayResize(tmp,1);tmp[0]=(double)(dts.hour*60+dts.min)*360.0/1440.0;tmp[0]=(buf==0?MathSin(tmp[0]*pi/180.0):MathCos(tmp[0]*pi/180.0));}// для увеличения точности добавлены минуты  360/24 = 360/24/60 = 360/1440

if(nameInd[nInd]=="WeekDay")     {CopyTime        (sim,per,startDt,n_bar+1,dtm);TimeToStruct(dtm[0],dts);ArrayResize(tmp,1);tmp[0]=(double)(dts.day_of_week*1440+dts.hour*60+dts.min)*360.0/10080.0;tmp[0]=(buf==0?MathSin(tmp[0]*pi/180.0):MathCos(tmp[0]*pi/180.0));}// для увеличения точности добавлены часы и минуты 360/7 = 360/7/24/60 = 360/10080

Par code, si buf==0, il a un sinus, sinon ( buf==1 ) un cosinus.


Les modèles en bois digèrent tout.
Le sinus et le cosinus sont bons pour NS car ils sont déjà normalisés à -1...+1

Si vous comparez cette variante avec le temps numéroté, dites-moi laquelle est la meilleure. Il me semble que cela devrait correspondre à 100% si vous indiquez le jour de la semaine, l'heure et la minute.

Vous ne savez pas si le sinus ou le cosinus est à la discrétion de l'utilisateur ?

pi - l'avez-vous obtenu dans une bibliothèque ou est-il juste précis à un certain chiffre, lequel - vous feriez mieux d'écrire ici quelle constante vous avez définie.

 
Aleksey Vyazmikin:

Je ne comprends pas bien - le sinus ou le cosinus est-il obtenu à la discrétion de l'utilisateur ?

pi - l'avez-vous obtenu de la bibliothèque, ou est-il juste précis jusqu'à un certain signe, lequel - vous feriez mieux d'écrire la constante que vous avez fixée ici.

Vous avez besoin de 2 colonnes dans le modèle - le sinus et le cosinus pour l'horloge. Et sinus + cosinus pour le jour de la semaine. Voir le lien pour une description de la raison pour laquelle cela devrait être fait.

pi = 3,141529 ... de l'école

 

Le livre dont il est question ci-dessus me fait prendre conscience de l'indigence de mes connaissances en mathématiques, si quelqu'un lit librement je l'envie.

La question est de savoir quelle est la meilleure façon de décrire avec un ou deux chiffres un processus qui se répète périodiquement à différents intervalles de temps. Le processus a un taux de répétition élevé, une certaine bande dense, puis la fréquence s'estompe et il peut n'y avoir aucun signal pendant 15% de l'intervalle observé. L'objectif est de déterminer s'il n'y a pas d'affluence critique (70 %) dans une partie quelconque de la période d'observation et s'il n'y a pas assez de signal dans d'autres intervalles, c'est-à-dire que plus on se rapproche d'une distribution uniforme, mieux c'est, mais la nature du signal lui-même est loin d'une distribution uniforme (je le pense).

 
Aleksey Vyazmikin:

Je ne comprends pas bien - le sinus ou le cosinus est-il obtenu à la discrétion de l'utilisateur ?

pi - l'avez-vous obtenu dans une bibliothèque ou est-il juste précis jusqu'à un certain signe, lequel - vous feriez mieux d'écrire ici la constante que vous avez fixée.

Vous avez CATboost 😑 il suffit de marquer les caractéristiques comme catégoriques.