交易中的机器学习:理论、模型、实践和算法交易 - 页 2126

 
elibrarius:
而如果差价不能覆盖,又有什么意义?

与重复的总是过度覆盖,模型残差是自相关的

即自欺欺人。见上一篇文章的图片。
 
Maxim Dmitrievsky:

与重复的总是覆盖,模型残差是自相关的

即自欺欺人。见上一篇文章的图片。
没有解释的图片--只是一张图片)
 
elibrarius:
图片没有解释 - 只是一张图片)

第一张图片中的铰链是标记系列,模型对它们进行了重新训练。因为新的数据有一个完全不同的系列

取自数据集,它们的关系(特征空间)。我已经写了并扔了这样的屏幕截图。

 
Maxim Dmitrievsky:

第一张图片中的铰链是系列标记,模型是在它们上面重新训练的。因为新的数据有一个完全不同的系列

取自数据集,5个主要成分和它们的关系(特征空间)。我已经写好并粘贴了这些截图。

如果你不能摆脱传播,这意味着你不需要太多的再培训。
在我看来,最好使用其他方法来对抗过度训练。
 
elibrarius:
如果你不能战胜差价,那么你就不是真正的过度训练。
在我看来,最好不要瘦,而是用其他方式来对抗过度训练。
在简单的去相关化之后,传播不能被打败,但在没有传播的新数据上,模型更稳定。任何在系列上过量的模型,在n.d.上倒是没有铺开,但在托盘上就比第一种好得多(用铺开也可以)。这清楚地表明了对序列化的再培训,而不是其他。我知道这很难理解,但这是🤣如果你再看一下图片,你会看到更高的分布峰值,也许还有尾巴,在第一张上。这就是序列性、波动性,不管是什么。它在新的数据上几乎立即发生变化,因此出现了过拟合。第二张底图没有这个,就剩下这个了,在那片垃圾中,你必须寻找一个能打败价差的阿尔法。只要看看你的数据,至少要去除序列性,或者以某种方式进行转换,以去除尾巴。然后再看看剩下的类分布,是有正常的群组还是像我这样完全随机的。这样,你甚至可以直观地看到数据集是有效的还是垃圾的。然后你可以将验证与trayn混合,它不会影响任何东西。而你说 "只是一张照片"。
 
elibrarius:

//день недели, час = ввести через 2 предиктора sin и cos угла от полного цикла 360/7,  360/24
                     
if(nameInd[nInd]=="Hour")        {CopyTime        (sim,per,startDt,n_bar+1,dtm);TimeToStruct(dtm[0],dts);ArrayResize(tmp,1);tmp[0]=(double)(dts.hour*60+dts.min)*360.0/1440.0;tmp[0]=(buf==0?MathSin(tmp[0]*pi/180.0):MathCos(tmp[0]*pi/180.0));}// для увеличения точности добавлены минуты  360/24 = 360/24/60 = 360/1440

if(nameInd[nInd]=="WeekDay")     {CopyTime        (sim,per,startDt,n_bar+1,dtm);TimeToStruct(dtm[0],dts);ArrayResize(tmp,1);tmp[0]=(double)(dts.day_of_week*1440+dts.hour*60+dts.min)*360.0/10080.0;tmp[0]=(buf==0?MathSin(tmp[0]*pi/180.0):MathCos(tmp[0]*pi/180.0));}// для увеличения точности добавлены часы и минуты 360/7 = 360/7/24/60 = 360/10080

根据代码,如果buf==0,就有正弦,否则(buf==1)有余弦。


木制模型可以消化一切。
正弦和余弦对NS来说是很好的,因为它们已经被归一化为-1...+1

如果你把这个变体与编号的时间进行比较,告诉我哪个更好。在我看来,如果你输入星期、小时和分钟,它应该100%匹配。

不太清楚正弦或余弦是由用户决定的?

pi--你是从图书馆得到的,还是只是精确到某一个数字,哪一个--你最好在这里写出你设定的常数。

 
Aleksey Vyazmikin:

我不太明白--正弦或余弦的获得是由用户决定的吗?

pi--你是从图书馆得到的,还是只是精确到某个符号,哪个--你最好把你设定的常数写在这里。

你在模型中需要2列--时钟的正弦和余弦都需要。而正弦+余弦是指一周中的一天。关于为什么要这样做,请看链接。

pi = 3,141529 ...从学校

 

上面讨论的这本书让我意识到自己在数学方面知识的匮乏,如果有人自由阅读,我很羡慕。

问题是,用一个或两个数字来描述一个在不同时间间隔内周期性重复的过程的最佳方式是什么?这个过程有很高的重复率,有一定的密集带,然后频率逐渐减弱,在大约15%的观察间隔内可能没有信号。目的是确定在观察期的任何部分没有临界(70%)的拥挤,而在其他区间没有足够的信号,即越接近均匀分布 越好,但信号本身的性质远非均匀分布(我认为如此)。

 
Aleksey Vyazmikin:

我不太明白--正弦或余弦的获得是由用户决定的吗?

pi--你是从图书馆得到的,还是只是精确到某个符号,哪一个--你最好在这里写上你设定的常数。

你有CATboost😑,只需将特征标记为分类的。