交易中的机器学习:理论、模型、实践和算法交易 - 页 2130

 
Aleksey Vyazmikin:

已经开始训练了,没有分钟--我们会看到的。

我还使用1/4条时间--小时、4小时、天。

一般来说,事实证明,木制模型需要大量的输入,这些输入被尽可能地预先划分,即有最小数量的可能自己划分。

 
elibrarius:

一般来说,事实证明,木质模型需要许多尽可能预先分离的输入,即具有最小数量的可能的自身划分。

如果你自己做量化,那么是的,但也有内置的自动化。

上面的直方图只是每个预测器的不同量子数,你可以看到它们如何影响最终结果。

如果要取出有价值的信息的脉络作为预测器的一个单独的量子,可以将这个脉络编码为二进制特征,并将其单独输入。

 
elibrarius:

一般来说,事实证明,木制模型需要输入大量的输入,这些输入尽可能地被预先分割,即有最小数量的可能的自身分割。

平衡 - T1有分钟,T2无分钟 -平均结果: 3384/3126/3890

召回 - 平均结果:0.0459/0.0424/0.0458


精度--平均 得分:0.5216/0.5318/0.5389

从T2总分的平均分数来看,出现了最坏的情况。

我打开了预测因子的显著性表,感到很惊讶



我似乎不喜欢训练方法所做的最后一次改变,也许我做错了什么?

//день недели, час = ввести через 2 предиктора sin и cos угла от полного цикла 360/7,  360/24
   double tmp[4];
   int nInd=0;
   MqlDateTime dts;
   double pi=3.1415926535897932384626433832795;
   for(int buf=0; buf<2; buf++)
   {
      TimeToStruct(iTime(Symbol(),PERIOD_CURRENT,0),dts);
      //tmp[buf]=(double)(dts.hour*60+dts.min)*360.0/1440.0;
      tmp[buf]=(double)(dts.hour*60+dts.min)*360.0/24.0;
      tmp[buf]=(buf==0?MathSin(tmp[0]*pi/180.0):MathCos(tmp[0]*pi/180.0));

      TimeToStruct(iTime(Symbol(),PERIOD_CURRENT,0),dts);
      //tmp[buf+2]=(double)(dts.day_of_week*1440+dts.hour*60+dts.min)*360.0/10080.0;
      tmp[buf+2]=(double)dts.day_of_week*360.0/7.0;
      tmp[buf+2]=(buf==0?MathSin(tmp[0]*pi/180.0):MathCos(tmp[0]*pi/180.0));
   }


我打开了样品



而且我看到TimeHG列包含了小时--我的错误--我需要重新做所有的测试。


 
Aleksey Vyazmikin:

平衡--有会议的T1和没有会议的T2--平均得分: 3384/3126/3890

召回 - 平均得分:0.0459/0.0424/0.0458


精度--平均 得分:0.5216/0.5318/0.5389

从T2总分的平均分数来看,出现了最坏的情况。

我打开了预测因子的显著性表,感到很惊讶



我似乎不喜欢训练方法所做的最后一次改变,也许我做错了什么?


我打开了样品



我看到TimeHG这一栏--是小时--我的错误--我需要重新做所有的测试。


而时间仍然与分钟同在。

 tmp[buf]=(double)(dts.hour*60+dts.min)*360.0/24.0;

它应该是这样的

 tmp[buf]=(double)(dts.hour)*360.0/24.0;
TimeHG--显然接管了一切,这就是为什么其他手表没有被使用。
 
elibrarius:

而时钟只剩下几分钟的时间

我们必须这样做。

好的。

 

训练了3个月--纯粹是为了好玩--一开始就训练。整个时间表是2014-2020年。

如果你采取大周期,你会得到一个平庸的模型。同时,你可以在整个期间采取3个月的不同时期。

例如在这里,你可以看到训练的时期--前后的动态是积极的。


当前的期货

垫子的期望值显示为6.15的实际刻度。

我拿了一个较新的模型。


有趣的是,它们是不同的,这为将它们合并成一个委员会提供了潜力。数学上的期望值是12.64。

下面是一个直方图,包括训练样本的估计余额,取决于训练窗口的数字--数字越大,越接近我们的时间,我提醒你,样本是从2014年到2020年10月。

有趣的是,在一些地方,利润几乎下降到最高值的一半。这可能意味着什么--训练时更嘈杂的区域?

 
elibrarius:

而时钟只剩下几分钟的时间

它应该是这样的

TimeHG--显然是接管了一切,这就是为什么其余的时钟没有被使用。

余额 - T1有会议记录和T2无会议记录 - 平均结果:4209.70/2882.50/3889.90


召回 - 平均结果:0.0479/0.0391/0.0458


精度--平均得分:0.5318/0.5168/0.5389

预测因素的重要性



平均来说,没有分钟的选项(T2)就会合并。

 
Aleksey Vyazmikin:

平衡--有会议记录的T1和没有会议记录的T2--平均得分:4209.70/2882.50/3889.90


召回 - 平均得分:0.0479/0.0391/0.0458


精度--平均得分:0.5318/0.5168/0.5389

预测因素的重要性



平均来说,没有分钟的选项(T2)就会合并。

结论是什么?
分钟给予增加。
关于哪个更好,我不明白--时间是正弦和余弦还是仅仅是日、时、分的数字?
 
elibrarius:
结论是什么?
分钟给予增加。
关于哪个更好--时间是正弦和余弦,还是只作为日、时、分的数字?

到目前为止,我们可以得出结论,T2显然是一个更糟糕的选择,添加正弦和余弦不等同于线性时间。我认为结果不同是因为数字的表示方法,即它们之间的距离。不同的距离影响了聚类网格的形成--因此出现了差异。

 
Aleksey Vyazmikin:

到目前为止,我们可以得出结论,T2显然是一个更糟糕的选择,添加正弦和余弦不等同于线性时间。我认为结果不同是因为数字的表示方法,即它们之间的距离。不同的距离会影响聚类网格的形成--因此出现了差异。

理论上--对树来说应该是一样的。
日、时、分的不同选项数量等于正弦和余弦的选项数量。7天内那里和那里都是10080个不同的值,每分钟变化一次。
如果在训练中存在任何随机性,这可能是造成差异的原因。

你用什么训练过吗,catbust?

对于NS来说,正弦和余弦当然更好,因为59和1分钟会挨在一起,用数字表示它们的距离越远越好。如果你想让树理解它,你就必须做几个额外的分割,这可能是它所缺乏的深度限制。