交易中的机器学习:理论、模型、实践和算法交易 - 页 100

 
Mihail Marchukajtes:
你在开始时说得很对。终于有一些明智的人出现在支部里。但模式本身具有预测作用,重要的不是模式本身,而是市场对它的反应。而如果这个反应与训练中的反应相同,网就会得出正确的结论。所以它是这样的....
该怎么做?尝试使用天真贝叶斯分类器或研究J-预测器?
 
尤里-叶夫谢恩科夫
该怎么做?尝试拉动天真的贝索维分类器,或者研究gPredictors?
x什么是Besovian分类器????我不明白,现在雷舍托夫做了一个非常酷的东西,上、下、面团。而你还在用你的R来捣乱。做了一堆不必要的数据处理。虹膜的例子是什么????有意思的是,看看 "预测者 "将如何计算它....
 
Mihail Marchukajtes:
x什么是贝索夫分类器????我不明白,现在雷舍托夫做了一个非常酷的东西,上、下、面团。而你却一直在摆弄你的R。做了一堆不必要的数据处理。虹膜的例子是什么????有意思的是,看看 "预测者 "将如何计算它....
是的,我在这里才发现了R。而在Baesian分类器这个词中,不小心漏掉了一个字母(也许是弗洛伊德所为)。 而雷舍托夫的方案很好,我不争论。我不知道鸢尾花的情况。
 
尤里-叶夫谢恩科夫
我在这里才发现R的存在。而且我不小心漏掉了贝叶斯分类器这个词的一个字母(可能是弗洛伊德写的)。 而且雷谢托夫的程序很酷,我不争论。我不知道艾瑞丝的情况。
IShaitan Reshetov的机器 :-)
 
Mihail Marchukajtes:
x什么是贝索夫分类器????我不明白,现在雷舍托夫做了一件非常酷的事情,开,关,面团。而你却一直在摆弄你的R。做了一堆不必要的数据处理。虹膜的例子是什么????有意思的是,看看 "预测者 "将如何计算它....

我可以看到昨天的交易结果吗?

 
Mihail Marchukajtes:
伊沙坦-雷舍托夫的车 :-)
我们应该删除以我的错别字开始的帖子吗?
 
mytarmailS:

为什么这些指标从来没有工作过,也永远不会工作, 我的看法是...

有谁试过吗?有什么想法吗?还是根本不清楚是什么原因?
 
2 交易员博士。

你好。

是的,我曾试图组建一个委员会。

我有1000个训练有素的模型。有一个延迟5年的样本。我向我的同事请教了如何组建委员会的问题。他建议将委员会集合在递延样本的一个部分,并在另一个部分进行测试。这是我动摇的地方。委员会对第一部分进行了重新培训,并在第二部分展示了梅花。

这与个别模型的情况相同。我犯了一个错误,就是通过延迟抽样来选择一个模型。之后,该模型可以很容易地进行冲洗。
 

其中大部分你自己知道并已经做了,但我将写得更全面,以排除一些我们以相同方式谈论但做得不同的假设。

你需要有一个精心磨练的健身函数来估计模型参数。如果该函数评估特定的模型参数和选定的预测器的分数很高--那么在新数据的测试中应该有好的结果。
(对于任何估计,我都会记住,越高越好)

例如,你有训练的数据,5年。gbm的参数是n.trees, interaction.depth, shrinkage, n.minobsinnode, distribution, bag.fraction。

循环中的健身函数应至少重复50次。
1)将数据分为两部分,50%/50%。既要有带样本的随机抽样,也要有顺序抽样(用于训练的那块在中间某个地方,用于验证的那块在原始数据的开头和结尾处)。包括极端的版本,即在前半部分进行训练,在后半部分进行验证,反之亦然。 我认为既要有顺序采样的样本,也要有随机采样的训练。在图片中,你可以更清楚地看到一些随机和顺序分区的例子,绿色的线是用于训练,黄色的是用于验证。


2)在训练样本上训练模型(整个周期内使用的模型参数和预测器都是一样的,就是你要估计的那些),然后用这个模型预测这些非常的数据,并对预测进行评级--准确率、r^2或其他。例如,我把回归结果四舍五入到类,并使用Cohen's Kappa函数进行估计,它来自caret,我喜欢它比分类准确性或回归准确性更好。但它只对两个班级有效。对于三个班级,我觉得很难提出什么建议,重要的是估计时要分别考虑到每个班级的准确性,并在此基础上给出一些总体估计。
3)应用训练好的模型来预测验证样本的数据,用同样的函数估计预测结果。
4)两个估计值(训练和验证)应相互接近,并尽可能地高。我使用这个代码来计算最终得分 - (min(score1,score2) - (max(score1,score2)-min(score1,score2))- 从最小值中减去他们的delta。

在每个迭代结束时,我们将得到一些分数,由于数据的随机分割,它可能从-1到1不等(或在另一个区间,取决于使用的函数)。我们计算它们的平均值,并将其作为健身函数的结果返回。此外,我为每个使用的预测器从健身值中减去一个小数字(0.0001),以惩罚模型中太大的所需数据集。

我将此与遗传学一起应用,它挑选出预测器和模型参数,使健身价值最大化。

最终的结果是一组预测器和模型参数,在现有的训练数据上平均具有良好的预测结果。该模型可以在数据中找到一些模式,从中学习,并且仍然可以在新的验证数据中成功找到这些相同的模式,无论哪种数据样本被用于训练。
由于模型每次只使用50%的可用数据进行训练,并在此基础上选择参数和预测因子,所以这是模型的一个重要条件。
委员会的模型应该在相同的条件下进行训练--通过抽样或连续选择50%的数据进行训练。对于每个新的模型,也需要一个新的样本(或顺序集)。

这样的委员会能提供多长时间的良好预测是未知的,但考虑到训练数据是5年的,委员会显然会比未来5年的寿命更短。
还有一点很重要--如果在为创建委员会花费了所有时间后,它将是亏损的交易--那么用于预测的软件包就不适合外汇。也许它有太多的自由度,或者根本不适合。最好是采取另一个包裹。或者你可以尝试将训练数据的比例从50%减少到更少。

所有这些都来自于本论坛的建议,以及经验。

 
Dr.Trader:

其中大部分你自己知道并已经做了,但我将写得更全面,以排除一些我们以相同方式谈论但做得不同的假设。

人们必须有一个精心磨练的健身函数来估计模型参数。如果该函数对特定的模型参数和选定的预测器进行了评估,并获得了高分--那么在新数据的测试中应该有好的结果。
(对于任何估计,我都会记住,越高越好)

例如,你有训练的数据,5年。gbm的参数是n.trees, interaction.depth, shrinkage, n.minobsinnode, distribution, bag.fraction。

健身函数在一个周期内至少应重复50次。
1)将数据分为两部分,50%/50%。既要有带样本的随机抽样,也要有顺序抽样(用于训练的那块在中间某个地方,用于验证的那块在原始数据的开头和结尾处)。包括极端的版本,即在前半部分进行训练,在后半部分进行验证,反之亦然。 我认为既要有顺序采样的样本,也要有随机采样的训练。在图片中,你可以更清楚地看到一些随机和顺序分区的例子,绿色的线是用于训练,黄色的是用于验证。


2)在训练样本上训练模型(整个周期内使用的模型参数和预测器都是一样的,就是你要估计的那些),然后用这个模型预测这些非常的数据,并对预测进行评级--准确率、r^2或其他。例如,我把回归结果四舍五入到类,并使用Cohen's Kappa函数进行估计,它来自caret,我喜欢它比分类准确性或回归准确性更好。但它只对两个班级有效。对于三个班级,我觉得很难提出什么建议,重要的是估计时要分别考虑到每个班级的准确性,并在此基础上给出一些总体估计。
3)应用训练好的模型来预测验证样本的数据,用同样的函数估计预测结果。
4)两个估计值(训练和验证)应相互接近,并尽可能地高。我使用这个代码来计算最终得分 - (min(score1,score2) - (max(score1,score2)-min(score1,score2))- 从最小值中减去他们的delta。

在每个迭代结束时,我们将得到一些分数,由于数据的随机分割,它可能从-1到1不等(或在另一个区间,取决于使用的函数)。我们计算它们的平均值,并将其作为健身函数的结果返回。此外,我为每个使用的预测器从健身值中减去一个小数字(0.0001),以惩罚模型中太大的所需数据集。

我将此与遗传学一起应用,它挑选出预测器和模型参数,使健身价值最大化。

最终的结果是一组预测器和模型参数,在现有的训练数据上平均具有良好的预测结果。该模型可以在数据中找到一些模式,从中学习,并且仍然可以在新的验证数据中成功找到这些相同的模式,无论哪种数据样本被用于训练。
由于模型每次只使用50%的可用数据进行训练,并在此基础上选择参数和预测因子,所以这是模型的一个重要条件。
委员会的模型应该在相同的条件下进行训练--通过抽样或连续选择50%的数据进行训练。对于每个新的模型,也需要一个新的样本(或顺序集)。

这样的委员会能提供多长时间的良好预测是未知的,但考虑到训练数据是5年的,委员会显然会比未来5年的寿命更短。
还有一点很重要--如果在为创建委员会花费了所有时间后,它将是亏损的交易--那么用于预测的软件包就不适合外汇。也许它有太多的自由度,或者根本不适合。最好是采取另一个包裹。或者你可以尝试将训练的数据比例从50%减少到更少。

所有这些都来自于本论坛的建议,以及经验。

一个很好的总结。

祝贺你!