交易中的机器学习：理论、模型、实践和算法交易

Yuri Evseenkov 2016.08.12 06:34 #991

Mihail Marchukajtes:
你在开始时说得很对。终于有一些明智的人出现在支部里。但模式本身具有预测作用，重要的不是模式本身，而是市场对它的反应。而如果这个反应与训练中的反应相同，网就会得出正确的结论。所以它是这样的....

该怎么做？尝试使用天真贝叶斯分类器或研究J-预测器？

Mihail Marchukajtes 2016.08.12 07:12 #992

尤里-叶夫谢恩科夫。
该怎么做？尝试拉动天真的贝索维分类器，或者研究gPredictors？

x什么是Besovian分类器????我不明白，现在雷舍托夫做了一个非常酷的东西，上、下、面团。而你还在用你的R来捣乱。做了一堆不必要的数据处理。虹膜的例子是什么????有意思的是，看看 "预测者 "将如何计算它....

Yuri Evseenkov 2016.08.12 07:26 #993

Mihail Marchukajtes:
x什么是贝索夫分类器????我不明白，现在雷舍托夫做了一个非常酷的东西，上、下、面团。而你却一直在摆弄你的R。做了一堆不必要的数据处理。虹膜的例子是什么????有意思的是，看看 "预测者 "将如何计算它....

是的，我在这里才发现了R。而在Baesian分类器这个词中，不小心漏掉了一个字母（也许是弗洛伊德所为）。而雷舍托夫的方案很好，我不争论。我不知道鸢尾花的情况。

Mihail Marchukajtes 2016.08.12 07:36 #994

尤里-叶夫谢恩科夫。
我在这里才发现R的存在。而且我不小心漏掉了贝叶斯分类器这个词的一个字母（可能是弗洛伊德写的）。而且雷谢托夫的程序很酷，我不争论。我不知道艾瑞丝的情况。

IShaitan Reshetov的机器 :-)

mytarmailS 2016.08.12 07:52 #995

Mihail Marchukajtes:
x什么是贝索夫分类器????我不明白，现在雷舍托夫做了一件非常酷的事情，开，关，面团。而你却一直在摆弄你的R。做了一堆不必要的数据处理。虹膜的例子是什么????有意思的是，看看 "预测者 "将如何计算它....

我可以看到昨天的交易结果吗？

Yuri Evseenkov 2016.08.12 07:56 #996

Mihail Marchukajtes:
伊沙坦-雷舍托夫的车 :-)

我们应该删除以我的错别字开始的帖子吗？

mytarmailS 2016.08.12 07:56 #997

mytarmailS:

为什么这些指标从来没有工作过，也永远不会工作， 我的看法是...

有谁试过吗？有什么想法吗？还是根本不清楚是什么原因？

Alexey Burnakov 2016.08.12 08:08 #998

2 交易员博士。

你好。

是的，我曾试图组建一个委员会。

我有1000个训练有素的模型。有一个延迟5年的样本。我向我的同事请教了如何组建委员会的问题。他建议将委员会集合在递延样本的一个部分，并在另一个部分进行测试。这是我动摇的地方。委员会对第一部分进行了重新培训，并在第二部分展示了梅花。

这与个别模型的情况相同。我犯了一个错误，就是通过延迟抽样来选择一个模型。之后，该模型可以很容易地进行冲洗。

Dr. Trader 2016.08.12 09:40 #999

其中大部分你自己知道并已经做了，但我将写得更全面，以排除一些我们以相同方式谈论但做得不同的假设。

你需要有一个精心磨练的健身函数来估计模型参数。如果该函数评估特定的模型参数和选定的预测器的分数很高--那么在新数据的测试中应该有好的结果。
(对于任何估计，我都会记住，越高越好)

例如，你有训练的数据，5年。gbm的参数是n.trees, interaction.depth, shrinkage, n.minobsinnode, distribution, bag.fraction。

循环中的健身函数应至少重复50次。
1）将数据分为两部分，50%/50%。既要有带样本的随机抽样，也要有顺序抽样（用于训练的那块在中间某个地方，用于验证的那块在原始数据的开头和结尾处）。包括极端的版本，即在前半部分进行训练，在后半部分进行验证，反之亦然。我认为既要有顺序采样的样本，也要有随机采样的训练。在图片中，你可以更清楚地看到一些随机和顺序分区的例子，绿色的线是用于训练，黄色的是用于验证。

2）在训练样本上训练模型（整个周期内使用的模型参数和预测器都是一样的，就是你要估计的那些），然后用这个模型预测这些非常的数据，并对预测进行评级--准确率、r^2或其他。例如，我把回归结果四舍五入到类，并使用Cohen's Kappa函数进行估计，它来自caret，我喜欢它比分类准确性或回归准确性更好。但它只对两个班级有效。对于三个班级，我觉得很难提出什么建议，重要的是估计时要分别考虑到每个班级的准确性，并在此基础上给出一些总体估计。
3）应用训练好的模型来预测验证样本的数据，用同样的函数估计预测结果。
4）两个估计值（训练和验证）应相互接近，并尽可能地高。我使用这个代码来计算最终得分 - (min(score1,score2) - (max(score1,score2)-min(score1,score2))- 从最小值中减去他们的delta。

在每个迭代结束时，我们将得到一些分数，由于数据的随机分割，它可能从-1到1不等（或在另一个区间，取决于使用的函数）。我们计算它们的平均值，并将其作为健身函数的结果返回。此外，我为每个使用的预测器从健身值中减去一个小数字（0.0001），以惩罚模型中太大的所需数据集。

我将此与遗传学一起应用，它挑选出预测器和模型参数，使健身价值最大化。

最终的结果是一组预测器和模型参数，在现有的训练数据上平均具有良好的预测结果。该模型可以在数据中找到一些模式，从中学习，并且仍然可以在新的验证数据中成功找到这些相同的模式，无论哪种数据样本被用于训练。
由于模型每次只使用50%的可用数据进行训练，并在此基础上选择参数和预测因子，所以这是模型的一个重要条件。
委员会的模型应该在相同的条件下进行训练--通过抽样或连续选择50%的数据进行训练。对于每个新的模型，也需要一个新的样本（或顺序集）。

这样的委员会能提供多长时间的良好预测是未知的，但考虑到训练数据是5年的，委员会显然会比未来5年的寿命更短。
还有一点很重要--如果在为创建委员会花费了所有时间后，它将是亏损的交易--那么用于预测的软件包就不适合外汇。也许它有太多的自由度，或者根本不适合。最好是采取另一个包裹。或者你可以尝试将训练数据的比例从50%减少到更少。

所有这些都来自于本论坛的建议，以及经验。

СанСаныч Фоменко 2016.08.12 09:53 #1000

Dr.Trader:

其中大部分你自己知道并已经做了，但我将写得更全面，以排除一些我们以相同方式谈论但做得不同的假设。

人们必须有一个精心磨练的健身函数来估计模型参数。如果该函数对特定的模型参数和选定的预测器进行了评估，并获得了高分--那么在新数据的测试中应该有好的结果。
(对于任何估计，我都会记住，越高越好)

例如，你有训练的数据，5年。gbm的参数是n.trees, interaction.depth, shrinkage, n.minobsinnode, distribution, bag.fraction。

健身函数在一个周期内至少应重复50次。
1）将数据分为两部分，50%/50%。既要有带样本的随机抽样，也要有顺序抽样（用于训练的那块在中间某个地方，用于验证的那块在原始数据的开头和结尾处）。包括极端的版本，即在前半部分进行训练，在后半部分进行验证，反之亦然。我认为既要有顺序采样的样本，也要有随机采样的训练。在图片中，你可以更清楚地看到一些随机和顺序分区的例子，绿色的线是用于训练，黄色的是用于验证。

2）在训练样本上训练模型（整个周期内使用的模型参数和预测器都是一样的，就是你要估计的那些），然后用这个模型预测这些非常的数据，并对预测进行评级--准确率、r^2或其他。例如，我把回归结果四舍五入到类，并使用Cohen's Kappa函数进行估计，它来自caret，我喜欢它比分类准确性或回归准确性更好。但它只对两个班级有效。对于三个班级，我觉得很难提出什么建议，重要的是估计时要分别考虑到每个班级的准确性，并在此基础上给出一些总体估计。
3）应用训练好的模型来预测验证样本的数据，用同样的函数估计预测结果。
4）两个估计值（训练和验证）应相互接近，并尽可能地高。我使用这个代码来计算最终得分 - (min(score1,score2) - (max(score1,score2)-min(score1,score2))- 从最小值中减去他们的delta。

在每个迭代结束时，我们将得到一些分数，由于数据的随机分割，它可能从-1到1不等（或在另一个区间，取决于使用的函数）。我们计算它们的平均值，并将其作为健身函数的结果返回。此外，我为每个使用的预测器从健身值中减去一个小数字（0.0001），以惩罚模型中太大的所需数据集。

我将此与遗传学一起应用，它挑选出预测器和模型参数，使健身价值最大化。

最终的结果是一组预测器和模型参数，在现有的训练数据上平均具有良好的预测结果。该模型可以在数据中找到一些模式，从中学习，并且仍然可以在新的验证数据中成功找到这些相同的模式，无论哪种数据样本被用于训练。
由于模型每次只使用50%的可用数据进行训练，并在此基础上选择参数和预测因子，所以这是模型的一个重要条件。
委员会的模型应该在相同的条件下进行训练--通过抽样或连续选择50%的数据进行训练。对于每个新的模型，也需要一个新的样本（或顺序集）。

这样的委员会能提供多长时间的良好预测是未知的，但考虑到训练数据是5年的，委员会显然会比未来5年的寿命更短。
还有一点很重要--如果在为创建委员会花费了所有时间后，它将是亏损的交易--那么用于预测的软件包就不适合外汇。也许它有太多的自由度，或者根本不适合。最好是采取另一个包裹。或者你可以尝试将训练的数据比例从50%减少到更少。

所有这些都来自于本论坛的建议，以及经验。

一个很好的总结。

祝贺你!

交易中的机器学习：理论、模型、实践和算法交易 - 页 100