交易中的机器学习:理论、模型、实践和算法交易 - 页 100 1...93949596979899100101102103104105106107...3399 新评论 Yuri Evseenkov 2016.08.12 06:34 #991 Mihail Marchukajtes: 你在开始时说得很对。终于有一些明智的人出现在支部里。但模式本身具有预测作用,重要的不是模式本身,而是市场对它的反应。而如果这个反应与训练中的反应相同,网就会得出正确的结论。所以它是这样的.... 该怎么做?尝试使用天真贝叶斯分类器或研究J-预测器? Mihail Marchukajtes 2016.08.12 07:12 #992 尤里-叶夫谢恩科夫。 该怎么做?尝试拉动天真的贝索维分类器,或者研究gPredictors? x什么是Besovian分类器????我不明白,现在雷舍托夫做了一个非常酷的东西,上、下、面团。而你还在用你的R来捣乱。做了一堆不必要的数据处理。虹膜的例子是什么????有意思的是,看看 "预测者 "将如何计算它.... Yuri Evseenkov 2016.08.12 07:26 #993 Mihail Marchukajtes: x什么是贝索夫分类器????我不明白,现在雷舍托夫做了一个非常酷的东西,上、下、面团。而你却一直在摆弄你的R。做了一堆不必要的数据处理。虹膜的例子是什么????有意思的是,看看 "预测者 "将如何计算它.... 是的,我在这里才发现了R。而在Baesian分类器这个词中,不小心漏掉了一个字母(也许是弗洛伊德所为)。 而雷舍托夫的方案很好,我不争论。我不知道鸢尾花的情况。 Mihail Marchukajtes 2016.08.12 07:36 #994 尤里-叶夫谢恩科夫。 我在这里才发现R的存在。而且我不小心漏掉了贝叶斯分类器这个词的一个字母(可能是弗洛伊德写的)。 而且雷谢托夫的程序很酷,我不争论。我不知道艾瑞丝的情况。 IShaitan Reshetov的机器 :-) mytarmailS 2016.08.12 07:52 #995 Mihail Marchukajtes: x什么是贝索夫分类器????我不明白,现在雷舍托夫做了一件非常酷的事情,开,关,面团。而你却一直在摆弄你的R。做了一堆不必要的数据处理。虹膜的例子是什么????有意思的是,看看 "预测者 "将如何计算它....我可以看到昨天的交易结果吗? Yuri Evseenkov 2016.08.12 07:56 #996 Mihail Marchukajtes: 伊沙坦-雷舍托夫的车 :-) 我们应该删除以我的错别字开始的帖子吗? mytarmailS 2016.08.12 07:56 #997 mytarmailS:为什么这些指标从来没有工作过,也永远不会工作, 我的看法是... 有谁试过吗?有什么想法吗?还是根本不清楚是什么原因? Alexey Burnakov 2016.08.12 08:08 #998 2 交易员博士。你好。是的,我曾试图组建一个委员会。我有1000个训练有素的模型。有一个延迟5年的样本。我向我的同事请教了如何组建委员会的问题。他建议将委员会集合在递延样本的一个部分,并在另一个部分进行测试。这是我动摇的地方。委员会对第一部分进行了重新培训,并在第二部分展示了梅花。这与个别模型的情况相同。我犯了一个错误,就是通过延迟抽样来选择一个模型。之后,该模型可以很容易地进行冲洗。 Dr. Trader 2016.08.12 09:40 #999 其中大部分你自己知道并已经做了,但我将写得更全面,以排除一些我们以相同方式谈论但做得不同的假设。你需要有一个精心磨练的健身函数来估计模型参数。如果该函数评估特定的模型参数和选定的预测器的分数很高--那么在新数据的测试中应该有好的结果。(对于任何估计,我都会记住,越高越好)例如,你有训练的数据,5年。gbm的参数是n.trees, interaction.depth, shrinkage, n.minobsinnode, distribution, bag.fraction。循环中的健身函数应至少重复50次。 1)将数据分为两部分,50%/50%。既要有带样本的随机抽样,也要有顺序抽样(用于训练的那块在中间某个地方,用于验证的那块在原始数据的开头和结尾处)。包括极端的版本,即在前半部分进行训练,在后半部分进行验证,反之亦然。 我认为既要有顺序采样的样本,也要有随机采样的训练。在图片中,你可以更清楚地看到一些随机和顺序分区的例子,绿色的线是用于训练,黄色的是用于验证。2)在训练样本上训练模型(整个周期内使用的模型参数和预测器都是一样的,就是你要估计的那些),然后用这个模型预测这些非常的数据,并对预测进行评级--准确率、r^2或其他。例如,我把回归结果四舍五入到类,并使用Cohen's Kappa函数进行估计,它来自caret,我喜欢它比分类准确性或回归准确性更好。但它只对两个班级有效。对于三个班级,我觉得很难提出什么建议,重要的是估计时要分别考虑到每个班级的准确性,并在此基础上给出一些总体估计。 3)应用训练好的模型来预测验证样本的数据,用同样的函数估计预测结果。 4)两个估计值(训练和验证)应相互接近,并尽可能地高。我使用这个代码来计算最终得分 - (min(score1,score2) - (max(score1,score2)-min(score1,score2))- 从最小值中减去他们的delta。在每个迭代结束时,我们将得到一些分数,由于数据的随机分割,它可能从-1到1不等(或在另一个区间,取决于使用的函数)。我们计算它们的平均值,并将其作为健身函数的结果返回。此外,我为每个使用的预测器从健身值中减去一个小数字(0.0001),以惩罚模型中太大的所需数据集。我将此与遗传学一起应用,它挑选出预测器和模型参数,使健身价值最大化。最终的结果是一组预测器和模型参数,在现有的训练数据上平均具有良好的预测结果。该模型可以在数据中找到一些模式,从中学习,并且仍然可以在新的验证数据中成功找到这些相同的模式,无论哪种数据样本被用于训练。 由于模型每次只使用50%的可用数据进行训练,并在此基础上选择参数和预测因子,所以这是模型的一个重要条件。 委员会的模型应该在相同的条件下进行训练--通过抽样或连续选择50%的数据进行训练。对于每个新的模型,也需要一个新的样本(或顺序集)。这样的委员会能提供多长时间的良好预测是未知的,但考虑到训练数据是5年的,委员会显然会比未来5年的寿命更短。 还有一点很重要--如果在为创建委员会花费了所有时间后,它将是亏损的交易--那么用于预测的软件包就不适合外汇。也许它有太多的自由度,或者根本不适合。最好是采取另一个包裹。或者你可以尝试将训练数据的比例从50%减少到更少。所有这些都来自于本论坛的建议,以及经验。 СанСаныч Фоменко 2016.08.12 09:53 #1000 Dr.Trader:其中大部分你自己知道并已经做了,但我将写得更全面,以排除一些我们以相同方式谈论但做得不同的假设。人们必须有一个精心磨练的健身函数来估计模型参数。如果该函数对特定的模型参数和选定的预测器进行了评估,并获得了高分--那么在新数据的测试中应该有好的结果。(对于任何估计,我都会记住,越高越好)例如,你有训练的数据,5年。gbm的参数是n.trees, interaction.depth, shrinkage, n.minobsinnode, distribution, bag.fraction。健身函数在一个周期内至少应重复50次。 1)将数据分为两部分,50%/50%。既要有带样本的随机抽样,也要有顺序抽样(用于训练的那块在中间某个地方,用于验证的那块在原始数据的开头和结尾处)。包括极端的版本,即在前半部分进行训练,在后半部分进行验证,反之亦然。 我认为既要有顺序采样的样本,也要有随机采样的训练。在图片中,你可以更清楚地看到一些随机和顺序分区的例子,绿色的线是用于训练,黄色的是用于验证。2)在训练样本上训练模型(整个周期内使用的模型参数和预测器都是一样的,就是你要估计的那些),然后用这个模型预测这些非常的数据,并对预测进行评级--准确率、r^2或其他。例如,我把回归结果四舍五入到类,并使用Cohen's Kappa函数进行估计,它来自caret,我喜欢它比分类准确性或回归准确性更好。但它只对两个班级有效。对于三个班级,我觉得很难提出什么建议,重要的是估计时要分别考虑到每个班级的准确性,并在此基础上给出一些总体估计。 3)应用训练好的模型来预测验证样本的数据,用同样的函数估计预测结果。 4)两个估计值(训练和验证)应相互接近,并尽可能地高。我使用这个代码来计算最终得分 - (min(score1,score2) - (max(score1,score2)-min(score1,score2))- 从最小值中减去他们的delta。在每个迭代结束时,我们将得到一些分数,由于数据的随机分割,它可能从-1到1不等(或在另一个区间,取决于使用的函数)。我们计算它们的平均值,并将其作为健身函数的结果返回。此外,我为每个使用的预测器从健身值中减去一个小数字(0.0001),以惩罚模型中太大的所需数据集。我将此与遗传学一起应用,它挑选出预测器和模型参数,使健身价值最大化。最终的结果是一组预测器和模型参数,在现有的训练数据上平均具有良好的预测结果。该模型可以在数据中找到一些模式,从中学习,并且仍然可以在新的验证数据中成功找到这些相同的模式,无论哪种数据样本被用于训练。 由于模型每次只使用50%的可用数据进行训练,并在此基础上选择参数和预测因子,所以这是模型的一个重要条件。 委员会的模型应该在相同的条件下进行训练--通过抽样或连续选择50%的数据进行训练。对于每个新的模型,也需要一个新的样本(或顺序集)。这样的委员会能提供多长时间的良好预测是未知的,但考虑到训练数据是5年的,委员会显然会比未来5年的寿命更短。 还有一点很重要--如果在为创建委员会花费了所有时间后,它将是亏损的交易--那么用于预测的软件包就不适合外汇。也许它有太多的自由度,或者根本不适合。最好是采取另一个包裹。或者你可以尝试将训练的数据比例从50%减少到更少。所有这些都来自于本论坛的建议,以及经验。一个很好的总结。祝贺你! 1...93949596979899100101102103104105106107...3399 新评论 您错过了交易机会: 免费交易应用程序 8,000+信号可供复制 探索金融市场的经济新闻 注册 登录 拉丁字符(不带空格) 密码将被发送至该邮箱 发生错误 使用 Google 登录 您同意网站政策和使用条款 如果您没有帐号,请注册 可以使用cookies登录MQL5.com网站。 请在您的浏览器中启用必要的设置,否则您将无法登录。 忘记您的登录名/密码? 使用 Google 登录
你在开始时说得很对。终于有一些明智的人出现在支部里。但模式本身具有预测作用,重要的不是模式本身,而是市场对它的反应。而如果这个反应与训练中的反应相同,网就会得出正确的结论。所以它是这样的....
该怎么做?尝试拉动天真的贝索维分类器,或者研究gPredictors?
x什么是贝索夫分类器????我不明白,现在雷舍托夫做了一个非常酷的东西,上、下、面团。而你却一直在摆弄你的R。做了一堆不必要的数据处理。虹膜的例子是什么????有意思的是,看看 "预测者 "将如何计算它....
我在这里才发现R的存在。而且我不小心漏掉了贝叶斯分类器这个词的一个字母(可能是弗洛伊德写的)。 而且雷谢托夫的程序很酷,我不争论。我不知道艾瑞丝的情况。
x什么是贝索夫分类器????我不明白,现在雷舍托夫做了一件非常酷的事情,开,关,面团。而你却一直在摆弄你的R。做了一堆不必要的数据处理。虹膜的例子是什么????有意思的是,看看 "预测者 "将如何计算它....
我可以看到昨天的交易结果吗?
伊沙坦-雷舍托夫的车 :-)
为什么这些指标从来没有工作过,也永远不会工作, 我的看法是...
其中大部分你自己知道并已经做了,但我将写得更全面,以排除一些我们以相同方式谈论但做得不同的假设。
你需要有一个精心磨练的健身函数来估计模型参数。如果该函数评估特定的模型参数和选定的预测器的分数很高--那么在新数据的测试中应该有好的结果。
(对于任何估计,我都会记住,越高越好)
例如,你有训练的数据,5年。gbm的参数是n.trees, interaction.depth, shrinkage, n.minobsinnode, distribution, bag.fraction。
循环中的健身函数应至少重复50次。
1)将数据分为两部分,50%/50%。既要有带样本的随机抽样,也要有顺序抽样(用于训练的那块在中间某个地方,用于验证的那块在原始数据的开头和结尾处)。包括极端的版本,即在前半部分进行训练,在后半部分进行验证,反之亦然。 我认为既要有顺序采样的样本,也要有随机采样的训练。在图片中,你可以更清楚地看到一些随机和顺序分区的例子,绿色的线是用于训练,黄色的是用于验证。
2)在训练样本上训练模型(整个周期内使用的模型参数和预测器都是一样的,就是你要估计的那些),然后用这个模型预测这些非常的数据,并对预测进行评级--准确率、r^2或其他。例如,我把回归结果四舍五入到类,并使用Cohen's Kappa函数进行估计,它来自caret,我喜欢它比分类准确性或回归准确性更好。但它只对两个班级有效。对于三个班级,我觉得很难提出什么建议,重要的是估计时要分别考虑到每个班级的准确性,并在此基础上给出一些总体估计。
3)应用训练好的模型来预测验证样本的数据,用同样的函数估计预测结果。
4)两个估计值(训练和验证)应相互接近,并尽可能地高。我使用这个代码来计算最终得分 - (min(score1,score2) - (max(score1,score2)-min(score1,score2))- 从最小值中减去他们的delta。
在每个迭代结束时,我们将得到一些分数,由于数据的随机分割,它可能从-1到1不等(或在另一个区间,取决于使用的函数)。我们计算它们的平均值,并将其作为健身函数的结果返回。此外,我为每个使用的预测器从健身值中减去一个小数字(0.0001),以惩罚模型中太大的所需数据集。
我将此与遗传学一起应用,它挑选出预测器和模型参数,使健身价值最大化。
最终的结果是一组预测器和模型参数,在现有的训练数据上平均具有良好的预测结果。该模型可以在数据中找到一些模式,从中学习,并且仍然可以在新的验证数据中成功找到这些相同的模式,无论哪种数据样本被用于训练。
由于模型每次只使用50%的可用数据进行训练,并在此基础上选择参数和预测因子,所以这是模型的一个重要条件。
委员会的模型应该在相同的条件下进行训练--通过抽样或连续选择50%的数据进行训练。对于每个新的模型,也需要一个新的样本(或顺序集)。
这样的委员会能提供多长时间的良好预测是未知的,但考虑到训练数据是5年的,委员会显然会比未来5年的寿命更短。
还有一点很重要--如果在为创建委员会花费了所有时间后,它将是亏损的交易--那么用于预测的软件包就不适合外汇。也许它有太多的自由度,或者根本不适合。最好是采取另一个包裹。或者你可以尝试将训练数据的比例从50%减少到更少。
所有这些都来自于本论坛的建议,以及经验。
其中大部分你自己知道并已经做了,但我将写得更全面,以排除一些我们以相同方式谈论但做得不同的假设。
人们必须有一个精心磨练的健身函数来估计模型参数。如果该函数对特定的模型参数和选定的预测器进行了评估,并获得了高分--那么在新数据的测试中应该有好的结果。
(对于任何估计,我都会记住,越高越好)
例如,你有训练的数据,5年。gbm的参数是n.trees, interaction.depth, shrinkage, n.minobsinnode, distribution, bag.fraction。
健身函数在一个周期内至少应重复50次。
1)将数据分为两部分,50%/50%。既要有带样本的随机抽样,也要有顺序抽样(用于训练的那块在中间某个地方,用于验证的那块在原始数据的开头和结尾处)。包括极端的版本,即在前半部分进行训练,在后半部分进行验证,反之亦然。 我认为既要有顺序采样的样本,也要有随机采样的训练。在图片中,你可以更清楚地看到一些随机和顺序分区的例子,绿色的线是用于训练,黄色的是用于验证。
2)在训练样本上训练模型(整个周期内使用的模型参数和预测器都是一样的,就是你要估计的那些),然后用这个模型预测这些非常的数据,并对预测进行评级--准确率、r^2或其他。例如,我把回归结果四舍五入到类,并使用Cohen's Kappa函数进行估计,它来自caret,我喜欢它比分类准确性或回归准确性更好。但它只对两个班级有效。对于三个班级,我觉得很难提出什么建议,重要的是估计时要分别考虑到每个班级的准确性,并在此基础上给出一些总体估计。
3)应用训练好的模型来预测验证样本的数据,用同样的函数估计预测结果。
4)两个估计值(训练和验证)应相互接近,并尽可能地高。我使用这个代码来计算最终得分 - (min(score1,score2) - (max(score1,score2)-min(score1,score2))- 从最小值中减去他们的delta。
在每个迭代结束时,我们将得到一些分数,由于数据的随机分割,它可能从-1到1不等(或在另一个区间,取决于使用的函数)。我们计算它们的平均值,并将其作为健身函数的结果返回。此外,我为每个使用的预测器从健身值中减去一个小数字(0.0001),以惩罚模型中太大的所需数据集。
我将此与遗传学一起应用,它挑选出预测器和模型参数,使健身价值最大化。
最终的结果是一组预测器和模型参数,在现有的训练数据上平均具有良好的预测结果。该模型可以在数据中找到一些模式,从中学习,并且仍然可以在新的验证数据中成功找到这些相同的模式,无论哪种数据样本被用于训练。
由于模型每次只使用50%的可用数据进行训练,并在此基础上选择参数和预测因子,所以这是模型的一个重要条件。
委员会的模型应该在相同的条件下进行训练--通过抽样或连续选择50%的数据进行训练。对于每个新的模型,也需要一个新的样本(或顺序集)。
这样的委员会能提供多长时间的良好预测是未知的,但考虑到训练数据是5年的,委员会显然会比未来5年的寿命更短。
还有一点很重要--如果在为创建委员会花费了所有时间后,它将是亏损的交易--那么用于预测的软件包就不适合外汇。也许它有太多的自由度,或者根本不适合。最好是采取另一个包裹。或者你可以尝试将训练的数据比例从50%减少到更少。
所有这些都来自于本论坛的建议,以及经验。
一个很好的总结。
祝贺你!