交易中的机器学习:理论、模型、实践和算法交易 - 页 31

 
阿列克谢-伯纳科夫

尤里,对你的数据进行初审。

方法 损失_功能 cv_folds 囊中羞涩 Model_params AUC_cv 准确性_训练 准确性_验证
GBM 伯努利 4 0.4 0.015_|_7_|_70_|_600 0.429659 0.590361 0.50501
GBM 伯努利(Bernoulli) 4 0.6 0.02_|_5_|_110_|_600 0.485727 0.586345 0.51503

两套不同的参数值用于训练。值得注意的是,在交叉验证中,AUC低于柱状图。

总体而言,51.5%的测试准确率是最好的结果。

我甚至不知道你如何绕过60%。

我们应该扔掉那套预测器。

如果我们愚蠢地采取所有的阶梯增量和一些超过100个预测器的振荡器,并有超过5000个观测值,即H1,那么从这样的集合中,我们可以选择10-15个预测器,这不仅会给出低于40%的预测误差,更重要的是不会给出一个REFERRED模型。

 
桑桑尼茨-弗门科

我们应该扔掉这组预测因素。

如果我们愚蠢地在100个预测器上取一些震荡器的增量,并有超过5000个观测值,即H1,从这样的集合中我们可以选择10-15个预测器,这不仅会使预测误差小于40%,而且最重要的是不会给出一个REPROVED模型。

我们还不知道尤里在套件中包括哪些功能。他说这些都是需要的。
 

一般来说,我的分类准确率从未超过51.5%。相应地,其余的指标也将接近于随机猜测。

测试中的反应平衡几乎完全是50/50。

尤里,我期待着你的启示。

 
我在test.csv上有大约50%的预测正确率,都是没有希望的。我同意预测器的集合不是很好,尤里,添加更多的标准指标,如果你的模型真的那么好,那么我认为你可以用好的预测器达到80%以上的正确预测。
 
阿列克谢-伯纳科夫

一般来说,我的分类准确率从未超过51.5%。相应地,其余的指标也将接近于随机猜测。

考试中的平衡反应几乎是完美的50/50。

谢谢你提供的信息。如果没有人能得到更好的结果,而且我自己也在Weka上运行这个数据集,那里也很无奈,那么是时候更新libVMR版本了。如果你应用新的版本,这种样本的60%的正确答案并不是一个限制。
阿列克谢-伯纳科夫

尤里,我在等待你的启示。

我没有隐瞒任何事情。对于旧版本的结果,我已经在上面给出了,所有的信息都是公开的。

构建二元分类器的方法描述:https://sites.google.com/site/libvmr/

带有注释的Java源代码:https://sourceforge.net/p/libvmr/code/HEAD/tree/trunk/

构建:https://sourceforge.net/projects/libvmr/files/

Векторная машина Решетова
  • sites.google.com
Теория и практика алгоритмов машинного обучения обладающих обобщающей способностью
 
尤里,谢谢你。

有一件事我不明白。如果集合是线性可分离的,为什么不采取通常的SVM方法?你家的有什么好?
 
Alexey Burnakov
Yuri,谢谢。

有一件事我不明白。如果集合是线性可分离的,为什么不采取通常的SVM方法?你家的有什么好?

如果该集合是线性可分离的,那么潜在分离超平面的数量是无限的。在这种情况下,必须找到一些标准来确定一个适当的超平面。在《Vapnik V. N., Chervonenkis A. Y. The theory of pattern recognition》一书中,为参考向量的方法 制定了这样一个标准。莫斯科: Nauka, 1974.更确切地说,本书考虑了许多不同的标准。

SVM和VMR都是参考向量方法。

  • SVM是一种从经验数据中重构依赖关系的方法。如果空间是线性可分离的,该标准是参考超平面之间的最大距离。 见Vapnik V. N. Dependence reconstruction from empirical data。莫斯科: Nauka, 1979.
  • VMR是一种识别强依赖关系和去除(减少)弱依赖关系的方法。该标准是参考超平面之间距离的最小值,与线性分离性无关。也就是说,VMR不会恢复依赖关系(不会向模型添加任何已知在训练样本中缺失的东西),更不用说一些隐含的依赖关系不会进入模型(被筛掉了)。更具体地说,VMR通过减少一些特征来减少超空间。

哪种方法更好或更坏,可以争论很长时间。然而,人们可以采取并检查普适性,然后一切都会落到实处。

 
尤里-雷舍托夫

如果该集合是线性可分离的,那么潜在分离超平面的数量是无限的。在这种情况下,有必要找到一些标准来确定一个适当的超平面。在《Vapnik V. N., Chervonenkis A. Y. The theory of pattern recognition》一书中,为参考向量的方法制定了这样一个标准。莫斯科: Nauka, 1974.更确切地说,本书考虑了许多不同的标准。

SVM和VMR都是参考向量方法。

  • SVM是一种从经验数据中重构依赖关系的方法。如果空间是线性可分离的,该标准是参考超平面之间的最大距离。 见Vapnik V. N. Dependence reconstruction from empirical data。莫斯科: Nauka, 1979.
  • VMR是一种识别强依赖关系和去除(减少)弱依赖关系的方法。该标准是参考超平面之间距离的最小值,与线性分离性无关。也就是说,VMR不会恢复依赖关系(不会向模型添加任何已知在训练样本中缺失的东西),更不用说一些隐含的依赖关系不会进入模型(被筛掉了)。更具体地说,VMR通过减少一些特征来减少超空间。

哪种方法更好或更坏,可以争论很长时间。然而,有可能采取和检查概括能力,然后一切都将站在地方上。

问题应该在它们到来时得到解决,而把本车(模型)放在马(预测器)之前是绝对徒劳的做法。在不知道什么东西被束缚在上面,以及是否被束缚在上面的情况下,就更应该对马车进行比较。

在应用任何类型的模型之前,有必要清除预测因子列表中的噪音,只留下与目标变量 "相关 "的预测因子。如果不这样做,人们就很容易陷入建立基于土星环、咖啡渣和其他预测因素的模型,而这些预测因素在实践中已经被广泛使用了几百年了。

上面的Dr.Trader 试图做的工作是从他的预测器集合中去除噪音。

其结果是否定的。

我认为,出现负面结果的原因是,在预测因素非常多的情况下,观察的数量很少。但这是在应用任何模型之前要挖掘的方向。

 
尤里-雷舍托夫

如果该集合是线性可分离的,那么潜在分离超平面的数量是无限的。在这种情况下,有必要找到一些标准来确定一个适当的超平面。在《Vapnik V. N., Chervonenkis A. Y. The theory of pattern recognition》一书中,为参考向量的方法制定了这样一个标准。莫斯科: Nauka, 1974.更确切地说,本书考虑了许多不同的标准。

SVM和VMR都是参考向量方法。

  • SVM是一种从经验数据中重构依赖关系的方法。如果空间是线性可分离的,该标准是参考超平面之间的最大距离。 见Vapnik V. N. Dependence reconstruction from empirical data。莫斯科: Nauka, 1979.
  • VMR是一种识别强依赖关系和去除(减少)弱依赖关系的方法。该标准是参考超平面之间距离的最小值,与线性分离性无关。也就是说,VMR不会恢复依赖关系(不会向模型添加任何已知在训练样本中缺失的东西),更不用说一些隐含的依赖关系不会进入模型(被筛掉了)。更具体地说,VMR通过减少一些特征来减少超空间。

哪种方法更好或更坏,可以争论很长时间。然而,有可能采取和检查概括能力,然后一切都将站在地方上。

尤里,谢谢你。我将考虑一下。

我们确实有一个问题。你是如何选择预测器的?
 



不幸的是,我无法在R中计算夏普之类的数据,因为我有49个随机样本,这些样本在叠加后并不能重构交易序列。


R拥有你需要的一切。见fTrading::sharpeRatio。

哦,性能分析(PerformanceAnalitics)也无妨看一看。

祝好运