交易中的机器学习：理论、模型、实践和算法交易

СанСаныч Фоменко 2016.07.01 14:56 #301

阿列克谢-伯纳科夫。

尤里，对你的数据进行初审。

方法	损失_功能	cv_folds	囊中羞涩	Model_params	AUC_cv	准确性_训练	准确性_验证
GBM	伯努利	4	0.4	0.015_\|_7_\|_70_\|_600	0.429659	0.590361	0.50501
GBM	伯努利（Bernoulli）	4	0.6	0.02_\|_5_\|_110_\|_600	0.485727	0.586345	0.51503

两套不同的参数值用于训练。值得注意的是，在交叉验证中，AUC低于柱状图。

总体而言，51.5%的测试准确率是最好的结果。

我甚至不知道你如何绕过60%。

我们应该扔掉那套预测器。

如果我们愚蠢地采取所有的阶梯增量和一些超过100个预测器的振荡器，并有超过5000个观测值，即H1，那么从这样的集合中，我们可以选择10-15个预测器，这不仅会给出低于40%的预测误差，更重要的是不会给出一个REFERRED模型。

Alexey Burnakov 2016.07.01 15:10 #302

桑桑尼茨-弗门科。

我们应该扔掉这组预测因素。

如果我们愚蠢地在100个预测器上取一些震荡器的增量，并有超过5000个观测值，即H1，从这样的集合中我们可以选择10-15个预测器，这不仅会使预测误差小于40%，而且最重要的是不会给出一个REPROVED模型。

我们还不知道尤里在套件中包括哪些功能。他说这些都是需要的。

Alexey Burnakov 2016.07.01 15:34 #303

一般来说，我的分类准确率从未超过51.5%。相应地，其余的指标也将接近于随机猜测。

测试中的反应平衡几乎完全是50/50。

尤里，我期待着你的启示。

Dr. Trader 2016.07.01 16:21 #304

我在test.csv上有大约50%的预测正确率，都是没有希望的。我同意预测器的集合不是很好，尤里，添加更多的标准指标，如果你的模型真的那么好，那么我认为你可以用好的预测器达到80%以上的正确预测。

Yury Reshetov 2016.07.01 17:42 #305

阿列克谢-伯纳科夫。

一般来说，我的分类准确率从未超过51.5%。相应地，其余的指标也将接近于随机猜测。

考试中的平衡反应几乎是完美的50/50。

谢谢你提供的信息。如果没有人能得到更好的结果，而且我自己也在Weka上运行这个数据集，那里也很无奈，那么是时候更新libVMR版本了。如果你应用新的版本，这种样本的60%的正确答案并不是一个限制。

阿列克谢-伯纳科夫。

尤里，我在等待你的启示。

我没有隐瞒任何事情。对于旧版本的结果，我已经在上面给出了，所有的信息都是公开的。

构建二元分类器的方法描述：https://sites.google.com/site/libvmr/

带有注释的Java源代码：https://sourceforge.net/p/libvmr/code/HEAD/tree/trunk/

构建:https://sourceforge.net/projects/libvmr/files/

Векторная машина Решетова

sites.google.com

Теория и практика алгоритмов машинного обучения обладающих обобщающей способностью

Alexey Burnakov 2016.07.01 20:10 #306

尤里，谢谢你。

有一件事我不明白。如果集合是线性可分离的，为什么不采取通常的SVM方法？你家的有什么好？

Yury Reshetov 2016.07.02 08:43 #307

Alexey Burnakov：
Yuri，谢谢。

有一件事我不明白。如果集合是线性可分离的，为什么不采取通常的SVM方法？你家的有什么好？

如果该集合是线性可分离的，那么潜在分离超平面的数量是无限的。在这种情况下，必须找到一些标准来确定一个适当的超平面。在《Vapnik V. N., Chervonenkis A. Y. The theory of pattern recognition》一书中，为参考向量的方法制定了这样一个标准。莫斯科: Nauka, 1974.更确切地说，本书考虑了许多不同的标准。

SVM和VMR都是参考向量方法。

SVM是一种从经验数据中重构依赖关系的方法。如果空间是线性可分离的，该标准是参考超平面之间的最大距离。见Vapnik V. N. Dependence reconstruction from empirical data。莫斯科: Nauka, 1979.
VMR是一种识别强依赖关系和去除（减少）弱依赖关系的方法。该标准是参考超平面之间距离的最小值，与线性分离性无关。也就是说，VMR不会恢复依赖关系（不会向模型添加任何已知在训练样本中缺失的东西），更不用说一些隐含的依赖关系不会进入模型（被筛掉了）。更具体地说，VMR通过减少一些特征来减少超空间。

哪种方法更好或更坏，可以争论很长时间。然而，人们可以采取并检查普适性，然后一切都会落到实处。

СанСаныч Фоменко 2016.07.02 09:37 #308

尤里-雷舍托夫。

如果该集合是线性可分离的，那么潜在分离超平面的数量是无限的。在这种情况下，有必要找到一些标准来确定一个适当的超平面。在《Vapnik V. N., Chervonenkis A. Y. The theory of pattern recognition》一书中，为参考向量的方法制定了这样一个标准。莫斯科: Nauka, 1974.更确切地说，本书考虑了许多不同的标准。

SVM和VMR都是参考向量方法。

SVM是一种从经验数据中重构依赖关系的方法。如果空间是线性可分离的，该标准是参考超平面之间的最大距离。见Vapnik V. N. Dependence reconstruction from empirical data。莫斯科: Nauka, 1979.
VMR是一种识别强依赖关系和去除（减少）弱依赖关系的方法。该标准是参考超平面之间距离的最小值，与线性分离性无关。也就是说，VMR不会恢复依赖关系（不会向模型添加任何已知在训练样本中缺失的东西），更不用说一些隐含的依赖关系不会进入模型（被筛掉了）。更具体地说，VMR通过减少一些特征来减少超空间。

哪种方法更好或更坏，可以争论很长时间。然而，有可能采取和检查概括能力，然后一切都将站在地方上。

问题应该在它们到来时得到解决，而把本车（模型）放在马（预测器）之前是绝对徒劳的做法。在不知道什么东西被束缚在上面，以及是否被束缚在上面的情况下，就更应该对马车进行比较。

在应用任何类型的模型之前，有必要清除预测因子列表中的噪音，只留下与目标变量 "相关 "的预测因子。如果不这样做，人们就很容易陷入建立基于土星环、咖啡渣和其他预测因素的模型，而这些预测因素在实践中已经被广泛使用了几百年了。

上面的Dr.Trader 试图做的工作是从他的预测器集合中去除噪音。

其结果是否定的。

我认为，出现负面结果的原因是，在预测因素非常多的情况下，观察的数量很少。但这是在应用任何模型之前要挖掘的方向。

Alexey Burnakov 2016.07.02 17:56 #309

尤里-雷舍托夫。

如果该集合是线性可分离的，那么潜在分离超平面的数量是无限的。在这种情况下，有必要找到一些标准来确定一个适当的超平面。在《Vapnik V. N., Chervonenkis A. Y. The theory of pattern recognition》一书中，为参考向量的方法制定了这样一个标准。莫斯科: Nauka, 1974.更确切地说，本书考虑了许多不同的标准。

SVM和VMR都是参考向量方法。

SVM是一种从经验数据中重构依赖关系的方法。如果空间是线性可分离的，该标准是参考超平面之间的最大距离。见Vapnik V. N. Dependence reconstruction from empirical data。莫斯科: Nauka, 1979.
VMR是一种识别强依赖关系和去除（减少）弱依赖关系的方法。该标准是参考超平面之间距离的最小值，与线性分离性无关。也就是说，VMR不会恢复依赖关系（不会向模型添加任何已知在训练样本中缺失的东西），更不用说一些隐含的依赖关系不会进入模型（被筛掉了）。更具体地说，VMR通过减少一些特征来减少超空间。

哪种方法更好或更坏，可以争论很长时间。然而，有可能采取和检查概括能力，然后一切都将站在地方上。

尤里，谢谢你。我将考虑一下。

我们确实有一个问题。你是如何选择预测器的？

Vladimir Perervenko 2016.07.02 18:52 #310

不幸的是，我无法在R中计算夏普之类的数据，因为我有49个随机样本，这些样本在叠加后并不能重构交易序列。

R拥有你需要的一切。见fTrading::sharpeRatio。

哦，性能分析（PerformanceAnalitics）也无妨看一看。

祝好运

交易中的机器学习：理论、模型、实践和算法交易 - 页 31