交易中的机器学习：理论、模型、实践和算法交易

Alexey Burnakov 2016.06.30 07:05 #281

Dr.Trader:

我画了一个R^2和胜诉百分比与所用组件数量的函数图。前端测试的最佳结果是使用41个组件（增益约70%，非常好）。但你无法从回测图表中看出这一点，它们只是一直在上升。如果我们依靠组件的重要性，我们应该采取73，这不是前沿测试的最佳结果。

fronttest的R^2可能是负的，即使有>50%的收益，由于所需的结果不平衡，"0 "和 "1 "的类数不同，所以它们的平均数不是0.5，R^2由此变得有点糟糕。

使用交叉验证法来挑选成分的数量。交叉验证上的最佳值然后在验证集上检查。

Yury Reshetov 2016.06.30 11:10 #282

如果是这样的话，我把我的数据集（二元分类）附在后面。

有九个输入参数（在开头）--都是信息性的，还有一个输出参数（在最右边一栏）。

如果输出为1，那么下一个条形图的开盘价差为正，如果为0，则为负。

大家感兴趣的问题是，哪一个会比我的算法有更好的概括能力？

附加的文件：

datasets.zip 21 kb

СанСаныч Фоменко 2016.06.30 11:44 #283

尤里-雷舍托夫。

由于是第一次，我把我的数据集附在后面。

有九个输入参数（在开头）--都是信息性的，还有一个输出参数（在最右边一栏）。

如果输出为1，那么下一个条形图的开盘价差为正，如果为0，则为负。

我感兴趣的问题是，谁的概括能力比我的算法更好？

1.如何证明 "预测因子的信息性"？

2.什么是 "可推广性"？

Yury Reshetov 2016.06.30 11:56 #284

桑桑尼茨-弗门科。

1.如何证明 "预测器的信息性"？

2.什么是 "普适性"？

1.如果从样本中删除至少一个信息性预测因子，则普遍性会明显恶化

2.请看视频。

Alexey Burnakov 2016.06.30 12:21 #285

尤里-雷舍托夫。

1.如果从样本中删除至少一个信息性预测因子，则普遍性会明显恶化

2.请看视频。

尤里，你好。我将尝试看看你的数据。

Yury Reshetov 2016.06.30 12:24 #286

阿列克谢-伯纳科夫。
尤里，你好。我会试着翻看你的数据。

问候!

如果你对数据感兴趣，我可以布置一个脚本，从图表中收集信息并将其写入文件。

СанСаныч Фоменко 2016.06.30 12:47 #287

Yury Reshetov:

1.如果从样本中删除至少一个信息性预测因子，则普遍性会明显恶化

2.请看视频。

2.请看视频。

对不起，这只是一个没有受过教育的博士生的一贯胡言乱语，他还没有得到解释，除了他心爱的人之外，还有很多人不仅知道这一切，不仅取得了更大的进展，而且已经在数百万人使用的算法中实现了它（如果这里包括学生）。

1.如果你从样本中去掉至少一个有信息的预测因子，普遍性就会明显恶化

相信我，不幸的是，这证明不了什么。此外，如果预测器的集合是坏的（有很多噪音），那么这种影响会越大，噪音越大。这一点的解释很简单：噪音越多，算法就越容易找到一个 "方便 "的值。

关于一般的问题。

有相当多的算法可以确定预测器对特定目标变量的重要性。这些算法可以分为两组：内置在模型构建算法中的算法和自主存在的算法。在我看来，以及在我这里引用的分支和链接上的人看来，所有这些算法都有一个共同的缺陷：如果预测器中存在一定数量的噪声预测器，算法就会停止工作，而且开始丢弃与目标变量相关的预测器。

这就是为什么我们在这里的分支机构试图初步清理最初的预测器集，然后用标准方法处理其余的预测器。

关于你的文件。

1.我没能在你的数据上建立6个分类模型：误差超过50%。如果你愿意，我可以在这里发布结果

2.造成这种结果的原因是，你有一组非常差的预测因子--噪音，即与目标变量无关的预测因子。预测器6、7和8有一些预测能力，但非常小。我不与这样的预测者一起工作。其他的只是噪音。

PS。

如果你真的对这个问题感兴趣，请关心一下。一旦你掌握了它，你会教给视频中这个聪明的家伙。Caret有近200个模型+非常有用的预处理功能+两个非常好的预测器选择算法。

PPSS。

曾经在一个论坛上发表了我对 "预测器与目标变量相关 "的看法

所以。

以目标变量为例：男性/女性。

预测因素：服装。

如果预测器（衣服）只包含裙子和裤子，那么对于一些国家的人口来说，这个预测器将与目标变量100%相关--互不相干。但衣服有不同的品种，而且种类更多。因此，不是100%，而是更少。也就是说，我们得到的是，一些衣服集可能与目标变量有关系，而另一些衣服集原则上可能根本没有关系。即噪音。因此，问题是如何找到这样的非噪声预测器，在一个窗口中是噪声，而在另一个窗口中不是。那么衡量这种 "嘈杂 "的标准是什么呢？

Alexey Burnakov 2016.06.30 12:54 #288

尤里-雷舍托夫。

问候!

如果你对数据感兴趣，我可以发布一个脚本，从图表中收集信息并将其写入一个文件。

我也有一个问题。你是否需要在训练中建立一个预测器，并在测试中测量误差？我们可以把它与你的结果进行比较，对吗？

Yury Reshetov 2016.06.30 13:13 #289

阿列克谢-伯纳科夫。
我也有一个问题。我应该在训练中建立一个预测器，在测试中测量误差吗？而且我们可以把它与你的结果进行比较，对吗？

嗯，嗯。

Alexey Burnakov 2016.06.30 13:25 #290

同事们，如果你们有时间，能否在文章下向我提问？https://habrahabr.ru/company/aligntechnology/blog/303750/

哈布根本不说话!

Методические заметки об отборе информативных признаков (feature selection)

habrahabr.ru

Всем привет! Меня зовут Алексей Бурнаков. Я Data Scientist в компании Align Technology. В этом материале я расскажу вам о подходах к feature selection, которые мы практикуем в ходе экспериментов по анализу данных. В нашей компании статистики и инженеры machine learning анализируют большие объемы клинической информации, связанные с лечением...

交易中的机器学习：理论、模型、实践和算法交易 - 页 29