交易中的机器学习:理论、模型、实践和算法交易 - 页 29

 
Dr.Trader:

我画了一个R^2和胜诉百分比与所用组件数量的函数图。前端测试的最佳结果是使用41个组件(增益约70%,非常好)。但你无法从回测图表中看出这一点,它们只是一直在上升。如果我们依靠组件的重要性,我们应该采取73,这不是前沿测试的最佳结果。

fronttest的R^2可能是负的,即使有>50%的收益,由于所需的结果不平衡,"0 "和 "1 "的类数不同,所以它们的平均数不是0.5,R^2由此变得有点糟糕。

使用交叉验证法来挑选成分的数量。交叉验证上的最佳值然后在验证集上检查。
 

如果是这样的话,我把我的数据集(二元分类)附在后面。

有九个输入参数(在开头)--都是信息性的,还有一个输出参数(在最右边一栏)。

如果输出为1,那么下一个条形图的开盘价 差为正,如果为0,则为负。

大家感兴趣的问题是,哪一个会比我的算法有更好的概括能力?

附加的文件:
datasets.zip  21 kb
 
尤里-雷舍托夫

由于是第一次,我把我的数据集附在后面。

有九个输入参数(在开头)--都是信息性的,还有一个输出参数(在最右边一栏)。

如果输出为1,那么下一个条形图的开盘价 差为正,如果为0,则为负。

我感兴趣的问题是,谁的概括能力比我的算法更好?

1.如何证明 "预测因子的信息性"?

2.什么是 "可推广性"?

 
桑桑尼茨-弗门科

1.如何证明 "预测器的信息性"?

2.什么是 "普适性"?

1.如果从样本中删除至少一个信息性预测因子,则普遍性会明显恶化

2.请看视频。


 
尤里-雷舍托夫

1.如果从样本中删除至少一个信息性预测因子,则普遍性会明显恶化

2.请看视频。


尤里,你好。我将尝试看看你的数据。
 
阿列克谢-伯纳科夫
尤里,你好。我会试着翻看你的数据。

问候!

如果你对数据感兴趣,我可以布置一个脚本,从图表中收集信息并将其写入文件

 
Yury Reshetov:

1.如果从样本中删除至少一个信息性预测因子,则普遍性会明显恶化

2.请看视频。


2.请看视频。

对不起,这只是一个没有受过教育的博士生的一贯胡言乱语,他还没有得到解释,除了他心爱的人之外,还有很多人不仅知道这一切,不仅取得了更大的进展,而且已经在数百万人使用的算法中实现了它(如果这里包括学生)。

1.如果你从样本中去掉至少一个有信息的预测因子,普遍性就会明显恶化

相信我,不幸的是,这证明不了什么。此外,如果预测器的集合是坏的(有很多噪音),那么这种影响会越大,噪音越大。这一点的解释很简单:噪音越多,算法就越容易找到一个 "方便 "的值。

关于一般的问题。

有相当多的算法可以确定预测器对特定目标变量的重要性。这些算法可以分为两组:内置在模型构建算法中的算法和自主存在的算法。在我看来,以及在我这里引用的分支和链接上的人看来,所有这些算法都有一个共同的缺陷:如果预测器中存在一定数量的噪声预测器,算法就会停止工作,而且开始丢弃与目标变量相关的预测器。

这就是为什么我们在这里的分支机构试图初步清理最初的预测器集,然后用标准方法处理其余的预测器。

关于你的文件。

1.我没能在你的数据上建立6个分类模型:误差超过50%。如果你愿意,我可以在这里发布结果

2.造成这种结果的原因是,你有一组非常差的预测因子--噪音,即与目标变量无关的预测因子。预测器6、7和8有一些预测能力,但非常小。我不与这样的预测者一起工作。其他的只是噪音。

PS。

如果你真的对这个问题感兴趣,请关心一下。一旦你掌握了它,你会教给视频中这个聪明的家伙。Caret有近200个模型+非常有用的预处理功能+两个非常好的预测器选择 算法。

PPSS。

曾经在一个论坛上发表了我对 "预测器与目标变量相关 "的看法

所以。

以目标变量为例:男性/女性。

预测因素:服装。

如果预测器(衣服)只包含裙子和裤子,那么对于一些国家的人口来说,这个预测器将与目标变量100%相关--互不相干。但衣服有不同的品种,而且种类更多。因此,不是100%,而是更少。也就是说,我们得到的是,一些衣服集可能与目标变量有关系,而另一些衣服集原则上可能根本没有关系。即噪音。因此,问题是如何找到这样的非噪声预测器,在一个窗口中是噪声,而在另一个窗口中不是。那么衡量这种 "嘈杂 "的标准是什么呢?

 
尤里-雷舍托夫

问候!

如果你对数据感兴趣,我可以发布一个脚本,从图表中收集信息并将其写入一个文件

我也有一个问题。你是否需要在训练中建立一个预测器,并在测试中测量误差?我们可以把它与你的结果进行比较,对吗?
 
阿列克谢-伯纳科夫
我也有一个问题。我应该在训练中建立一个预测器,在测试中测量误差吗?而且我们可以把它与你的结果进行比较,对吗?
嗯,嗯。
 

同事们,如果你们有时间,能否在文章下向我提问?https://habrahabr.ru/company/aligntechnology/blog/303750/

哈布根本不说话!

Методические заметки об отборе информативных признаков (feature selection)
Методические заметки об отборе информативных признаков (feature selection)
  • habrahabr.ru
Всем привет! Меня зовут Алексей Бурнаков. Я Data Scientist в компании Align Technology. В этом материале я расскажу вам о подходах к feature selection, которые мы практикуем в ходе экспериментов по анализу данных. В нашей компании статистики и инженеры machine learning анализируют большие объемы клинической информации, связанные с лечением...