矩阵包的研究

[删除] 2016.02.16 21:37 #71

Alexey Volchanskiy:
在讨论中向大家提出一个相关的问题。你是否与蜱虫数据打交道？我早已远离了酒吧分析，专门从事DSP方法的研究。

我使用M1-bar出价与升值，以及Level2。

Alexey Volchanskiy 2016.02.16 21:40 #72

zaskok3:
我使用M1-bar出价与问价以及Level2。

L2是在MT5上吗？

Alexey Burnakov 2016.02.16 21:42 #73

Vladimir Perervenko:

你所指的文章是关于回归的。我们正在处理分类问题。这是两个很大的区别...

我还是不明白你的问题。

祝好运

在这里，什么回归或分类并不重要。都是一样的。这只是一篇专门关于回归的文章。

澄清一下：你有训练的例子，采取什么步骤，一个条（即数据数组的每一行的输入）还是n个条，以便在各行之间有一个时间差？

我不是单纯的书呆子，我当然也不想诋毁你的工作（你的文章帮助了我）。

让我用一个实际的例子来解释我的观点，而不是从统计研究中攫取引文。

在一棵决策树中，你将有，例如，m个终端节点。每个节点将包含输入向量中类似的情况--输入值的一个子空间。因此，如果你有连续的条形移位的例子，使用回顾几个条形的输入（在最坏的情况下，也是几百个条形），附近的点之间将有一个明亮的自相关，但同时，由于我们预测未来的几个条形（在最坏的情况下，也是几百个条形），附近的输出也将是一样的。例如，输出列将由序列0 0 0 0 0 0 0 00 0 1 1 1 1 1 1 1 1 1组成。因此，几十个相同的输出将落入我们的终端节点，指的是相邻的--类似的--输入。可以说，按时间点排列的相同例子会出现冗余，这将使反应的分布出现最突出的偏差。这就是为什么有一个流行的建议，不要在市场上保持一个以上的头寸，因为在终端训练EA时，相邻的进入和退出的依赖效应也会存在。

在这种情况下，会有艰难的再训练，或者说形成非依赖性观察的统计。也就是说，在分析时间序列时，最令人不快的是相邻数据向量的依赖性。如果数据向量在时间上很远，那就没问题。在这种情况下，机器学习可以归结为寻找与时间有关的不变模式。

然后，参考你在文章中举出的错误矩阵作为例子。

OOB confusion matrix:
          Reference
Prediction   -1    1 class.error
        -1 1066  280      0.2080
        1   254 1043      0.1958

Test set
Error rate: 19.97%

Confusion matrix:
          Reference
Prediction  -1   1 class.error
        -1 541 145      0.2114
        1  119 517      0.1871

我只能说，它非常棒。)该实验的进行是错误的。你永远不可能在一个有独立例子的样本上实现如此陡峭的误差矩阵，同时按时间严格区分测试数据集和训练数据集（look-ahead bias）。

而测试集上的误差矩阵也很奇妙，这表明按时间取了一个与训练样本混合的样本，其中类似的例子也被 "挤 "在一起。也就是说，这个特定的结果没有说明构建的模型预测市场的能力。

你可以试着多拿一点数据，用tail(all_data, 1/3)的逻辑进行测试，看看矩阵的单元格中的观察值数量是如何排列的。你甚至可以应用卡方标准来看看猜测是否已经变得几乎随机。

我想传达给你的所有内容，我已经尽力做到了。注意，是出于好意)

好运!ǞǞǞ

[删除] 2016.02.17 00:10 #74

Alexey Volchanskiy:
L2是在MT5上吗？

MT4。源代码已经在论坛上流传开来...

Alexey Volchanskiy 2016.02.17 02:30 #75

zaskok3:
MT4。源代码在论坛上被泄露了...

朋友和同事们，我有一个问题。

如何根据公布的交易数据来制定算法？

Alexey Volchanskiy 2016.02.17 02:32 #76

Alexey Volchanskiy:

朋友和同事们，我有一个问题。

如何根据公布的交易数据来制定算法？

我知道我写错了--制定，来自公式一词)

[删除] 2016.02.17 08:56 #77

Alexey Volchanskiy:

如何根据公布的交易数据来制定算法？

如果你需要由国家专门自动重新设计TS，那么通过机器学习。

在输入上取一堆指标值，即状态的输出。通过数学模型进行拟合。

我没有处理这样的胡言乱语。

СанСаныч Фоменко 2016.02.17 08:59 #78

Alexey Volchanskiy:
顺便说一下，我有一个问题要问大家，在讨论中。你是否与蜱虫数据打交道？我很久以前就不做条形分析了，只用DSP方法工作。

DSP的使用是非常值得怀疑的。

对于tick数据，协整思想更适合。

СанСаныч Фоменко 2016.02.17 09:21 #79

Alexey Burnakov:
在这里，什么回归或分类并不重要。都是一样的。这只是一篇专门关于回归的文章。

澄清一下：你是否有训练用的例子，采取哪种步骤，一个条形（即数据阵列每行的输入）还是n个条形，以便在各行之间有一个时间间隔？

我不是单纯的书呆子，我当然也不想诋毁你的工作（你的文章帮助了我）。

让我用一个实际的例子来解释我的观点，不要从统计研究中拉出引文。

在一棵决策树中，你会有，比如，m个终端节点。每个节点将包含输入向量中类似的情况--输入值的一个子空间。因此，如果你有连续的条形移位的例子，使用回顾几个条形的输入（在最坏的情况下，也是几百个条形），附近的点之间会有一个明亮的自相关，但由于我们是预测未来的几个条形（在最坏的情况下，也是几百个条形），附近的输出将是相同的。例如，输出列将由序列0 0 0 0 0 0 0 00 0 1 1 1 1 1 1 1 1 1组成。因此，几十个相同的输出将落入我们的终端节点，指的是相邻的--类似的--输入。可以说，按时间点排列的相同例子会出现冗余，这将使反应的分布出现最突出的偏差。这就是为什么有一个流行的建议，不要在市场上持有一个以上的头寸，因为在终端训练EA时，相邻的进入和退出的依赖效应也会发生。

在这种情况下，会有艰难的再训练，或者说形成非依赖性观察的统计。也就是说，在分析时间序列时，最令人不快的是相邻数据向量的依赖性。如果数据向量在时间上很远，那就没问题。在这种情况下，机器学习可以归结为寻找与时间有关的不变模式。

然后，参考你在文章中举出的错误矩阵作为例子。

我只能说，它非常棒。)该实验的进行是错误的。你永远不可能在一个有独立例子的样本上实现如此陡峭的误差矩阵，同时按时间严格区分测试数据集和训练数据集（look-ahead bias）。

而测试集上的误差矩阵也很奇妙，这表明按时间取了一个与训练样本混合的样本，其中类似的例子也被 "挤 "在一起。也就是说，这个特定的结果没有说明构建的模型预测市场的能力。

你可以试着多拿一点数据，用tail(all_data, 1/3)逻辑进行测试，看看矩阵单元格中的观察值数量是如何排列的。你甚至可以应用卡方标准来看看猜测是否已经变得几乎随机。

我想传达给你的所有内容，我已经尽力做到了。注意，是出于好意)

好运!ǞǞǞ

对不起，我插嘴了，但这似乎是一个公开的讨论。

在我看来，你的帖子似乎是几个相关但不同的问题的混合。

1.你怎么教这个模型？趋势？等级划分？偏离了什么？选择模型的老师似乎非常简单，但在实践中却造成了一定的困难。总之，我们应该为我们的交易理念准备非常具体的老师（模型训练所依据的向量），例如，"我交易趋势"。

2.你教什么？在你的帖子中，你提到了相邻的柱子之间存在着依赖性。是的，有一些木质模型（CORELearn）考虑到了相邻条形之间的依赖关系，但你提出的问题f更广泛，更糟糕，与使用的模型没有什么关系。这是模型再训练。在 我看来，有些数据集总是能产生过度训练的模型。而在这里，消除过度训练的技术再多也没有用。

有一些输入数据集（预测器集），其中有一些预测器可以用来建立不是过度训练的模型。但是，剩下的预测器会产生大量的噪声，这些噪声预测器无法被现有的预测器选择包所筛选出来。

因此，根据 "似乎与我们的老师，即目标变量相关 "的标准，手动选择预测因子是强制性的。

PS。

说起来很可笑，但在交易趋势时，任何通过平滑化得到的预测指标，特别是MA，都是非常嘈杂的，模型总是被过度训练。而当对OOV样本进行训练时，你也可以得到5%的误差!

Vladimir Perervenko 2016.02.17 10:52 #80

Alexey Burnakov:
在这里，什么回归或分类并不重要。都是一样的。这只是一篇专门关于回归的文章。

澄清一下：你有用于训练的例子，用什么步骤，一栏（即阵列数据的每一行的输入）还是n栏，这样，各行之间有一个时间差？

初始数据集是一个包含输入和目标的矩阵或数据帧。当分为（分层）训练集和测试集时，实例被随机洗牌，但集内的类别分布与原始集保持一致。因此，我们不可能说这些例子是在什么音高下拍摄的。很明显，你混淆了矢量到矩阵的转换，在这里你可以谈论时间滞后问题。

我不是单纯的书呆子，我当然也不想诋毁你的工作（你的文章帮助了我）。

是的，我远远没有这样的想法。但我真的无法理解这个问题。

让我用一个实际的例子来解释我的想法，不要从统计研究中拉出引文。

在一棵决策树中，你会有，比如，m个终端节点。每个节点将包含输入向量中类似的情况--输入值的一个子空间。因此，如果你有连续的条形移位的例子，使用回顾几个条形的输入（在最坏的情况下，也是几百个条形），相邻的点之间将有一个明亮的自相关，但同时，由于我们预测未来的几个条形（在最坏的情况下，也是几百个条形），相邻的输出也将是一样的。例如，输出列将由序列0 0 0 0 0 0 0 00 0 1 1 1 1 1 1 1 1 1组成。因此，几十个相同的输出将落入我们的终端节点，指的是相邻的--类似的--输入。可以说，按时间点排列的相同例子会出现冗余，这将使反应的分布出现最突出的偏差。这就是为什么有一个流行的建议，不要在市场上保持一个以上的头寸，因为在终端训练EA的时候，相邻的进场和出场的依赖效应也会存在。

在这种情况下，会有艰难的再训练，或者说形成非依赖性观察的统计。也就是说，在分析时间序列时，最令人不快的是相邻数据向量的依赖性。如果数据向量在时间上很远，那就没问题。在这种情况下，机器学习可以归结为寻找与时间有关的不变模式。

然后，参考你在文章中举出的错误矩阵作为例子。

我只能说，它非常棒。)该实验的进行是错误的。你永远不可能在一个有独立例子的样本上实现如此陡峭的误差矩阵，同时按时间严格区分测试数据集和训练数据集（look-ahead bias）。

而测试集上的误差矩阵也很奇妙，这表明按时间取了一个与训练样本混合的样本，其中类似的例子也被 "挤 "在一起。换句话说，这个特定的结果没有说明构建的模型预测市场的能力。

你可以试着多拿一点数据，用tail(all_data, 1/3)的逻辑进行测试，看看矩阵的单元格中的观察值数量是如何排列的。你甚至可以应用卡方标准来看看猜测是否已经变得几乎随机。

所以你要在你的手指上布置一个例子来解释它。还是你认为我没有做过这样的测试？

我想传达给你的所有内容，我已经尽力做到了。注意，有良好的意愿 )

我真的想了解你想表达的意思。用一个例子，我想它会更清楚。

当他们说你在做实验时犯了一个错误，你必须告诉他们错误是什么，并告诉他们正确的解决方案。你有包，有例子，描述你认为应该如何进行计算。

无意冒犯。

祝好运

矩阵包的研究 - 页 8