矩阵包的研究 - 页 8

 
Alexey Volchanskiy:
在讨论中向大家提出一个相关的问题。你是否与蜱虫数据打交道?我早已远离了酒吧分析,专门从事DSP方法的研究。
我使用M1-bar出价与升值,以及Level2。
 
zaskok3:
我使用M1-bar出价与问价以及Level2。
L2是在MT5上吗?
 
Vladimir Perervenko:

你所指的文章是关于回归的。我们正在处理分类问题。这是两个很大的区别...

我还是不明白你的问题。

祝好运

在这里,什么回归或分类并不重要。都是一样的。这只是一篇专门关于回归的文章。

澄清一下:你有训练的例子,采取什么步骤,一个条(即数据数组的每一行的输入)还是n个条,以便在各行之间有一个时间差?

我不是单纯的书呆子,我当然也不想诋毁你的工作(你的文章帮助了我)。

让我用一个实际的例子来解释我的观点,而不是从统计研究中攫取引文。

在一棵决策树中,你将有,例如,m个终端节点。每个节点将包含输入向量中类似的情况--输入值的一个子空间。因此,如果你有连续的条形移位的例子,使用回顾几个条形的输入(在最坏的情况下,也是几百个条形),附近的点之间将有一个明亮的 相关,但同时,由于我们预测未来的几个条形(在最坏的情况下,也是几百个条形),附近的输出也将是一样的。例如,输出列将由序列0 0 0 0 0 0 0 00 0 1 1 1 1 1 1 1 1 1组成。因此,几十个相同的输出将落入我们的终端节点,指的是相邻的--类似的--输入。可以说,按时间点排列的相同例子会出现冗余,这将使反应的分布出现最突出的偏差。这就是为什么有一个流行的建议,不要在市场上保持一个以上的头寸,因为在终端训练EA时,相邻的进入和退出的依赖效应也会存在。

在这种情况下,会有艰难的再训练,或者说形成非依赖性观察的统计。也就是说,在分析时间序列时,最令人不快的是相邻数据向量的依赖性。如果数据向量在时间上很远,那就没问题。在这种情况下,机器学习可以归结为寻找与时间有关的不变模式。

然后,参考你在文章中举出的错误矩阵作为例子。

OOB confusion matrix:
          Reference
Prediction   -1    1 class.error
        -1 1066  280      0.2080
        1   254 1043      0.1958
Test set
Error rate: 19.97%

Confusion matrix:
          Reference
Prediction  -1   1 class.error
        -1 541 145      0.2114
        1  119 517      0.1871

我只能说,它非常棒。)该实验的进行是错误的。你永远不可能在一个有独立例子的样本上实现如此陡峭的误差矩阵,同时按时间严格区分测试数据集和训练数据集(look-ahead bias)。

而测试集上的误差矩阵也很奇妙,这表明按时间取了一个与训练样本混合的样本,其中类似的例子也被 "挤 "在一起。也就是说,这个特定的结果没有说明构建的模型预测市场的能力。

你可以试着多拿一点数据,用tail(all_data, 1/3)的逻辑进行测试,看看矩阵的单元格中的观察值数量是如何排列的。你甚至可以应用卡方标准来看看猜测是否已经变得几乎 随机。

我想传达给你的所有内容,我已经尽力做到了。注意,是出于好意)

好运!ǞǞǞ

 
Alexey Volchanskiy:
L2是在MT5上吗?
MT4。源代码已经在论坛上流传开来...
 
zaskok3:
MT4。源代码在论坛上被泄露了...

朋友和同事们,我有一个问题。

如何根据公布的交易数据来制定算法?

 
Alexey Volchanskiy:

朋友和同事们,我有一个问题。

如何根据公布的交易数据来制定算法?

我知道我写错了--制定,来自公式一词)
 
Alexey Volchanskiy:

如何根据公布的交易数据来制定算法?

如果你需要由国家专门自动重新设计TS,那么通过机器学习。

在输入上取一堆指标值,即状态的输出。通过数学模型进行拟合。

我没有处理这样的胡言乱语。

 
Alexey Volchanskiy:
顺便说一下,我有一个问题要问大家,在讨论中。你是否与蜱虫数据打交道?我很久以前就不做条形分析了,只用DSP方法工作。

DSP的使用是非常值得怀疑的。

对于tick数据,协整思想更适合。

 
Alexey Burnakov:
在这里,什么回归或分类并不重要。都是一样的。这只是一篇专门关于回归的文章。

澄清一下:你是否有训练用的例子,采取哪种步骤,一个条形(即数据阵列每行的输入)还是n个条形,以便在各行之间有一个时间间隔?

我不是单纯的书呆子,我当然也不想诋毁你的工作(你的文章帮助了我)。

让我用一个实际的例子来解释我的观点,不要从统计研究中拉出引文。

在一棵决策树中,你会有,比如,m个终端节点。每个节点将包含输入向量中类似的情况--输入值的一个子空间。因此,如果你有连续的条形移位的例子,使用回顾几个条形的输入(在最坏的情况下,也是几百个条形),附近的点之间会有一个明亮的自相关,但由于我们是预测未来的几个条形(在最坏的情况下,也是几百个条形),附近的输出将是相同的。例如,输出列将由序列0 0 0 0 0 0 0 00 0 1 1 1 1 1 1 1 1 1组成。因此,几十个相同的输出将落入我们的终端节点,指的是相邻的--类似的--输入。可以说,按时间点排列的相同例子会出现冗余,这将使反应的分布出现最突出的偏差。这就是为什么有一个流行的建议,不要在市场上持有一个以上的头寸,因为在终端训练EA时,相邻的进入和退出的依赖效应也会发生。

在这种情况下,会有艰难的再训练,或者说形成非依赖性观察的统计。也就是说,在分析时间序列时,最令人不快的是相邻数据向量的依赖性。如果数据向量在时间上很远,那就没问题。在这种情况下,机器学习可以归结为寻找与时间有关的不变模式。

然后,参考你在文章中举出的错误矩阵作为例子。

我只能说,它非常棒。)该实验的进行是错误的。你永远不可能在一个有独立例子的样本上实现如此陡峭的误差矩阵,同时按时间严格区分测试数据集和训练数据集(look-ahead bias)。

而测试集上的误差矩阵也很奇妙,这表明按时间取了一个与训练样本混合的样本,其中类似的例子也被 "挤 "在一起。也就是说,这个特定的结果没有说明构建的模型预测市场的能力。

你可以试着多拿一点数据,用tail(all_data, 1/3)逻辑进行测试,看看矩阵单元格中的观察值数量是如何排列的。你甚至可以应用卡方标准来看看猜测是否已经变得几乎 随机。

我想传达给你的所有内容,我已经尽力做到了。注意,是出于好意)

好运!ǞǞǞ

对不起,我插嘴了,但这似乎是一个公开的讨论。

在我看来,你的帖子似乎是几个相关但不同的问题的混合。

1.你怎么教这个模型?趋势? 等级划分?偏离了什么?选择模型的老师似乎非常简单,但在实践中却造成了一定的困难。总之,我们应该为我们的交易理念准备非常具体的老师(模型训练所依据的向量),例如,"我交易趋势"。

2.你教什么?在你的帖子中,你提到了相邻的柱子之间存在着依赖性。是的,有一些木质模型(CORELearn)考虑到了相邻条形之间的依赖关系,但你提出的问题f更广泛,更糟糕,与使用的模型没有什么关系。这是模型再训练。在 我看来,有些数据集总是能产生过度训练的模型。而在这里,消除过度训练的技术再多也没有用。

有一些输入数据集(预测器集),其中有一些预测器可以用来建立不是过度训练的模型。但是,剩下的预测器会产生大量的噪声,这些噪声预测器无法被现有的预测器选择包所筛选出来。

因此,根据 "似乎与我们的老师,即目标变量相关 "的标准,手动选择预测因子 是强制性的。

PS。

说起来很可笑,但在交易趋势时,任何通过平滑化得到的预测指标,特别是MA,都是非常嘈杂的,模型总是被过度训练。而当对OOV样本进行训练时,你也可以得到5%的误差!

 
Alexey Burnakov:
在这里,什么回归或分类并不重要。都是一样的。这只是一篇专门关于回归的文章。

澄清一下:你有用于训练的例子,用什么步骤,一栏(即阵列数据的每一行的输入)还是n栏,这样,各行之间有一个时间差?

初始数据集是一个包含输入和目标的矩阵或数据帧。当分为(分层)训练集和测试集时,实例被随机洗牌,但集内的类别分布与原始集保持一致。因此,我们不可能说这些例子是在什么音高下拍摄的。很明显,你混淆了矢量到矩阵的转换,在这里你可以谈论时间滞后问题。

我不是单纯的书呆子,我当然也不想诋毁你的工作(你的文章帮助了我)。

是的,我远远没有这样的想法。但我真的无法理解这个问题。

让我用一个实际的例子来解释我的想法,不要从统计研究中拉出引文。

在一棵决策树中,你会有,比如,m个终端节点。每个节点将包含输入向量中类似的情况--输入值的一个子空间。因此,如果你有连续的条形移位的例子,使用回顾几个条形的输入(在最坏的情况下,也是几百个条形),相邻的点之间将有一个明亮的自相关,但同时,由于我们预测未来的几个条形(在最坏的情况下,也是几百个条形),相邻的输出也将是一样的。例如,输出列将由序列0 0 0 0 0 0 0 00 0 1 1 1 1 1 1 1 1 1组成。因此,几十个相同的输出将落入我们的终端节点,指的是相邻的--类似的--输入。可以说,按时间点排列的相同例子会出现冗余,这将使反应的分布出现最突出的偏差。这就是为什么有一个流行的建议,不要在市场上保持一个以上的头寸,因为在终端训练EA的时候,相邻的进场和出场的依赖效应也会存在。

在这种情况下,会有艰难的再训练,或者说形成非依赖性观察的统计。也就是说,在分析时间序列时,最令人不快的是相邻数据向量的依赖性。如果数据向量在时间上很远,那就没问题。在这种情况下,机器学习可以归结为寻找与时间有关的不变模式。

然后,参考你在文章中举出的错误矩阵作为例子。

我只能说,它非常棒。)该实验的进行是错误的。你永远不可能在一个有独立例子的样本上实现如此陡峭的误差矩阵,同时按时间严格区分测试数据集和训练数据集(look-ahead bias)。

而测试集上的误差矩阵也很奇妙,这表明按时间取了一个与训练样本混合的样本,其中类似的例子也被 "挤 "在一起。换句话说,这个特定的结果没有说明构建的模型预测市场的能力。

你可以试着多拿一点数据,用tail(all_data, 1/3)的逻辑进行测试,看看矩阵的单元格中的观察值数量是如何排列的。你甚至可以应用卡方标准来看看猜测是否已经变得几乎 随机。

所以你要在你的手指上布置一个例子来解释它。还是你认为我没有做过这样的测试?

我想传达给你的所有内容,我已经尽力做到了。注意,有良好的意愿 )

我真的想了解你想表达的意思。用一个例子,我想它会更清楚。

当他们说你在做实验时犯了一个错误,你必须告诉他们错误是什么,并告诉他们正确的解决方案。你有包,有例子,描述你认为应该如何进行计算。

无意冒犯。

祝好运