交易中的机器学习:理论、模型、实践和算法交易 - 页 56

 
阿列克谢-伯纳科夫
几年了。这里的主题是她的结果。
请给我链接。
 
Vadim Shishkin:
请给我一个链接,好吗?
整个话题就是这个结果。
 
Yury Reshetov:

至少要按日期严格区分为训练样本和测试样本,而不是在一般样本中随机洗出均匀分布的样本,然后将其分成若干部分。可能发生的情况是,样本的一部分主要包含垂直趋势,而另一部分则包含横向趋势。如果我们应用随机混合,在样本的不同部分聚集类似模式的概率就会下降。

顺便说一下,MetaTrader的内置策略测试器 也存在这样的缺点,即它严格按照日期划分训练样本和预先测试。正因为如此,接近分界线的市场趋势变化会导致故意的过度训练。

这是实验规划中的关键点。在现实中,有一个严格的时间分隔。这就是模型如何在完全意义上对未来进行测试。

我也有这样的情况:在验证时,市场以下跌为主,出现了超额的空头。那么,它在未来可能主要是上升。任何事情都可能发生。
 
Vadim Shishkin:
因此,你,像任何可敬的交易员一样,说出了答案。
宇宙的答案,如果你愿意的话。
 
阿列克谢-伯纳科夫
这是实验计划的关键点。在现实中,在时间上存在着严格的分离。这就是在完全意义上对模型进行未来测试的方式。

我也有这样的情况:在验证时,市场以下跌为主,出现了超额的空头。那么,未来可能主要是上升。任何事情都可能发生。

这被称为不平衡样本,是机器学习的一个问题。

为了更清楚地说明问题,我将给你举一个例子。假设我们有一个训练样本,其中上升趋势 占了上风,因此下降趋势在样本中的出现比上升趋势少,即我们有一个不平衡。

假设我们在样本中有1,000个向下的运动,和10,000个向上的运动。并假设向上运动的分类误差为10%。但这10%对于1万个例子来说,等于1000个被归类为预测下跌的错误信号,而我们的样本中只有1000个有下跌的例子。这意味着,无论对下行运动的分类有多准确,对于预测未来运动可能是下行的分类器的任何反应,其误差将至少为50%。也就是说,任何一个类别的训练样本中不平衡的例子越多,该类别的错误分类对分类器对另一类别的反应质量的影响就越大。

由于这个原因,预测罕见的现象是非常困难的:地震、火山爆发、经济危机等。因为如果现象在样本中非常罕见且不具代表性,那么对于罕见的现象来说,相反类别的例子的任何误差都会变得过度。

因此,训练样本必须是预先平衡的,以便它包含所有类别的相同数量的例子。否则,低代表性的类更有可能在训练集之外的测试中失败。此外,在将一般样本分为训练和测试部分时,有必要使用具有均匀概率分布的PRNG来混合实例,以避免在一部分中具有相似预测因素的实例和另一部分中具有不同预测因素的实例发生拥挤。也就是说,要避免预测因素的不平衡,而不仅仅是因变量的不平衡。

 
尤里-雷舍托夫

这被称为不平衡采样,是一个机器学习问题。

为了更清楚地说明问题,让我给你举个例子。假设我们有一个上升趋势 占主导地位的训练样本,这意味着下降趋势比上升趋势少,即我们有一个不平衡。

假设我们在样本中有1,000个向下的运动,和10,000个向上的运动。并假设向上运动的分类误差为10%。但这10%对于1万个例子来说,等于1000个被归类为预测下跌的错误信号,而我们的样本中只有1000个有下跌的例子。这意味着,无论对下行运动的分类有多准确,对于预测未来运动可能下行的分类器的任何反应,其误差将至少为50%。也就是说,任何一个类别的训练样本中,不平衡的例子越多,该类别的错误分类对分类器对另一类别的反应质量的影响就越大。

由于这个原因,预测罕见的现象是非常困难的:地震、火山爆发、经济危机等。毕竟,如果一个事件非常罕见,而且在样本中表现得很稀少,那么对于罕见的事件来说,相反类别的例子的任何误差都会变得过度。

因此,训练样本需要预先平衡,以便它有相同数量的所有类别的例子。否则,低代表性的类更有可能在训练集之外的测试中失败。此外,在将一般样本划分为训练和测试部分时,有必要使用具有统一概率分布的PRGPs来混合实例,以避免在一部分中具有相似预测因子而在另一部分中具有不同预测因子的实例拥挤。也就是说,要避免预测因素的不平衡,而不仅仅是因果变量的不平衡。

尤里,我明白这一点。在训练和验证时,抽样确实可能是不平衡的。但在现实中,你是在交易未来,那里的偏见可能非常强烈。而该战略需要对这样的结果有弹性。
 
尤里-雷舍托夫


因此,训练样本应该是预先平衡的,以便它包含所有类别的例子,数量相等。否则,低代表性的类更有可能在训练集之外的测试中失败。此外,在将一般样本分为训练和测试部分时,有必要使用具有均匀概率分布的PRNG来混合实例,以避免在一部分中具有相似预测因素的实例和另一部分中具有不同预测因素的实例发生拥挤。也就是说,要避免预测因素的不平衡,而不仅仅是因果变量的不平衡。

护理包

一对函数。downSample/upSample - 减少/增加观察值的数量,获得完全平衡的类。下采样/上采样是基于一个简单的随机抽样算法。

PS。

Reshetov!

开始学习R.你越来越多地滑向琐事。

 
桑桑尼茨-弗门科

Reshetov!

开始学习R.你越来越频繁地滑向陈词滥调。

我要放下一切,成为一名R专家,这样我就可以一脸严肃地玩弄数字了。
 
阿列克谢-伯纳科夫
尤里,我明白这个意思。在训练和验证中,样本确实可能是不平衡的。但在现实中,你是在交易未来,那里的偏见可能非常强烈。而战略应该对这样的结果有抵抗力。
你需要防止潜在的过度学习,因为这是实现稳定的唯一途径。而不平衡的训练样本是造成不具代表性的班级过度训练的潜在原因。毕竟,学习算法试图按照它认为合适的方式行事,而不是为了提高可概括性而需要这样做。如果样本是不平衡的,那么在最没有代表性的类别上的学习误差会最小,因为这些类别的例子很少,最容易的是背诵而不是归纳。经过这样的死记硬背,在训练样本之外,算法错误最有可能发生在不太具有代表性的类别中,这一点并不令人惊讶。
 

你对日期范围视而不见; - 准确地按日期分开数据(X日之前--训练,之后--验证)。

这一点很简单。在现实世界中,没有人会允许你拿一个包含来自未来和过去的观察的混合样本来评估真实交易的质量。所有的观察将在第X天后进行。

因此,在验证中采取混合样本(没有日期分离),你就高估了验证的质量指标。就这样了。那么就会有不愉快的意外发生。