交易中的机器学习:理论、模型、实践和算法交易 - 页 57

 
尤里-雷舍托夫
那么,可持续性是通过防止潜在的过度学习来实现的。而不平衡的训练样本是造成低代表性班级过度训练的一个潜在原因。毕竟,学习算法试图按照它认为合适的方式行事,而不是为了提高可概括性而需要这样做。如果样本是不平衡的,那么在最没有代表性的类别上的学习误差会最小,因为这些类别的例子很少,最容易的是背诵而不是归纳。经过这样的死记硬背的学习,没有什么好奇怪的,在训练样本之外,算法的错误最有可能发生在没有代表性的类中。
我并不反对平衡训练样本。我并不反对在不按日期切割的情况下随机抽取子样本进行验证。这将高估验证方面的指标。
 
阿列克谢-伯纳科夫

思路很简单。在现实生活中,没有人会允许你拿一个包含来自未来观察的混合样本来评估真实交易的质量。所有的观察将在第X天之后进行。

因此,在验证中采取混合样本(没有日期分离),你就高估了验证的质量指标。就这样了。那么就会有令人讨厌的意外发生。

思想与它有什么关系?思想是主观的。思考既可以是正确的,也可以是故意的错误。因为想象力是有问题的,是有限的。真理的标准永远是经验。

取两个训练样本,一个是预平衡的,另一个是高度不平衡的。在两个样本上训练算法,并在测试部分测量泛化能力。然后比较泛化能力。赋予最佳概括能力的将是真理的标准。

否则,我们将思考和猜测到失去脉搏的地步。毕竟,分歧产生于辩论,真理产生于经验。

因此,我不再进一步讨论平衡训练样本的话题了。否则这个合唱可以无限期地继续下去,因为有两种不同的意见,继续衡量我们谁的想法更正确是浪费时间。

 
尤里-雷舍托夫
那么,稳定性是通过防止过度训练来实现的。而不平衡的训练样本是造成低代表性班级过度训练的一个潜在原因。毕竟,学习算法试图按照它认为合适的方式行事,而不是为了提高可概括性而需要这样做。如果样本是不平衡的,那么在最没有代表性的类别上的学习误差会最小,因为这些类别的例子很少,最容易的是背诵而不是归纳。经过这样的死记硬背,在训练样本之外,算法在不太具有代表性的类别中的错误最容易发生,这并不奇怪。

1.在不平衡的班级中,这是一个混乱的局面:班级之间的误差可以相差数倍。那么哪个是正确的呢?

2.远非总是能够平衡类。

你的例子是 "买"|"卖"。当观察值(条)的数量超过3000时,不平衡的差异将是10%,最多是20%。这是很有可能实现平衡的。

在此,Dr.Trader 建议使用目标变量 "Pivot/Not Pivot"。我想他是从ZZ那里学来的。因此,在这个目标变量中,不平衡类将有数量级的差异。如果我们增加到最大的班级,我们能在这样一个平衡的样本上进行教学吗?在我看来,没有。

因此,平衡并不那么简单。

从我自己的经验来看。

  • 如果不平衡不大(不超过20%),则必须进行平衡。
  • 如果不平衡度很大(倍数),那么你就不能平衡,你根本就不应该使用这个目标变量。

我找不到其他解决办法。

 
尤里-雷舍托夫
我要放下一切,成为一名R专家,这样我就可以一脸严肃地玩数字游戏了。
到目前为止,我还没有注意到你在打数字,但我不知道你的脸。
 
桑桑尼茨-弗门科
到目前为止,我还没有注意到你在玩数字游戏,但我不知道脸部的情况--我看不到它。
嗯,我的头像上有一张相当严肃的脸,不是吗?至少我非常努力地使它尽可能地严肃。但显然,结果并不理想,不是吗?
 
尤里-雷舍托夫

思想与它有什么关系?思想是主观的。思考既可以是正确的,也可以是故意的错误。因为想象力是有问题的,是有限的。真理的标准永远是经验。

取两个训练样本,一个是预平衡的,另一个是高度不平衡的。在两个样本上训练算法,并在测试部分测量泛化能力。然后比较泛化能力。赋予最佳概括能力的将是真理的标准。

否则,我们将思考和猜测到失去脉搏的地步。毕竟,分歧产生于争论,真理产生于经验。

因此,我将停止进一步讨论平衡训练样本的话题。否则,这个问题可以无限期地持续下去,因为有两种不同的意见,继续衡量我们谁的想法正确--是浪费时间。

我是指一件事,你是指另一件事。我说我们应该严格按照日期来划分这套书。而你正在谈论平衡问题。
 
阿列克谢-伯纳科夫
我是指一件事,你是指另一件事。我说你需要严格按照日期来划分这套书。而你正在谈论平衡问题。

我很抱歉,但我已经说过,我认为继续这种合唱没有任何意义。我已经试图用例子来解释平衡的缺点。可能不是很有说服力,是吗?我不擅长黑色修辞,所以我不能直截了当地把黑的变成白的。所以不要对我太苛刻。

更有可能的是,你想让我相信,你应该是想 "强迫 "你去平衡现实?但我没有这样的打算。我知道,对我来说,不幸的是,现实往往是不平衡的,而平衡的机会并不总是存在。因此,在我的帖子中,我试图向你解释,没有必要试图平衡训练样本以外的现实,但平衡训练样本是必要的,也是足够的,这样,从中得到的模型就不会向高度代表性的类的方向倾斜了。在按日期将一般样本分成若干部分时,也往往无法达到平衡。这就是为什么我不是通过日期来平衡训练样本,而是通过其中的类的平等代表性来平衡。

我不会再回答任何关于平衡训练集的问题。所以这个合唱团已经拖了很久了。

 
尤里-雷舍托夫

我很抱歉,但我已经说过,我认为继续这种合唱没有任何意义。我已经试图用例子来解释平衡的缺点。可能不是很有说服力,是吗?我不擅长黑色修辞,所以我不能用严肃的面部表情把黑的变成白的。所以不要对我太苛刻。

更有可能的是,你想让我相信,你应该是想 "强迫 "你去平衡现实?但我没有这样的打算。我知道,对我来说,不幸的是,现实往往是不平衡的,而平衡的机会并不总是存在。这就是为什么我试图在我的帖子中解释,没有必要试图平衡训练样本以外的现实,但平衡训练样本是必要的,也是充分的,这样从中得到的模型就不会向具有强烈代表性的类倾斜。在按日期将一般样本分成若干部分时,也往往无法达到平衡。因此,我不是通过日期来平衡训练样本,而是通过其中的类的平等代表性来平衡。

我不会再回答任何关于平衡训练集的问题。所以我们已经陷入了一片喧嚣。

好的.我不会说服你的。
 

为了完整起见,我想跳出来,重申我在该主题上面的意见。

1.你需要有两组数据:第二组是第一组在时间上的延伸。

2.平衡第一组数据。我们肯定会平衡它。

3.我们将第一个数据集随机分为三部分:训练、测试和验证。

  • 我们在训练数据集上使用交叉验证来教导模型。
  • 我们通过测试和验证集运行训练好的模型。
  • 如果三组误差大致相等,则进入第4项。 否则,我们将继续寻找更合适的预测因子,因为误差的显著差异证明,由于存在噪声预测因子(与目标变量关系较弱),模型被过度训练了。

4.我们在第二组上得到一个错误,这是第一组在时间上的延续。

如果所有四组的误差都差不多,那么模型就不会被重新训练。如果错误有一个合适的值,我们就可以安全地更进一步,即通过测试器运行它。

如果有明显的差异(超过30%),那么原来的预测器组就会导致模型重新训练,从个人经验来看,更换模型类型不能解决任何问题,在重新训练方面。我们需要摆脱噪音预测器。很容易发生的情况是,在预测因子中根本就没有噪音预测因子。

 
我将支持你们的谈话,因为我已经使用尤里的优化器一年多了,我绝对同意他关于用HSPF发生器取样的观点。重点是,任务是识别输入数据中关于输出信息的信息。也就是说,优化器告诉你输入数据对我们的输出有多大的信息量(这是理想的)。也就是说,优化器会回答这个问题。而如果数据显示出不好的结果,就意味着它没有携带关于输出的信息,或者说它携带到了预测者所给出的那个概括水平。现在想象以下情况:假设我们有10个输入。问题是,我们需要有多少个条目(stroi)才能将样本分割为零????。我给你一个提示。100个条目,10个输入,应该优化为零。因为在100个条目时,它将是一个完整的数据枚举。也许我没有说清楚,我道歉。尤里当然没有谈到这一点,但有一个使用预测器的细微差别,它没有被宣传,但它增加了任何数据的通用性。即对于10个输入,给定100行,甚至与系统数据完全不相关。该算法将建立一个通用性很高的模型。在90%及以上的范围内。目前还不能确定这个模型在未来是否能充分运作,因为数据是从天花板上取下来的,与系统没有任何关系。但 "预测者 "能够以最小的误差锯开一个多维空间。但为此你需要进行一个棘手的数据处理。但我完全同意尤里的观点。任务是确定输入与输出的信息性,在这种情况下,数据的顺序不发挥任何作用。在这种情况下,HSPF是一种选择....