交易中的机器学习:理论、模型、实践和算法交易 - 页 2111

 
Aleksey Vyazmikin:

不,这将是一个合适的只是,而不是一个有意义的模型!

我不同意。通过量化,你减少了信息量。最大的量化数量将留下最大的信息量。

但量化到65535比量化到255需要更长的时间。

 
elibrarius:

你知道怎么做吗?

是的,我正在做这个工作--它最初是为遗传树做的。

你需要评估信息在整个样本中的分布以及它与目标的关系。我看的是某个量化部分的误差是如何减少的,以及它所包含的样本百分比是多少--平衡这些指标可以选择最佳分区。

 
elibrarius:

我不同意。通过量化,你减少了信息量。最大数量的量化将留下最大数量的信息。

但量化到65535比量化到255需要更长的时间。

你不同意应该是错误的--外面的信息不多,需要把它从噪音中分离出来。我们(我)需要的是稳定的依赖关系,而不是每5年重复出现的依赖关系,因此没有足够的统计数据来估计它们对特定目标的倾向性,使用不充分的例子只会导致拟合。

 
Aleksey Vyazmikin:

是的,我正在做这个工作--它最初是为遗传树做的。

你需要评估信息在整个样本中的分布以及它与目标的关系。我看的是 在某一段量化中误差如何减少 ,以及它所包含的样本百分比是多少--平衡这些指标可以让你选择最佳分区。

你如何估计量化的误差。你只能通过运行训练,并通过所有的列一次性获得,而不是每列量化的时刻。

 
elibrarius:
Aleksey Vyazmikin:

你如何估计量化的误差。它只能通过在所有列上一次性运行训练来获得,而不是在当前量化的每一列上。

我估计了相对于整个样本的目标余额的变化。如果有两个以上的目标,这一点尤其重要。

 
Aleksey Vyazmikin:

我估计了相对于整个样本来说,目标的余额变化。如果有两个以上的目标,情况尤其如此。

在任何情况下,接下来的分裂将通过量化点分裂成2个部分。

你可以相当粗略地移动一个量子的边界--其大小的5-10%-20%--通过量化大的255块。通过应用65535量子,你将有一个0.5%的量子的步骤。而树会挑选出最好的一个。

不过不太可能。通常情况下,它只是击中了中间或四分之一。用65535个量子,你会更准确地找到中间,用255个量子则是256倍的粗糙。

 
elibrarius:

在任何情况下,接下来的分裂将通过量化点分裂成2块。

你可以相当粗略地移动一个量子的边界--其大小的5-10-20%--通过量化大的255块。通过应用65535量子,你将有一个0.5%的量子的步骤。而树会挑选出最好的一个。

不过不太可能。通常情况下,它只是击中了中间或四分之一。用65535个量子会更准确地找到中间,用255个量子则是256倍的粗糙。

确切地说,会有分裂,但分裂不会是50%,而是不平等的--取决于与上层分裂的对应关系,但从逻辑上看,如果你看哪里的单位饱和,或者哪里的单位数量相等(相对于整个样本的平衡),机会就会不同。目标是获得至少1%的叶子中的样本,同时获得约65%的同一类别的标签。

 
Aleksey Vyazmikin:

确切地说,会有分裂,但分裂不会是50%,而是不均匀的--取决于与顶部分裂的对应关系(),但从逻辑上看,如果你在单位饱和的部分 或有偶数的部分(相对于整个样本的平衡)进行搜索,机会会有所不同。目标是获得至少1%的样本的叶子,同时获得约65%的同一类别的标签。

我认为这是一个相当困难的任务。

而如果能找到这样的功能,即使没有MO,也是唯一的工作方法。

不幸的是,我们没有这样的功能。

 
Maxim Dmitrievsky:

我在考试中不需要它,但它可能会派上用场。

结果很奇怪--在测试和训练样本中,召回率为0.6-0.8,在没有转换的考试中,召回率为0.009,转换率为0.65--这里出了问题:(

我有一种感觉,CatBoost已经学会了转换算法 :)

还有,是否有机会标明新旧两条线?然后可以从转换后的样本中删除转换后的 字符串,看看是否是解释的问题,还是没有定性的训练都一样。

 
elibrarius:

我认为这是一个相当大的挑战。

而如果能找到这样的功能,即使没有国防部,也是唯一可行的办法。

不幸的是,我们没有这样的功能。

由y是网格分割,由X是整个样本中每个类别的目标之和的百分比偏差。过滤器是5%。我们可以看到,不同的班级在不同的部分占主导地位,有时会出现镜像变化,改善是由于某个班级的原因(直方图到了负数的位置),有时则没有。所有这些都应该在训练中使用,但我所知的标准训练方法并没有很好地考虑到这一点。有可能用遗传学的方法进行过度训练(更准确地说是用消除法)会更有效--应该这样做。