交易中的机器学习：理论、模型、实践和算法交易

Forester 2020.11.12 11:55 #21101

Aleksey Vyazmikin:

不，这将是一个合适的只是，而不是一个有意义的模型!

我不同意。通过量化，你减少了信息量。最大的量化数量将留下最大的信息量。

但量化到65535比量化到255需要更长的时间。

Aleksey Vyazmikin 2020.11.12 11:56 #21102

elibrarius:

你知道怎么做吗？

是的，我正在做这个工作--它最初是为遗传树做的。

你需要评估信息在整个样本中的分布以及它与目标的关系。我看的是某个量化部分的误差是如何减少的，以及它所包含的样本百分比是多少--平衡这些指标可以选择最佳分区。

Aleksey Vyazmikin 2020.11.12 11:58 #21103

elibrarius:

我不同意。通过量化，你减少了信息量。最大数量的量化将留下最大数量的信息。

但量化到65535比量化到255需要更长的时间。

你不同意应该是错误的--外面的信息不多，需要把它从噪音中分离出来。我们（我）需要的是稳定的依赖关系，而不是每5年重复出现的依赖关系，因此没有足够的统计数据来估计它们对特定目标的倾向性，使用不充分的例子只会导致拟合。

Forester 2020.11.12 12:04 #21104

Aleksey Vyazmikin:

是的，我正在做这个工作--它最初是为遗传树做的。

你需要评估信息在整个样本中的分布以及它与目标的关系。我看的是在某一段量化中误差如何减少，以及它所包含的样本百分比是多少--平衡这些指标可以让你选择最佳分区。

你如何估计量化的误差。你只能通过运行训练，并通过所有的列一次性获得，而不是每列量化的时刻。

Aleksey Vyazmikin 2020.11.12 12:05 #21105

elibrarius:
Aleksey Vyazmikin:

你如何估计量化的误差。它只能通过在所有列上一次性运行训练来获得，而不是在当前量化的每一列上。

我估计了相对于整个样本的目标余额的变化。如果有两个以上的目标，这一点尤其重要。

Forester 2020.11.12 12:15 #21106

Aleksey Vyazmikin:

我估计了相对于整个样本来说，目标的余额变化。如果有两个以上的目标，情况尤其如此。

在任何情况下，接下来的分裂将通过量化点分裂成2个部分。

你可以相当粗略地移动一个量子的边界--其大小的5-10%-20%--通过量化大的255块。通过应用65535量子，你将有一个0.5%的量子的步骤。而树会挑选出最好的一个。

不过不太可能。通常情况下，它只是击中了中间或四分之一。用65535个量子，你会更准确地找到中间，用255个量子则是256倍的粗糙。

Aleksey Vyazmikin 2020.11.12 12:30 #21107

elibrarius:

在任何情况下，接下来的分裂将通过量化点分裂成2块。

你可以相当粗略地移动一个量子的边界--其大小的5-10-20%--通过量化大的255块。通过应用65535量子，你将有一个0.5%的量子的步骤。而树会挑选出最好的一个。

不过不太可能。通常情况下，它只是击中了中间或四分之一。用65535个量子会更准确地找到中间，用255个量子则是256倍的粗糙。

确切地说，会有分裂，但分裂不会是50%，而是不平等的--取决于与上层分裂的对应关系，但从逻辑上看，如果你看哪里的单位饱和，或者哪里的单位数量相等（相对于整个样本的平衡），机会就会不同。目标是获得至少1%的叶子中的样本，同时获得约65%的同一类别的标签。

Forester 2020.11.12 12:46 #21108

Aleksey Vyazmikin:

确切地说，会有分裂，但分裂不会是50%，而是不均匀的--取决于与顶部分裂的对应关系（），但从逻辑上看，如果你在单位饱和的部分或有偶数的部分（相对于整个样本的平衡）进行搜索，机会会有所不同。目标是获得至少1%的样本的叶子，同时获得约65%的同一类别的标签。

我认为这是一个相当困难的任务。

而如果能找到这样的功能，即使没有MO，也是唯一的工作方法。

不幸的是，我们没有这样的功能。

Aleksey Vyazmikin 2020.11.12 13:00 #21109

Maxim Dmitrievsky:

我在考试中不需要它，但它可能会派上用场。

结果很奇怪--在测试和训练样本中，召回率为0.6-0.8，在没有转换的考试中，召回率为0.009，转换率为0.65--这里出了问题:(

我有一种感觉，CatBoost已经学会了转换算法 :)

还有，是否有机会标明新旧两条线？然后可以从转换后的样本中删除转换后的字符串，看看是否是解释的问题，还是没有定性的训练都一样。

Aleksey Vyazmikin 2020.11.12 13:10 #21110

elibrarius:

我认为这是一个相当大的挑战。

而如果能找到这样的功能，即使没有国防部，也是唯一可行的办法。

不幸的是，我们没有这样的功能。

由y是网格分割，由X是整个样本中每个类别的目标之和的百分比偏差。过滤器是5%。我们可以看到，不同的班级在不同的部分占主导地位，有时会出现镜像变化，改善是由于某个班级的原因（直方图到了负数的位置），有时则没有。所有这些都应该在训练中使用，但我所知的标准训练方法并没有很好地考虑到这一点。有可能用遗传学的方法进行过度训练（更准确地说是用消除法）会更有效--应该这样做。

交易中的机器学习：理论、模型、实践和算法交易 - 页 2111