交易中的机器学习：理论、模型、实践和算法交易

mytarmailS 2022.05.25 13:42 #26471

Aleksey Nikolayev #:

我认为，如何处理已识别的方框是一个复杂的问题，很难对所有可能的情况都有清晰明确的规则。一个好的、经过深思熟虑的算法可能是相当隐秘的 "诀窍"）。

如果案例是根据同一组预测因子得到的，那么它们之间没有交集就足够了。如果有交集，则可以将其分配到一个单独的盒子中，其补集也可以分成几个盒子。但是，盒子数量过多会使样本过于分散。因此，我们可以概括方框的概念--在规则语言中，这意味着在 AND 的基础上增加否定和 OR。

如果方框是在完全不同的预测因子上得到的（例如，通过随机森林方法），那么它们只能在样本中属于它们的部分的意义上重叠。这里可能需要一些近似组合的想法。

如果预测因子集有部分重叠，那么就一定存在某种混合方法，这一点很难确定。

我不清楚如何将其归入一个统一的方案。 构建决策树的标准方法简单而 "漂亮 "地规避了这些问题， 因此不太适合我们的目的。也许可以通过选择一种剪枝算法来改进它，但我认为最好还是创造性地重新设计规则构建算法。

最聪明的结论...

开箱即用的算法只有近似规则，也就是愚蠢至极的规则，比如

x[1]>0.5 && x[3]> -0.2 &...

它们只有变量（矩阵或框架 X1.....X10 的列）和抽象的边界（数字 X[1]>0.5），这是他自己在学习在类中创建边界的过程中发明的。

那么微不足道的 X1> X2

或 X1 !> X2 的否定。

那么X1> (X2*X3) 呢？

与指数绑定，这在非平稳市场上行不通吗？

我指的是这样的表达：如果有"A " 而没有 "B"，那么就是"C"。

但这并不适合于开箱即用的算法。

在市场中，我们关心的是罕见事件，所以我们需要的是规则的数量，而不是规则的数量。

Ema of Previous Bar Machine learning in trading: Algorithm Optimisation Championship.

mytarmailS 2022.05.25 14:35 #26472

我想知道降维算法是如何看待有归一化和无归一化 的不同数据类型的样本的。

例如，数据类型有字符串和数字。

q1           q2
1    c -1.630015623
2    c  1.781979246
3    b -0.598134088
4    a -0.611477494
5    b -0.347432530
6    b -0.474427356
7    e -1.048827859
.....

我首先将 q1 转换为数字。

q1           q2
1    3 -1.630015623
2    3  1.781979246
3    2 -0.598134088
4    1 -0.611477494
5    2 -0.347432530
6    2 -0.474427356
7    5 -1.048827859

....

完成

现在我们将其发送给 UMAP 算法，并得到特征向量。

                  [,1]         [,2]
    [1,]   6.762433406   9.08787260
    [2,] -21.488330368  10.67183802
    [3,]   6.810413818   9.35273386
    [4,] -20.950310976  15.20258097
    [5,]  32.100723691  -9.74704393
    [6,]   6.892939805  16.84639975
    [7,] -17.096480607  -6.63144430

将点可视化

我们得到了漂亮的虫子 ))

让我们尝试用变量q1 给点着色。

我们可以看到，变量q1 创造了这些 "蠕虫 "的结构，它将重要程度拉到了自己身上，减少了变量 q2 的贡献。

这是因为变量 q1 的值很大，而且数据没有归一化。

如果我们对数据进行归一化处理，每个变量的贡献将相同，我们将得到

我知道对某些参与者来说，这是显而易见的事情，我们需要归一化等等等等、

但你有没有想过，通过增加或减少变量的贡献，你可以控制聚类？

PapaYozh 2022.05.25 14:39 #26473

mytarmailS #:

直观

看起来像寄生虫）

Maxim Dmitrievsky 2022.05.25 15:41 #26474

mytarmailS #:

但你有没有想过，通过增加或减少变量的贡献度，可以控制聚类？

是的，故意高估或低估重要性。

但这是一门艺术，很难分析。

价格的非平稳性加剧了这种情况，我一直在与这种迹象作斗争：如果改变规模或归一化，训练模型的属性就会改变。

mytarmailS 2022.05.25 16:04 #26475

Maxim Dmitrievsky #:
对于非稳态价格，我与各种迹象交战已久。

我们都在与之斗争。

Forester 2022.05.25 16:35 #26476

mytarmailS 降维算法是如何看待有归一化和无归一化 的不同数据类型样本的。
例如，有数据类型、字符串类型和数字类型。
我首先将 q1 转换为数字

最好将字符串转换为分类形式，而不是数字形式。当然，如果你的 UMAP 可以处理它们的话。

a=1 和 e=5 并没有 5 倍的差异，它们只是不同而已，就像温暖和柔软。而通过数字化，你让它们变得越来越温暖。

mytarmailS 2022.05.25 17:09 #26477

elibrarius #:

a=1 和 e=5 并没有五倍的差别，它们只是不同而已、

嗯，是的，你说得太对了，我太笨了。

你得做个一热转换什么的。

Aleksey Vyazmikin 2022.05.25 18:02 #26478

Aleksey Nikolayev #:

我认为，如何处理已识别的方框是一个复杂的问题，很难对所有可能的情况都有清晰明确的规则。一个好的、经过深思熟虑的算法可能是相当隐秘的 "诀窍"）。

如果案例是根据同一组预测因子得到的，那么它们之间没有交集就足够了。如果有交集，则可以将其分配到一个单独的盒子中，其补集也可以分成几个盒子。但是，盒子数量过多会使样本过于分散。因此，我们可以概括方框的概念--在规则语言中，这意味着在 AND 的基础上增加否定和 OR。

如果方框是在完全不同的预测因子上得到的（例如，通过随机森林方法），那么它们只能在样本中属于它们的部分的意义上重叠。这里可能需要一些近似组合的想法。

如果预测因子集有部分重叠，那么就一定存在某种混合方法，这一点很难确定。

我不清楚如何将其归入一个统一的方案。构建决策树的标准方法简单而 "漂亮 "地规避了这些问题，因此不太适合我们的目的。也许可以通过选择一种剪枝算法来改进它，但我认为最好还是创造性地重新设计规则构建算法。

在不了解细节的情况下，很难对逻辑进行修改。

我个人并不了解方框的额外 2 个坐标（2 - 量子边界）是什么意思--我以为是样本修剪。

我只是想寻找一些有用的东西来发展我的方法。我也有粘合 "盒子 "的方法，但算法并不完美。

Aleksey Nikolayev 2022.05.25 21:22 #26479

Aleksey Vyazmikin #:

就是这样，不了解细节就很难改变逻辑。

我个人并不理解方框的额外 2 个坐标（2 - 量子边界）是什么意思，我以为是样本修剪。

我只是在寻找对我的方法有用的东西。我也有粘合 "盒子 "的方法，但算法并不完美。

如果你是在专门讨论 PRIM，那么我的链接只是举了一个例子，说明它是如何在两个预测因子 x1 和 x2 的情况下工作的。相应地，一个形式为 (a1<x1<b1)&(a2<x2<b2) 的框被选中。框外的东西显然被认为与框内的东西属于不同的类别。有人试图用一个简单的例子来说明算法的本质 --每一步都从盒子里切掉一小块（剥离）。至于切掉哪一块，以及通过哪个预测因子，则要根据 "轨迹 "步骤的最优条件来选择。

我对这种算法很感兴趣，因为它是一个例子，说明了如何可以而且应该根据自己的需要修改用于建立规则（求解树）的标准算法。

Aleksey Vyazmikin 2022.05.25 22:10 #26480

Aleksey Nikolayev #:

如果您是在具体讨论 PRIM，我的链接刚刚给出了一个例子，说明它如何在两个预测因子 x1 和 x2 的情况下工作。相应地，一个形式为 (a1<x1<b1)&(a2<x2<b2) 的方框被选中。框外的东西显然被认为与框内的东西属于不同的类别。有人试图用一个简单的例子来说明算法的本质 --每一步都从盒子里切掉一小块（剥离）。从 "轨迹 "步骤的最优化条件中选择切掉哪一块以及用哪个预测器来预测。

我对这种算法很感兴趣，因为它是一个例子，说明了如何可以而且应该根据自己的需要修改用于建立规则（求解树）的标准算法。

你能想明白就好--我一开始也不明白，谢谢你的解释。

不过，后来发现第一阶段的算法应该找到能更好地分隔成箱的预测因子对，然后对它们进行 "剥离"。

交易中的机器学习：理论、模型、实践和算法交易 - 页 2648