交易中的机器学习:理论、模型、实践和算法交易 - 页 2648

 
Aleksey Nikolayev #:

我认为,如何处理已识别的方框是一个复杂的问题,很难对所有可能的情况都有清晰明确的规则。一个好的、经过深思熟虑的算法可能是相当隐秘的 "诀窍")。

如果案例是根据同一组预测因子得到的,那么它们之间没有交集就足够了。如果有交集,则可以将其分配到一个单独的盒子中,其补集也可以分成几个盒子。但是,盒子数量过多会使样本过于分散。因此,我们可以概括方框的概念--在规则语言中,这意味着在 AND 的基础上增加否定 和 OR。

如果方框是在完全不同的预测因子上得到的(例如,通过随机森林方法),那么它们只能在样本中属于它们的部分的意义上重叠。这里可能需要一些近似组合的想法。

如果预测因子集有部分重叠,那么就一定存在某种混合方法,这一点很难确定。

我不清楚如何将其归入一个统一的方案。 构建决策树的标准方法简单而 "漂亮 "地规避了这些问题 因此不太适合我们的目的。也许可以通过选择一种剪枝算法来改进它,但我认为最好还是创造性地重新设计规则构建算法。

最聪明的结论...

开箱即用的算法只有近似规则,也就是愚蠢至极的规则,比如

x[1]>0.5 && x[3]> -0.2 &...

它们只有变量(矩阵或框架 X1.....X10 的列)和抽象的边界(数字 X[1]>0.5),这是他自己在学习在类中创建边界的过程中发明的。

那么微不足道的 X1> X2

X1 !> X2 的否定。

那么X1> (X2*X3) 呢?

与指数绑定,这在非平稳市场上行不通吗?


我指的是这样的表达:如果有"A "没有 "B",那么就是"C"。

但这并不适合于开箱即用的算法。

在市场中,我们关心的是罕见事件,所以我们需要的是规则的数量,而不是规则的数量。

 

我想知道降维 算法是如何看待有归一化和无归一化 的不同数据类型的样本的。

例如,数据类型有字符串和数字。

q1           q2
1    c -1.630015623
2    c  1.781979246
3    b -0.598134088
4    a -0.611477494
5    b -0.347432530
6    b -0.474427356
7    e -1.048827859
.....

我首先将 q1 转换为数字。

q1           q2
1    3 -1.630015623
2    3  1.781979246
3    2 -0.598134088
4    1 -0.611477494
5    2 -0.347432530
6    2 -0.474427356
7    5 -1.048827859

.... 

完成

现在我们将其发送给 UMAP 算法,并得到特征向量。

                  [,1]         [,2]
    [1,]   6.762433406   9.08787260
    [2,] -21.488330368  10.67183802
    [3,]   6.810413818   9.35273386
    [4,] -20.950310976  15.20258097
    [5,]  32.100723691  -9.74704393
    [6,]   6.892939805  16.84639975
    [7,] -17.096480607  -6.63144430

将点可视化

我们得到了漂亮的虫子 ))

让我们尝试用变量q1 给点着色。


我们可以看到,变量q1 创造了这些 "蠕虫 "的结构,它将重要程度拉到了自己身上,减少了 变量 q2贡献

这是因为变量 q1 的值很大,而且数据没有归一化

如果我们对数据进行归一化处理,每个变量的贡献将相同,我们将得到

我知道对某些参与者来说,这是显而易见的事情,我们需要归一化等等等等、

但你有没有想过,通过增加或减少变量的贡献,你可以控制聚类?

 
mytarmailS #:

直观


看起来像寄生虫)

 
mytarmailS #:

但你有没有想过,通过增加或减少变量的贡献度,可以控制聚类?

是的,故意高估或低估重要性。
但这是一门艺术,很难分析。
价格的非平稳性加剧了这种情况,我一直在与这种迹象作斗争:如果改变规模或归一化,训练模型的属性就会改变。
 
Maxim Dmitrievsky #:
对于非稳态价格,我与各种迹象交战已久。
我们都在与之斗争。
 
mytarmailS 降维 算法是如何看待有归一化和无归一化 的不同数据类型样本的。

例如,有数据类型、字符串类型和数字类型。

我首先将 q1 转换为数字

最好将字符串转换为分类形式,而不是数字形式。当然,如果你的 UMAP 可以处理它们的话。

a=1 和 e=5 并没有 5 倍的差异,它们只是不同而已,就像温暖和柔软。而通过数字化,你让它们变得越来越温暖。

 
elibrarius #:

a=1 和 e=5 并没有五倍的差别,它们只是不同而已、

嗯,是的,你说得太对了,我太笨了。

你得做个一热转换什么的。
 
Aleksey Nikolayev #:

我认为,如何处理已识别的方框是一个复杂的问题,很难对所有可能的情况都有清晰明确的规则。一个好的、经过深思熟虑的算法可能是相当隐秘的 "诀窍")。

如果案例是根据同一组预测因子得到的,那么它们之间没有交集就足够了。如果有交集,则可以将其分配到一个单独的盒子中,其补集也可以分成几个盒子。但是,盒子数量过多会使样本过于分散。因此,我们可以概括方框的概念--在规则语言中,这意味着在 AND 的基础上增加否定和 OR。

如果方框是在完全不同的预测因子上得到的(例如,通过随机森林方法),那么它们只能在样本中属于它们的部分的意义上重叠。这里可能需要一些近似组合的想法。

如果预测因子集有部分重叠,那么就一定存在某种混合方法,这一点很难确定。

我不清楚如何将其归入一个统一的方案。构建决策树的标准方法简单而 "漂亮 "地规避了这些问题,因此不太适合我们的目的。也许可以通过选择一种剪枝算法来改进它,但我认为最好还是创造性地重新设计规则构建算法。

在不了解细节的情况下,很难对逻辑进行修改。

我个人并不了解方框的额外 2 个坐标(2 - 量子边界)是什么意思--我以为是样本修剪。

我只是想寻找一些有用的东西来发展我的方法。我也有粘合 "盒子 "的方法,但算法并不完美。

 
Aleksey Vyazmikin #:

就是这样,不了解细节就很难改变逻辑。

我个人并不理解方框的额外 2 个坐标(2 - 量子边界)是什么意思,我以为是样本修剪。

我只是在寻找对我的方法有用的东西。我也有粘合 "盒子 "的方法,但算法并不完美。

如果你是在专门讨论 PRIM,那么我的链接只是举了一个例子,说明它是如何在两个预测因子 x1 和 x2 的情况下工作的。相应地,一个形式为 (a1<x1<b1)&(a2<x2<b2) 的框被选中。框外的东西显然被认为与框内的东西属于不同的类别。有人试图用一个简单的例子来说明算法 的本质 --每一步都从盒子里切掉一小块(剥离)至于切掉哪一块,以及通过哪个预测因子,则要根据 "轨迹 "步骤的最优条件来选择。

我对这种算法很感兴趣,因为它是一个例子,说明了如何可以而且应该根据自己的需要修改用于建立规则(求解树)的标准算法。

 
Aleksey Nikolayev #:

如果您是在具体讨论 PRIM,我的链接刚刚给出了一个例子,说明它如何在两个预测因子 x1 和 x2 的情况下工作。相应地,一个形式为 (a1<x1<b1)&(a2<x2<b2) 的方框被选中。框外的东西显然被认为与框内的东西属于不同的类别。有人试图用一个简单的例子来说明算法 的本质 --每一步都从盒子里切掉一小块(剥离)从 "轨迹 "步骤的最优化条件中选择切掉哪一块以及用哪个预测器来预测。

我对这种算法很感兴趣,因为它是一个例子,说明了如何可以而且应该根据自己的需要修改用于建立规则(求解树)的标准算法。

你能想明白就好--我一开始也不明白,谢谢你的解释。

不过,后来发现第一阶段的算法应该找到能更好地分隔成箱的预测因子对,然后对它们进行 "剥离"。