交易中的机器学习：理论、模型、实践和算法交易

СанСаныч Фоменко 2022.10.15 11:05 #27871

Maxim Dmitrievsky #:
你会发现很多不一致的地方，包括异常值的去除。根据不同的计算方法，异常值通常占数据集大小的 10%。异常值被删除后，模型将如何交易？)

变换的情况也一样。

如果按常规进行预处理，结果会变得比原始数据更糟。

或者把指标的随机改进当作系统性改进。

读完教科书和文章后，什么也做不了--这是一个单独的阶段，叫做学习。如果没有系统的统计知识，在 MOE 中什么也做不了。

为了实现目标，总是需要去做。

如果我们设定一个中间目标--预测因子的最大预测能力，那么

1.必须清除异常值。如果大于 0.5%的量值被视为离群值，那么离群值则小于 1%。顺便说一下，这是未来触发止损的百分比。我们自己开发的交易系统有数字限制。

2.预处理是必须的，但也要看是哪种预处理。如果我们谈论的是预测器的预测能力，那么你就不能修正增加预测能力的斜坡。这就是一个例子。一般来说，我们采用某种预处理算法，并评估其对预测能力的影响。这里的答案是

3.始终牢记 MO 的含义，在我看来就是寻找一些模式。最明显的是在 RF 中，例如 5000 条数据中包含了多少种模式？或者，从哪个窗口值开始，增加模式数量不会减少误差？或者对于某个固定窗口，从模式数的哪个值开始误差不再下降？

RF 的答案。

1. 增加 1500 条以上的窗口没有意义。

从图中可以清楚地看出误差与模式数（树）之间的关系：

最少 50 个。一般为 100 到 200。当窗口增加到 5000 时，图表没有变化。

您应该始终明确制定目标和实现目标的标准。其他的都是胡说八道。

Machine learning in trading: 谬误，第 1 部分：资金管理排第二位，并不是很重要反向交易: 减少最大回撤以及在其它市场上测试

Maxim Dmitrievsky 2022.10.15 11:12 #27872

СанСаныч Фоменко #:

读完教科书和文章后，什么也做不了 - 这是一个单独的阶段，叫做学习。没有系统的统计知识，在教育部就无事可做。

为了实现目标，总是需要去做。

如果我们设定一个中间目标--预测因子的最大预测能力，那么：

1.必须清除异常值。如果大于 0.5%的量值被视为异常值，那么异常值则小于 1%。顺便说一下，这是未来触发止损的百分比。我们正在开发交易系统本身，我们有数字限制。

2.预处理是必须的，但也要看是哪种预处理。如果我们谈论的是预测器的预测能力，那么就不能修正斜率，因为这会提高预测能力。这是一个例子。一般来说，我们采用某种预处理算法，并评估其对预测能力的影响。答案就在这里。

3.始终牢记 MO 的含义，在我看来就是搜索一些模式。最明显的是在 RF 中，例如 5000 条数据中包含了多少种模式？或者，从哪个窗口值开始，增加模式数量不会减少误差？或者对于某个固定窗口，从模式数的哪个值开始误差会停止下降？

RF 的答案。

1. 将窗口增加到 1500 条以上没有意义。

从图中可以清楚地看出误差与模式（树）数量之间的关系：

最少 50 个。一般为 100 到 200。当窗口增加到 5000 个时，图形没有变化。

始终有必要明确制定目标和实现目标的标准。其他的都是胡说八道。

我通过隔离林检测到了排放物，将其删除后，训练结果没有变化。我试着对排放物进行训练，结果也没有变化。给我的印象是，模型（catbust）并不关心排放量。好像通过搜索异常现象就能很好地识别它们，但没有必要将其删除。

СанСаныч Фоменко 2022.10.15 11:27 #27873

Maxim Dmitrievsky #:
通过隔离林检测到排放物，将其删除，训练结果没有变化。尝试对排放物进行训练--没有结果。我的印象是，模型（catbust）并不关心排放物。好像通过异常搜索可以很好地识别它们，但没有必要将其删除。

异常值会严重影响预测能力，而预测能力的稳定性又会影响预测误差的稳定性。

而对模型本身来说，这取决于模型，尤其是从样本中获得训练样本。

JeeyCi 2022.10.15 12:43 #27874

Aleksey Nikolayev #:

我想到了局部决策树。它类似于 KNN 或局部回归（也可能适用于非平稳性）。其原理是，我们只将包含感兴趣点的方框（其中至少包含给定数量的 K 个点）分成若干方框，而不关心其他方框。如果类与类之间的边界很清晰，而点又靠近边界，那么它可能比 KNN 或局部回归更好。

我不知道这种方法是否有意义。

在我看来，您似乎在比较无法比较的 东西--缩放就是缩放（只要距离适合您，甚至可以多维缩放），而过滤噪声--您可以用导数（1 次和 2 次）来做。-- 您可以使用导数（一元和二元），也可以完全不加监督地改用向量矩阵，而不是通过标记数据的协方差矩阵来证明类别差异（标记）的重要性，并进一步利用已确认的重要性对您感兴趣的主题进行分类。..

假设，先生们，假设不是一种计算方法，而是一个证明（或反驳）的主题 ....

Aleksey Nikolayev 2022.10.15 14:23 #27875

JeeyCi #:

在我看来，您似乎在比较不可比的 东西--缩放就是缩放（甚至可以是多维缩放，只要距离适合您），而过滤噪声--您可以用导数（1 次和 2 次）来做。-- 您可以使用导数（一元和二元），也可以使用完全无监督的向量矩阵，而不是通过标记数据的协方差矩阵来证明类别差异（已标记）的重要性，并进一步利用已确认的重要性对您感兴趣的主题进行分类。..

假设，先生们，假设不是一种计算方法，而是一个证明（或反驳）的主题 ....

什么都不懂，但非常有趣。

Evgeni Gavrilovi 2022.10.15 21:28 #27876

СанСаныч Фоменко #:

离群值会强烈影响预测能力，而预测能力的稳定性又会影响预测误差的稳定性。

而对于模型本身来说，这取决于模型，尤其是在训练样本是从样本中获取的情况下。

您从随机森林中确定预测能力和特征重要性的方法的 R2 值是多少？

Roman 2022.10.15 21:42 #27877

大家好。
我有一个问题，使用哈希值作为预测因子是否现实？

例如
LlLCmywDpe8dj_j8t8DWwoMjaIhTLnOedRh6KET7R7k

，目标值是
1.04。

通过某种方式将其转换为数字或其他形式有意义吗？

Aleksey Nikolayev 2022.10.16 05:02 #27878

Roman #:

大家好。
一个问题出现了，使用哈希值作为预测因子是否现实？

像这样
LlLCmywDpe8dj_j8t8DWwoMjaIhTLnOedRh6KET7R7k

目标
1.04

以某种方式将其转换为数字或其他形式有意义吗？

因此，它是一个 256 项符号的数字（如果字符串是 ANSI 编码的）。由于哈希值的长度是固定的，你仍然可以用 0 到 255 之间的数字向量来表示它们。

你想破解比特币吗？）

Roman 2022.10.16 05:30 #27879

Aleksey Nikolayev #:

因此，它是 256 项记录中的一个数字（如果字符串是 ANSI 编码的）。由于哈希值有固定长度，因此也可以用 0 到 255 之间的数字向量来表示。

你想破解比特币吗？）

天哪，字符串类型让你忘了 ANSI 编码。
不，不是比特币，是在线抽奖 :))))

СанСаныч Фоменко 2022.10.16 07:29 #27880

Evgeni Gavrilovi #:

您确定预测能力和随机森林特征重要性的方法之间的 R2 值是多少？

已经解释过很多次了。

交易中的机器学习：理论、模型、实践和算法交易 - 页 2788