交易中的机器学习:理论、模型、实践和算法交易 - 页 2788

 
Maxim Dmitrievsky #:
你会发现很多不一致的地方,包括异常值的去除。根据不同的计算方法,异常值通常占数据集大小的 10%。异常值被删除后,模型将如何交易?)
变换的情况也一样。
如果按常规进行预处理,结果会变得比原始数据更糟。
或者把指标的随机改进当作系统性改进。

读完教科书和文章后,什么也做不了--这是一个单独的阶段,叫做学习。如果没有系统的统计知识,在 MOE 中什么也做不了。

为了实现目标,总是需要去做。

如果我们设定一个中间目标--预测因子的最大预测能力,那么

1.必须清除异常值。如果大于 0.5%的量值被视为离群值,那么离群值则小于 1%。顺便说一下,这是未来触发止损的百分比。我们自己开发的交易系统有数字限制。

2.预处理是必须的,但也要看是哪种预处理。如果我们谈论的是预测器的预测能力,那么你就不能修正增加预测能力的斜坡。这就是一个例子。一般来说,我们采用某种预处理算法,并评估其对预测能力的影响。这里的答案是

3.始终牢记 MO 的含义,在我看来就是寻找一些模式。最明显的是在 RF 中,例如 5000 条数据中包含了多少种模式?或者,从哪个窗口值开始,增加模式数量不会减少误差?或者对于某个固定窗口,从模式数的哪个值开始误差不再下降?

RF 的答案。

1. 增加 1500 条以上的窗口没有意义。

从图中可以清楚地看出误差与模式数(树)之间的关系:

最少 50 个。一般为 100 到 200。当窗口增加到 5000 时,图表没有变化。

您应该始终明确制定目标和实现目标的标准。其他的都是胡说八道。

 
СанСаныч Фоменко #:

读完教科书和文章后,什么也做不了 - 这是一个单独的阶段,叫做学习。没有系统的统计知识,在教育部就无事可做。

为了实现目标,总是需要去做。

如果我们设定一个中间目标--预测因子的最大预测能力,那么:

1.必须清除异常值。如果大于 0.5%的量值被视为异常值,那么异常值则小于 1%。顺便说一下,这是未来触发止损的百分比。我们正在开发交易系统本身,我们有数字限制。

2.预处理是必须的,但也要看是哪种预处理。如果我们谈论的是预测器的预测能力,那么就不能修正斜率,因为这会提高预测能力。这是一个例子。一般来说,我们采用某种预处理算法,并评估其对预测能力的影响。答案就在这里。

3.始终牢记 MO 的含义,在我看来就是搜索一些模式。最明显的是在 RF 中,例如 5000 条数据中包含了多少种模式?或者,从哪个窗口值开始,增加模式数量不会减少误差?或者对于某个固定窗口,从模式数的哪个值开始误差会停止下降?

RF 的答案。

1. 将窗口增加到 1500 条以上没有意义。

从图中可以清楚地看出误差与模式(树)数量之间的关系:

最少 50 个。一般为 100 到 200。当窗口增加到 5000 个时,图形没有变化。

始终有必要明确制定目标和实现目标的标准。其他的都是胡说八道。

我通过隔离林检测到了排放物,将其删除后,训练结果没有变化。我试着对排放物进行训练,结果也没有变化。给我的印象是,模型(catbust)并不关心排放量。好像通过搜索异常现象就能很好地识别它们,但没有必要将其删除。
 
Maxim Dmitrievsky #:
通过隔离林检测到排放物,将其删除,训练结果没有变化。尝试对排放物进行训练--没有结果。我的印象是,模型(catbust)并不关心排放物。好像通过异常搜索可以很好地识别它们,但没有必要将其删除。

异常值会严重影响预测能力,而预测能力的稳定性又会影响预测误差的稳定性。

而对模型本身来说,这取决于模型,尤其是从样本中获得训练样本。

 
Aleksey Nikolayev #:

我想到了局部决策树。它类似于 KNN 或局部回归(也可能适用于非平稳性)。其原理是,我们只将包含感兴趣点的方框(其中至少包含给定数量的 K 个点)分成若干方框,而不关心其他方框。如果类与类之间的边界很清晰,而点又靠近边界,那么它可能比 KNN 或局部回归更好。

我不知道这种方法是否有意义。

在我看来,您似乎在比较无法比较的 东西--缩放就是缩放(只要距离适合 您,甚至可以多维缩放),而过滤噪声--您可以用导数(1 次和 2 次)来做。-- 您可以使用导数(一元和二元),也可以完全不加监督地改用向量矩阵,而不是通过标记数据的协方差矩阵来证明类别差异(标记)的重要性,并进一步利用已确认的重要性对您感兴趣的主题进行分类。..

假设,先生们,假设不是一种计算方法,而是一个证明(或反驳)的主题 ....

 
JeeyCi #:

在我看来,您似乎在比较不可比的 东西--缩放就是缩放(甚至可以是多维缩放,只要距离适合 您),而过滤噪声--您可以用导数(1 次和 2 次)来做。-- 您可以使用导数(一元和二元),也可以使用完全无监督的向量矩阵,而不是通过标记数据的协方差矩阵来证明类别差异(已标记)的重要性,并进一步利用已确认的重要性对您感兴趣的主题进行分类。..

假设,先生们,假设不是一种计算方法,而是一个证明(或反驳)的主题 ....

什么都不懂,但非常有趣。

 
СанСаныч Фоменко #:

离群值会强烈影响预测能力,而预测能力的稳定性又会影响预测误差的稳定性。

而对于模型本身来说,这取决于模型,尤其是在训练样本是从样本中获取的情况下。

您从随机森林中确定预测能力和特征重要性的方法的 R2 值是多少?

 

大家好。
我有一个问题,使用哈希值作为预测因子是否现实?

例如
LlLCmywDpe8dj_j8t8DWwoMjaIhTLnOedRh6KET7R7k

,目标值是
1.04。

通过某种方式将其转换为数字或其他形式有意义吗?

 
Roman #:

大家好。
一个问题出现了,使用哈希值作为预测因子是否现实?

像这样
LlLCmywDpe8dj_j8t8DWwoMjaIhTLnOedRh6KET7R7k

目标
1.04

以某种方式将其转换为数字或其他形式有意义吗?

因此,它是一个 256 项符号的数字(如果字符串是 ANSI 编码的)。由于哈希值的长度是固定的,你仍然可以用 0 到 255 之间的数字向量来表示它们。

你想破解比特币吗?)

 
Aleksey Nikolayev #:

因此,它是 256 项记录中的一个数字(如果字符串是 ANSI 编码的)。由于哈希值有固定长度,因此也可以用 0 到 255 之间的数字向量来表示。

你想破解比特币吗?)

天哪,字符串类型让你忘了 ANSI 编码。
不,不是比特币,是在线抽奖 :))))


 
Evgeni Gavrilovi #:

您确定预测能力和随机森林特征重要性的方法之间的 R2 值是多少?

已经解释过很多次了。