交易中的机器学习:理论、模型、实践和算法交易 - 页 43

 
组合器
如果你走桑尼奇的路,你就会明显降低达到梦寐以求的1%的概率,这种观点如何?

每个指标都带有一些额外的信息,而且都是有用的,而不仅仅是一个百分比。对于RSI来说,不存在 "在>0.99时买入,在<0.01时卖出 "的策略,这是一个不幸的例子。

比如,你可以采用一个指标,在此基础上制作一个专家顾问,并优化其参数以获得更好的效果。但这样的EA在未来总是会失败。为了使EA不失败,我们需要几十个指标(也许更少,但对我来说不是那么容易),其中指标值将被一个复杂的逻辑测试,有不同的条件。例如,如果MA(20)>MA(16),那么如果RSI>0.3就买入。而如果MA(20)<MA(16),那么不要看RSI,而是看随机指数。逻辑应该是这样的,但是更加复杂和华丽。随机森林模型可以建立这样的逻辑,这是很好的。

所有的指标值对构建模型都很重要。该模型将自行确定这些数值的阈值,以便作出买入/卖出的决定,并根据其他指标的数值确定其满足的条件。

 
Dr.Trader:

每个指标都带有一些额外的信息,而且所有的信息都是有用的,而不仅仅是百分之一。

你熟悉奥卡姆剃刀原则吗?

 

如果一个指标有一定的取值范围,那么在这个范围内的任何数值都说明了一些问题,带有自己的额外意义。我不建议简单地从指标的上限和下限中抽取1%并决定只在其中进行交易。当然,你可以试试,但结果是无利可图的,你需要大量的其他指标来为策略增加很多条件。也就是说,你既可以在RSI值的整个范围内与其他一堆指标进行交易。或者你可以只在RSI值的某个范围内交易,再加上一堆指标。我不明白第二种方式会给我带来什么好处。

但是,当最初有几十个指标,而且都有一百个滞后期或参数的变体时,那么其中一些指标就需要被淘汰,这里奥卡姆剃刀的作用就充分体现出来。由于这个原因,在近9000个预测因子中,我只有一百个(十几个具有不同滞后期的指标(转移)。而剩下的这些预测器至少有60%的准确率。

 
Dr.Trader:

你拥有的噪声预测器越多,其中就越有可能出现类似的有用数据。

重新学习先验知识,桑尼奇如此吹嘘自己缺乏这种知识

 
Combinator:

你拥有的噪音预测器越多,其中就越有可能出现类似的有用数据。

过度学习的先验性,桑尼奇大肆吹嘘的不存在的问题

我对噪声的预测相当不准确。

我在这里吹嘘,我有一种算法,可以筛选出噪声预测器。但这并不完全准确,在我看来,没有100%的噪音 和100%的非噪音 预测器。我所见过的所有预测器(几百个,来自不同人的10多套)都是部分有噪声或部分无噪声的。总是这样。我没有看到任何其他的。下面我将用数字来解释。

现在,我们在为什么而战?

根据我的算法,如果我们采取纯粹的噪声预测器,我们得到正确类别预测的概率约为50%--掷硬币。而问题是,当你在纯粹的噪声预测器上进行训练时,你几乎总是得到非常好的结果,如果你采取样本外的时间,你会得到那50%的结果。

我让每个预测器都有一个抽象的 "噪音 "值。如果它是一个介于0和1之间的值,那么它就很嘈杂,完全没有希望。如果是1到2,你可以,但最好不要用它。你应该采用我的措施,超过3。6级以上的我从未见过。

因此,让我们假设选择具有我的 "噪音超过3 "的衡量标准的预测者。如果你建立一个模型,对于不同的预测因素集,我得到的误差是25%到35%。在所有类型的抽样中(训练-测试-验证--都是随机混合的,抽样外--严格按照条形图到达的顺序)大致相等,例如32-30-33-35%。在同一组特定的预测器上,不可能将误差提高,例如一半。也就是说,模型误差的大小是由一组特定的预测因子决定的。如果你不喜欢误差的大小,你需要一些其他的预测器组,这可能会给出不同的误差。

我得到的误差当然很大,对我来说,重要的是样本外的误差在训练和测试中大致相等。但我得出了对我来说最重要的结论:给定的预测器集不会产生模型的过度训练--在未来我将有大致相同的预测误差。 这已经在随机脚手架、ada、SVM的不同变化上进行了测试。没有尝试过其他模式。

 
Combinator:

你的噪音预测器越多,其中就越有可能出现类似的有用数据。

过度学习的先验性,桑尼奇如此吹嘘的缺乏这种学习。

安德烈。这一点已被明确接受。所有的结论都是在验证的基础上得出的。一个纯粹的噪音预测器产生成千上万个猜测和独立的观察结果的机会是非常小的,可以忽略不计。这些结论也被我的正确统计测试所验证。

从噪声中选择预测器 的工作。
 
弗拉基米尔-佩雷文科2rminer中有一个lforecast函数--通过迭代使用1-ahead预测作为输入,执行多步骤预测说到多步骤预测,你当然是指回归了?

我不知道))。我需要一个工具,使用带有预测因子的矩阵进行多重预测。 我不关心它将以何种方式进行预测,回归只将时间序列 作为输入,这并不适合我,我需要一个带有预测因子的矩阵...

我看了一下函数 "iforecast",它需要一个回归的时间序列作为输入,这是不一样的,还是我理解错了什么?

 
Dr.Trader:

每个指标都有一些额外的信息,而且都是有用的,不只是一个百分点。对于RSI来说,不存在 "在>0.99时买入,在<0.01时卖出 "的策略,这是一个不幸的例子。

你一定是在跟我开玩笑。我写道,我夸大其词(我把事情简化到极限),我写了两次:)或者说,如果我给出一个真实的例子,其中有135条系统规则,会不会更好?尽管对于我想解释的事情来说,一条规则是绰绰有余的。
 

继续选择主题

我有一个问题:我们有一个预测器(许多预测器中的一个),有一些值的范围,让它们成为10个。

将预测器分成这些范围X1,X2....X10

让我们通过一些手段来计算每个范围在预测器中的重要性,它现在并不重要。

我们将得到一个重要性表(让我提醒你,它是一个被分成子预测器的预测器)

Х1 = 0,5%

Х2 = 0,01%

Х3 = 0,003%

Х4 = 0,0033%

Х5 = 0,0013%

Х6 = 0,0039%

Х7 = 0,0030%

Х8 = - 0,0000%

Х9 = - 0,0001%

Х10 = - 0,00002%

我们看到,只有一个区间 "X1 "真正具有强大的影响力,其他区间的影响力要么是负面的,要么是离负面只有半步之遥,而且非常令人怀疑的是,在新的数据中,这些区间X2....X7会表现得更好......。

问题:

是保留整个正数范围X1...X7好呢,还是只保留没有疑问的范围,即只保留X1好呢?

再次,这只是一个预测器的选择,如果我们净化了200个预测器?在哪些数据上,算法会更好地识别新数据或不识别?

谁在考虑这个问题?

 
mytarmailS:

继续选择主题

我有一个问题:我们有一个预测器(许多预测器中的一个),有一些值的范围,让它们成为10个。

将预测器分成这些范围X1,X2....X10

让我们通过一些手段来计算每个范围在预测器中的重要性,它现在并不重要。

我们将得到一个重要性表(让我提醒你,它是一个被分成子预测器的预测器)

Х1 = 0,5%

Х2 = 0,01%

Х3 = 0,003%

Х4 = 0,0033%

Х5 = 0,0013%

Х6 = 0,0039%

Х7 = 0,0030%

Х8 = - 0,0000%

Х9 = - 0,0001%

Х10 = - 0,00002%

我们看到,只有一个区间 "X1 "真正具有强大的影响力,其他区间的影响力要么是负面的,要么是离负面只有半步之遥,而且非常令人怀疑的是,在新的数据中,这些区间X2....X7会表现得更好......。

问题:

是保留整个正数范围X1...X7好呢,还是只保留没有疑问的范围,即只保留X1好呢?

再次,这只是一个预测器的选择,如果我们净化了200个预测器?在哪些数据上,算法会更好地识别新数据或不识别?

谁在考虑这个问题?

A 你可以试试。有时去除分布的尾部,有时也会有帮助。