交易中的机器学习:理论、模型、实践和算法交易 - 页 86

 
Mihail Marchukajtes:

好吧,让我们说他把它混合并减半,那么在训练和测试样本中,两类的数量将是相同的,不是吗?

如果样本中两类的例子数量不一样,那么它们在测试部分就不会一样。只有不太有代表性的类别的例子将被减半:其中一半将在训练部分,另一半在测试部分。在教学部分,最有代表性的一类的例子和最没有代表性的一类的例子将完全一样多。其余最具代表性的班级,如果不属于培训部分,将被纳入测试部分。

问题是,在早期的版本中,根本就没有平衡。样品由MSRP混合,琐碎地分成两部分:一半样品用于训练,另一半用于测试部分。然后我遇到了一个样本,其中两个阶层的例子都非常不平衡。非常明显的是,最具代表性的班级在概括性上有很好的结果,而低代表性的班级则低于基数。我不得不在分离器算法中加入平衡,以摆脱这种离群值。

 
不...它是OK的....虚惊一场 :-)
 
桑桑尼茨-弗门科
模型被重新训练,因为预测器列表中的噪声预测器没有被清理。这是一个训练的例子,是故意这样做的。这就是为什么我如此自信地说道。

我已经考虑过这个问题。
森林能记住数据,这是一个事实,有了更多的树木,它就会有更多的 "记忆容量 "来记住。但是,如果即使有足够多的树,它仍然不能达到100%的准确性,那么这意味着训练数据中存在不一致的例子。有一些训练实例集,其中的预测值完全相同,但有不同的类别。这样的数据永远不可能被100%预测,即使有训练数据。所以,模型甚至不能完全学习,它只是缺乏数据,因此重新训练的机会较少。
训练实例中的不一致甚至不是由错误造成的,而是由于删除了一个可以实现100%准确性的预测器。但如果没有它,对新数据的预测会更好。
非常有趣的规则,我们可以用它来做一些简单的预测器集的预估方法,在模型的训练和交叉验证之前舍弃一些集。

 

你好!

1)有人尝试过上述任何一种方法吗?有什么结果吗?

2)有人尝试过直接在R中测试策略吗? 我需要在R-ka中模拟交易,相当原始,但有止损和其他小东西,有什么工具可以让它尽可能简单和快速?

 
尤里-雷舍托夫

我在哪里可以得到作为历史数据的真实数量?MetaTrader只提供一个滴答表,这被称为 "卷"。此外,在不同的厨房里,这些计数器的值可以有数量级的差异。

...

勾兑量 不仅在不同的厨房里不同,甚至在一个厨房里也不同。有时你可以看到一个步骤,这里是一个密集的流动,然后咣当一声变成了稀疏的流动。

这是由于迪林内部的柚木过滤器发生了变化。

有趣的问题是:实际成交量和tick成交量之间有关联,而tick成交量和条形大小之间也有关联。

 
尼古拉-德姆科

这是否意味着实际成交量与酒吧大小之间存在着关联性?

当然
 
mytarmailS:
当然
量和条之间的搭配是什么。成交量可以很高,而蜡烛的主体却不见了,所以在oborod上也是如此。成交量很小,蜡烛上升....。这一切都取决于当时的市场条件....。
 
Mihail Marchukajtes:
成交量和条形图之间的关联性 是什么意思。成交量可以很高,而烛台体却没有,条形图 也是如此。成交量很小,蜡烛图已经增长....。这一切都取决于当时的市场条件....。

:)

我以为我们谈论的是高流动性的市场,也就是期货和货币市场,我不认为有人在交易刑罚。

http://prntscr.com/c10p51

图中显示了100个滑动窗口中的相关性,波动率与成交量的关系,我记得,一个高于0.6的值被认为是一个重要的正相关关系。

Скриншот
Скриншот
  • prnt.sc
Снято с помощью Lightshot
 
mytarmailS:

也许有人会感兴趣,我发现了一个可以模拟交易和建立交易系统的软件包,叫做quantstrat

http://www.rinfinance.com/agenda/2013/workshop/Humme+Peterson.pdf

我再贴出来,也许它只是溜走了。

和另一个有用的链接http://www.r-programming.org/papers

如果没有,为什么? 我很好奇人们是如何以及在哪里测试他们的模型的

 
mytarmailS:

我将重新张贴,也许它只是飞过了。

和另一个有用的链接http://www.r-programming.org/papers

如果没有,为什么? 我很好奇人们是如何以及在哪里测试他们的模型的

所有软件包(模型)可分为两类。

  • 原则上是好的
  • 不太好意思

那些 "基本良好 "的软件包的性能大致相同,差异不大。

问题不是出在模型上,而是出在预测器的集合和它们的预处理上。如果我们采取一些预测器的集合,建立一个不过度训练的模型的可能性,以及误差的大小对模型的变化没有什么影响。因此,人们应该从那些 "原则上适合 "的模型中选择最简单、最快的模型。

PS。

从我自己的经验来看。在我看来,在构建TS的过程中,超过75%的劳动投入是对预测器的选择,如果能够为一个特定的目标变量找到这样一套预测器的话。