交易中的机器学习:理论、模型、实践和算法交易 - 页 1783

 
马克西姆-德米特里耶夫斯基

目前的状态是什么? 如果是关于集群的,你只需要对新的数据进行扫荡统计。如果它们是相同的,你可以建立TC。

栏上的参数。增量、速度、历史平均数。我不明白为什么每个人都认为参数在最后一整条上,但这基本上是不正确的。平均数晚了一半或比平均数范围小一点,而且增量也不够大。而且没有人把这个系列的参数作为一个整体来计算。平坦和趋势这两个梯度根本不好玩。
 
马克西姆-德米特里耶夫斯基

如果集群是相同的,那么你就可以建立TC。如果它们是相同的,我们可以建立TC。

需要清楚地了解集群和统计的主题领域。如果从70年到20年的所有仪器上都相同,那么就有可能))

 
mytarmailS:

斤斤计较是没有用的,问题是数据的大小,我甚至无法创建特征,你甚至无法进行训练......

做一个5万的样本,让它小,让它不严重,让它更有可能过度训练,......., ...目的是创造一个用于生产的机器人,但只是利用共同努力来减少错误,然后获得的知识可以应用于任何工具和市场,50K将是相当足够的,可以看到什么标志意味着什么。

好的,我将做一个小样本。

mytarmailS:

如果你不知道OHLK,你就不用写了,为什么要把整个OHLK置换掉呢? 没有人这样做,你只需要把ZZ置换掉一步,就像把未来看成1步的学习,就这样。你至少读过Vladimir Perervenko关于deerelearning的一篇文章吗? 请读一读。 当对数据的最佳操作已经定型,每个人都已经习惯了,而有人试图以不同的方式做同样的事情,这是非常不舒服的,这有点毫无意义,令人讨厌,并导致人们在尝试使用这种作者的数据时出现许多错误。

我读过他的文章,但我不懂R代码,所以我不能真正理解那里的一切。

所以我想问你,既然你了解这个问题。分类发生在零条上,当时只有开盘价 是已知的,据我所知,你不使用零条上的开盘价,而只使用第一条及以后的信息?事实上,目标决定了零条上的ZZ矢量?我知道下一个柱状体的矢量被预测了--这不是必须的,是吗?否则我又要做大量的返工--这很累人。

我只是有一个拿数据和应用模型的现成方案,而不是一个计算模型。

mytarmailS:

如果在这一切之后,你仍然想做一些事情,我有以下要求

1)数据50-60k不等,最好是一个文件,只要同意最后一个蜡烛的n就可以了。

2)数据,最好没有胶水,这样不仅可以考虑最新的价格,还可以考虑支持和阻力,这在胶水中是不可能的。

3)目标应该已经包含在数据中了

4)数据格式为日期、时间、o、h、l、c、目标。


或者我应该做一个数据集?

你可以向那些做出承诺的人要求--即不是向我要求:)我们做个交易吧。

1.让我们做50个用于训练,另外50个用于测试(训练之外的抽样)。

2.好的。

3.好的。

4.确定。

补充:意识到Si-3.20期货没有足够的正常棒(22793),你不想要胶水。


添加了一个sber的样本--我得到了67分的准确度。

附加的文件:
Setup.zip  891 kb
 
阿列克谢-维亚兹米 金。

所以我想问你,既然你已经想通了这一点。分类发生在零条上,当时 知道开盘价,据我所知,你不使用零条上的开盘价,而只使用第一条及以后的信息?事实上,目标决定了零条上的ZZ矢量?我知道下一个柱状体的矢量被预测了--这不是必须的,是吗?否则我又得做一堆返工--令人厌烦。

分类是在已知条款(即一个成熟的OHLS蜡烛) 的最后一栏进行的,我们预测未来蜡烛的ZZ标志。为什么要考虑到我无法理解的唯一已知选项的蜡烛,除了复杂之外还有什么优势?


阿列克谢-维亚兹米 金。

你可以向那些已经做出承诺的人要求--也就是不向我要求 :)让我们达成一个协议。

我不要求你个人做任何事情)。对样本的要求,样本必须对所有的人都是一样的,这样才有可能进行比较,对吗? 我想这是很明显的。


并感谢您的收听 )

1)数据50-60k,不多,最好是一个文件.........

让我们有50个用于培训,另外50个用于测试(培训之外的样本)。

我想5-6万也许是出于好奇,为什么不翻倍?)))

)))

1)数据50-60k,不多,最好是一个文件,同意即可

谢谢你填写了一个文件而不是两个文件!))
 

先试了一下,可以说是开箱即用,...

只有最后的n个值参与预测,像你一样,因为误差是一样的。

我有217个指标,我肯定有一些冗余的指标,但我懒得去清理。

我使用OHLC_Train.csv 文件训练和验证了总共54147个数据。


在前10万个观测值上测试模型(确切地说,是8万个,前2万个没有考虑,因为指标是根据它们计算的)。

在剩下的44k数据上测试了模型,所以我认为没有重新训练。 5.5次训练44/8=5.5


在我试过的模型中,助推和福瑞特,助推没有留下印象,我已经停止了福瑞特。

在训练中设置了一个强大的不平衡班,但我太懒了,不愿意去做萨满。

table(d$Target[tr])

   0    1 
3335 4666 

关于当前特征的最终模型--200棵树的森林

在托盘上...

 Type of random forest: classification
                     Number of trees: 200
No. of variables tried at each split: 14

        OOB estimate of  error rate: 14.75%
Confusion matrix:
     0    1 class.error
0 2557  778  0.23328336
1  402 4264  0.08615517

在测试中

Confusion Matrix and Statistics

          Reference
Prediction     0     1
         0 12449  5303
         1  9260 17135
                                          
               Accuracy : 0.6701          
                 95% CI : (0.6657, 0.6745)
    No Information Rate : 0.5083          
    P-Value [Acc > NIR] : < 2.2e-16       
                                          
                  Kappa : 0.3381          
                                          
 Mcnemar's Test P-Value : < 2.2e-16       
                                          
            Sensitivity : 0.5734          
            Specificity : 0.7637          
         Pos Pred Value : 0.7013          
         Neg Pred Value : 0.6492          
             Prevalence : 0.4917          
         Detection Rate : 0.2820          
   Detection Prevalence : 0.4021          
      Balanced Accuracy : 0.6686          
                                          
       'Positive' Class : 0  

正如你所看到的,结果与你相同,而且不需要数以百万计的数据,如果有的话,5万个数据就足以找到一个模式。

所以我们得到了同样的结果,这是我们的起点,现在这个错误必须得到改善

 

))Hohma ))

删除了所有所谓的技术分析指标

86个 指标,而不是上面例子中的217个

而且模型的质量也只有所提高 )


Confusion Matrix and Statistics

          Reference
Prediction     0     1
         0 12769  5597
         1  8940 16841
                                          
               Accuracy : 0.6707          
                 95% CI : (0.6663, 0.6751)
    No Information Rate : 0.5083          
    P-Value [Acc > NIR] : < 2.2e-16       
                                          
                  Kappa : 0.3396          
                                          
 Mcnemar's Test P-Value : < 2.2e-16       
                                          
            Sensitivity : 0.5882          
            Specificity : 0.7506          
         Pos Pred Value : 0.6953          
         Neg Pred Value : 0.6532          
             Prevalence : 0.4917          
         Detection Rate : 0.2892          
   Detection Prevalence : 0.4160          
      Balanced Accuracy : 0.6694          
                                          
       'Positive' Class : 0 
 
mytarmailS:

分类发生在最后一栏的已知条款(那些成熟的OHLS蜡烛),预测标志ZZ未来的蜡烛。为什么要考虑到我无法理解的唯一已知选项的蜡烛,除了复杂之外还有什么好处?

你不能理解,因为你在R中的数据,终端不知道OHLC何时在当前条上形成,所以你只能在第一个条的零条上得到OHLC。那么在零条上打开的是新的时间数据--特别是与大型TFs有关,因为我的样本中有一类相同的预测因子,但应用在不同的TFs上。


mytarmailS:


1)数据50-60k,不多,最好是一个文件.........

让我们给50人做培训,另外50人做测试(培训之外的样本)。

我可能刚刚命名了5-6万,为什么不翻倍呢?)))

)))

1)数据50-60k不多,一个文件比较好,同意即可

谢谢你填写了一个文件而不是两个文件!))
mytarmailS:

在文件OHLC_Train.csv 上进行了训练和验证,共有54147个。

在前10k个观测值上测试了模型(确切地说,是8k个,前2k个没有被考虑,因为它们被用来计算指标)。

在剩下的44K数据上测试了模型,所以我认为没有重新训练。测试是训练的5.5倍,44/8=5.5。

正如你所看到的,结果与你的相同,我不需要数以百万计的数据,如果有的话,5万个数据就足以找到模式。

所以我们得到了同样的结果,这是我们的起点,现在这个错误需要改进

我把样本分成了两个文件,第一个文件用于任何淫秽的训练尝试,第二个文件用于检查训练结果。

你难道没有办法保存模型并在新的数据上测试它吗?如果是这样,请检查一下,我给出了OHLC_Exam.csv样本的结果。

你能以同样的方式发回这两个文件,但要加上你的预测器和分类结果的那一栏吗?


关于过度训练或缺乏训练的问题。

在我看来,这显然是一种过度训练。

 
阿列克谢-维亚兹米

是的...在新的数据上,一切都更加悲伤(()。

Confusion Matrix and Statistics

          Reference
Prediction    0    1
         0 9215 5517
         1 3654 7787
                                          
               Accuracy : 0.6496          
                 95% CI : (0.6438, 0.6554)
    No Information Rate : 0.5083          
    P-Value [Acc > NIR] : < 2.2e-16       
                                          
                  Kappa : 0.3007          
                                          
 Mcnemar's Test P-Value : < 2.2e-16       
                                          
            Sensitivity : 0.7161          
            Specificity : 0.5853          
         Pos Pred Value : 0.6255          
         Neg Pred Value : 0.6806          
             Prevalence : 0.4917          
         Detection Rate : 0.3521          
   Detection Prevalence : 0.5629          
      Balanced Accuracy : 0.6507          
                                          
       'Positive' Class : 0


这里是文件,不要 使用托盘中的前2k个字符串。

在测试的前100行

UPD====

文件不合适,请在你的收件箱中给我发一封邮件

 
mytarmailS:

是的...在新的数据上,一切都更加悲哀(())。


以下是文件,请不要 使用前2千行的线索

在测试中,前100行。

应用程序中没有任何文件。

我改变了训练和验证的抽样分类,对于验证,我每5行抽一次,得到了一个有趣的图表

在样本OHLC_Exam.csv上 准确率0.63


通过X,每棵新的树都会减少结果,表明由于样本中的例子不足而导致过度训练。

用zip压缩文件。
 
阿列克谢-维亚兹米 金。

应用程序中没有任何文件。

我改变了训练和验证的抽样分类,对于验证,我每5行抽一次,得到了一个有趣的图表。

在样本OHLC_Exam.csv上 准确率0.63


通过X,每棵新的树都会减少结果,表明由于样本中的例子不足而导致过度训练。

用zip压缩文件。

是的,是的,我们的模型被过度训练了...

这里有一个下载文件的链接,即使是压缩文件也不适合放在论坛上。

https://dropmefiles.com.ua/56CDZB


试试我的标志上的模型,我想知道准确度会是多少