交易中的机器学习：理论、模型、实践和算法交易

Valeriy Yastremskiy 2020.05.14 21:48 #17821

马克西姆-德米特里耶夫斯基。

目前的状态是什么？如果是关于集群的，你只需要对新的数据进行扫荡统计。如果它们是相同的，你可以建立TC。

栏上的参数。增量、速度、历史平均数。我不明白为什么每个人都认为参数在最后一整条上，但这基本上是不正确的。平均数晚了一半或比平均数范围小一点，而且增量也不够大。而且没有人把这个系列的参数作为一个整体来计算。平坦和趋势这两个梯度根本不好玩。

Valeriy Yastremskiy 2020.05.15 09:18 #17822

马克西姆-德米特里耶夫斯基。

如果集群是相同的，那么你就可以建立TC。如果它们是相同的，我们可以建立TC。

需要清楚地了解集群和统计的主题领域。如果从70年到20年的所有仪器上都相同，那么就有可能))

Aleksey Vyazmikin 2020.05.16 17:51 #17823

mytarmailS:

斤斤计较是没有用的，问题是数据的大小，我甚至无法创建特征，你甚至无法进行训练......

做一个5万的样本，让它小，让它不严重，让它更有可能过度训练，......., ...目的是创造一个用于生产的机器人，但只是利用共同努力来减少错误，然后获得的知识可以应用于任何工具和市场，50K将是相当足够的，可以看到什么标志意味着什么。

好的，我将做一个小样本。

mytarmailS:

如果你不知道OHLK，你就不用写了，为什么要把整个OHLK置换掉呢？没有人这样做，你只需要把ZZ置换掉一步，就像把未来看成1步的学习，就这样。你至少读过Vladimir Perervenko关于deerelearning的一篇文章吗？请读一读。当对数据的最佳操作已经定型，每个人都已经习惯了，而有人试图以不同的方式做同样的事情，这是非常不舒服的，这有点毫无意义，令人讨厌，并导致人们在尝试使用这种作者的数据时出现许多错误。

我读过他的文章，但我不懂R代码，所以我不能真正理解那里的一切。

所以我想问你，既然你了解这个问题。分类发生在零条上，当时只有开盘价是已知的，据我所知，你不使用零条上的开盘价，而只使用第一条及以后的信息？事实上，目标决定了零条上的ZZ矢量？我知道下一个柱状体的矢量被预测了--这不是必须的，是吗？否则我又要做大量的返工--这很累人。

我只是有一个拿数据和应用模型的现成方案，而不是一个计算模型。

mytarmailS:

如果在这一切之后，你仍然想做一些事情，我有以下要求

1）数据50-60k不等，最好是一个文件，只要同意最后一个蜡烛的n就可以了。

2）数据，最好没有胶水，这样不仅可以考虑最新的价格，还可以考虑支持和阻力，这在胶水中是不可能的。

3）目标应该已经包含在数据中了

4）数据格式为日期、时间、o、h、l、c、目标。

或者我应该做一个数据集？

你可以向那些做出承诺的人要求--即不是向我要求:)我们做个交易吧。

1.让我们做50个用于训练，另外50个用于测试（训练之外的抽样）。

2.好的。

3.好的。

4.确定。

补充：意识到Si-3.20期货没有足够的正常棒(22793)，你不想要胶水。

添加了一个sber的样本--我得到了67分的准确度。

附加的文件：

Setup.zip 891 kb

mytarmailS 2020.05.17 06:56 #17824

阿列克谢-维亚兹米 金。

所以我想问你，既然你已经想通了这一点。分类发生在零条上，当时只知道开盘价，据我所知，你不使用零条上的开盘价，而只使用第一条及以后的信息？事实上，目标决定了零条上的ZZ矢量？我知道下一个柱状体的矢量被预测了--这不是必须的，是吗？否则我又得做一堆返工--令人厌烦。

分类是在已知条款（即一个成熟的OHLS蜡烛）的最后一栏进行的，我们预测未来蜡烛的ZZ标志。为什么要考虑到我无法理解的唯一已知选项的蜡烛，除了复杂之外还有什么优势？

阿列克谢-维亚兹米 金。

你可以向那些已经做出承诺的人要求--也就是不向我要求 :)让我们达成一个协议。

我不要求你个人做任何事情）。对样本的要求，样本必须对所有的人都是一样的，这样才有可能进行比较，对吗？我想这是很明显的。

并感谢您的收听 )

1）数据50-60k，不多，最好是一个文件.........

让我们有50个用于培训，另外50个用于测试（培训之外的样本）。

我想5-6万也许是出于好奇，为什么不翻倍？)))

)))

1）数据50-60k，不多，最好是一个文件，同意即可

谢谢你填写了一个文件而不是两个文件!))

mytarmailS 2020.05.17 11:30 #17825

先试了一下，可以说是开箱即用，...

只有最后的n个值参与预测，像你一样，因为误差是一样的。

我有217个指标，我肯定有一些冗余的指标，但我懒得去清理。

我使用OHLC_Train.csv 文件训练和验证了总共54147个数据。

在前10万个观测值上测试模型（确切地说，是8万个，前2万个没有考虑，因为指标是根据它们计算的）。

在剩下的44k数据上测试了模型，所以我认为没有重新训练。 5.5次训练44/8=5.5

在我试过的模型中，助推和福瑞特，助推没有留下印象，我已经停止了福瑞特。

在训练中设置了一个强大的不平衡班，但我太懒了，不愿意去做萨满。

table(d$Target[tr])

   0    1 
3335 4666

关于当前特征的最终模型--200棵树的森林

在托盘上...

 Type of random forest: classification
                     Number of trees: 200
No. of variables tried at each split: 14

        OOB estimate of  error rate: 14.75%
Confusion matrix:
     0    1 class.error
0 2557  778  0.23328336
1  402 4264  0.08615517

在测试中

Confusion Matrix and Statistics

          Reference
Prediction     0     1
         0 12449  5303
         1  9260 17135
                                          
               Accuracy : 0.6701          
                 95% CI : (0.6657, 0.6745)
    No Information Rate : 0.5083          
    P-Value [Acc > NIR] : < 2.2e-16       
                                          
                  Kappa : 0.3381          
                                          
 Mcnemar's Test P-Value : < 2.2e-16       
                                          
            Sensitivity : 0.5734          
            Specificity : 0.7637          
         Pos Pred Value : 0.7013          
         Neg Pred Value : 0.6492          
             Prevalence : 0.4917          
         Detection Rate : 0.2820          
   Detection Prevalence : 0.4021          
      Balanced Accuracy : 0.6686          
                                          
       'Positive' Class : 0

正如你所看到的，结果与你相同，而且不需要数以百万计的数据，如果有的话，5万个数据就足以找到一个模式。

所以我们得到了同样的结果，这是我们的起点，现在这个错误必须得到改善

mytarmailS 2020.05.17 11:47 #17826

))Hohma ))

删除了所有所谓的技术分析指标

有86个指标，而不是上面例子中的217个

而且模型的质量也只有所提高 )

Confusion Matrix and Statistics

          Reference
Prediction     0     1
         0 12769  5597
         1  8940 16841
                                          
               Accuracy : 0.6707          
                 95% CI : (0.6663, 0.6751)
    No Information Rate : 0.5083          
    P-Value [Acc > NIR] : < 2.2e-16       
                                          
                  Kappa : 0.3396          
                                          
 Mcnemar's Test P-Value : < 2.2e-16       
                                          
            Sensitivity : 0.5882          
            Specificity : 0.7506          
         Pos Pred Value : 0.6953          
         Neg Pred Value : 0.6532          
             Prevalence : 0.4917          
         Detection Rate : 0.2892          
   Detection Prevalence : 0.4160          
      Balanced Accuracy : 0.6694          
                                          
       'Positive' Class : 0

Aleksey Vyazmikin 2020.05.17 12:59 #17827

mytarmailS:

分类发生在最后一栏的已知条款（那些成熟的OHLS蜡烛），预测标志ZZ未来的蜡烛。为什么要考虑到我无法理解的唯一已知选项的蜡烛，除了复杂之外还有什么好处？

你不能理解，因为你在R中的数据，终端不知道OHLC何时在当前条上形成，所以你只能在第一个条的零条上得到OHLC。那么在零条上打开的是新的时间数据--特别是与大型TFs有关，因为我的样本中有一类相同的预测因子，但应用在不同的TFs上。

mytarmailS:

1）数据50-60k，不多，最好是一个文件.........

让我们给50人做培训，另外50人做测试（培训之外的样本）。

我可能刚刚命名了5-6万，为什么不翻倍呢？)))

)))

1）数据50-60k不多，一个文件比较好，同意即可

谢谢你填写了一个文件而不是两个文件!))

mytarmailS:

在文件OHLC_Train.csv 上进行了训练和验证，共有54147个。

在前10k个观测值上测试了模型（确切地说，是8k个，前2k个没有被考虑，因为它们被用来计算指标）。

在剩下的44K数据上测试了模型，所以我认为没有重新训练。测试是训练的5.5倍，44/8=5.5。

正如你所看到的，结果与你的相同，我不需要数以百万计的数据，如果有的话，5万个数据就足以找到模式。

所以我们得到了同样的结果，这是我们的起点，现在这个错误需要改进

我把样本分成了两个文件，第一个文件用于任何淫秽的训练尝试，第二个文件用于检查训练结果。

你难道没有办法保存模型并在新的数据上测试它吗？如果是这样，请检查一下，我给出了OHLC_Exam.csv样本的结果。

你能以同样的方式发回这两个文件，但要加上你的预测器和分类结果的那一栏吗？

关于过度训练或缺乏训练的问题。

在我看来，这显然是一种过度训练。

mytarmailS 2020.05.17 15:05 #17828

阿列克谢-维亚兹米 金。

是的...在新的数据上，一切都更加悲伤（（）。

Confusion Matrix and Statistics

          Reference
Prediction    0    1
         0 9215 5517
         1 3654 7787
                                          
               Accuracy : 0.6496          
                 95% CI : (0.6438, 0.6554)
    No Information Rate : 0.5083          
    P-Value [Acc > NIR] : < 2.2e-16       
                                          
                  Kappa : 0.3007          
                                          
 Mcnemar's Test P-Value : < 2.2e-16       
                                          
            Sensitivity : 0.7161          
            Specificity : 0.5853          
         Pos Pred Value : 0.6255          
         Neg Pred Value : 0.6806          
             Prevalence : 0.4917          
         Detection Rate : 0.3521          
   Detection Prevalence : 0.5629          
      Balanced Accuracy : 0.6507          
                                          
       'Positive' Class : 0

这里是文件，不要使用托盘中的前2k个字符串。

在测试的前100行

UPD====

文件不合适，请在你的收件箱中给我发一封邮件

Aleksey Vyazmikin 2020.05.17 15:20 #17829

mytarmailS:

是的...在新的数据上，一切都更加悲哀（（））。

以下是文件，请不要使用前2千行的线索

在测试中，前100行。

应用程序中没有任何文件。

我改变了训练和验证的抽样分类，对于验证，我每5行抽一次，得到了一个有趣的图表

在样本OHLC_Exam.csv上准确率0.63

通过X，每棵新的树都会减少结果，表明由于样本中的例子不足而导致过度训练。

用zip压缩文件。

mytarmailS 2020.05.17 15:53 #17830

阿列克谢-维亚兹米 金。

应用程序中没有任何文件。

我改变了训练和验证的抽样分类，对于验证，我每5行抽一次，得到了一个有趣的图表。

在样本OHLC_Exam.csv上准确率0.63

通过X，每棵新的树都会减少结果，表明由于样本中的例子不足而导致过度训练。

用zip压缩文件。

是的，是的，我们的模型被过度训练了...

这里有一个下载文件的链接，即使是压缩文件也不适合放在论坛上。

https://dropmefiles.com.ua/56CDZB

试试我的标志上的模型，我想知道准确度会是多少

交易中的机器学习：理论、模型、实践和算法交易 - 页 1783