Type of random forest: classification
Number of trees: 200
No. of variables tried at each split: 14
OOB estimate of error rate: 14.75%
Confusion matrix:
01class.error
025577780.23328336140242640.08615517
在测试中
Confusion Matrix and Statistics
Reference
Prediction 0 1
0 12449 5303
1 9260 17135
Accuracy :0.6701
95% CI : (0.6657, 0.6745)
No Information Rate : 0.5083
P-Value [Acc > NIR] : < 2.2e-16
Kappa : 0.3381
Mcnemar's Test P-Value : < 2.2e-16
Sensitivity : 0.5734
Specificity : 0.7637
Pos Pred Value : 0.7013
Neg Pred Value : 0.6492
Prevalence : 0.4917
Detection Rate : 0.2820
Detection Prevalence : 0.4021
Balanced Accuracy : 0.6686
'Positive' Class : 0
目前的状态是什么? 如果是关于集群的,你只需要对新的数据进行扫荡统计。如果它们是相同的,你可以建立TC。
如果集群是相同的,那么你就可以建立TC。如果它们是相同的,我们可以建立TC。
需要清楚地了解集群和统计的主题领域。如果从70年到20年的所有仪器上都相同,那么就有可能))
斤斤计较是没有用的,问题是数据的大小,我甚至无法创建特征,你甚至无法进行训练......
做一个5万的样本,让它小,让它不严重,让它更有可能过度训练,......., ...目的是创造一个用于生产的机器人,但只是利用共同努力来减少错误,然后获得的知识可以应用于任何工具和市场,50K将是相当足够的,可以看到什么标志意味着什么。
好的,我将做一个小样本。
如果你不知道OHLK,你就不用写了,为什么要把整个OHLK置换掉呢? 没有人这样做,你只需要把ZZ置换掉一步,就像把未来看成1步的学习,就这样。你至少读过Vladimir Perervenko关于deerelearning的一篇文章吗? 请读一读。 当对数据的最佳操作已经定型,每个人都已经习惯了,而有人试图以不同的方式做同样的事情,这是非常不舒服的,这有点毫无意义,令人讨厌,并导致人们在尝试使用这种作者的数据时出现许多错误。
我读过他的文章,但我不懂R代码,所以我不能真正理解那里的一切。
所以我想问你,既然你了解这个问题。分类发生在零条上,当时只有开盘价 是已知的,据我所知,你不使用零条上的开盘价,而只使用第一条及以后的信息?事实上,目标决定了零条上的ZZ矢量?我知道下一个柱状体的矢量被预测了--这不是必须的,是吗?否则我又要做大量的返工--这很累人。
我只是有一个拿数据和应用模型的现成方案,而不是一个计算模型。
如果在这一切之后,你仍然想做一些事情,我有以下要求
1)数据50-60k不等,最好是一个文件,只要同意最后一个蜡烛的n就可以了。
2)数据,最好没有胶水,这样不仅可以考虑最新的价格,还可以考虑支持和阻力,这在胶水中是不可能的。
3)目标应该已经包含在数据中了
4)数据格式为日期、时间、o、h、l、c、目标。
或者我应该做一个数据集?
你可以向那些做出承诺的人要求--即不是向我要求:)我们做个交易吧。
1.让我们做50个用于训练,另外50个用于测试(训练之外的抽样)。
2.好的。
3.好的。
4.确定。
补充:意识到Si-3.20期货没有足够的正常棒(22793),你不想要胶水。
添加了一个sber的样本--我得到了67分的准确度。
所以我想问你,既然你已经想通了这一点。分类发生在零条上,当时只 知道开盘价,据我所知,你不使用零条上的开盘价,而只使用第一条及以后的信息?事实上,目标决定了零条上的ZZ矢量?我知道下一个柱状体的矢量被预测了--这不是必须的,是吗?否则我又得做一堆返工--令人厌烦。
分类是在已知条款(即一个成熟的OHLS蜡烛) 的最后一栏进行的,我们预测未来蜡烛的ZZ标志。为什么要考虑到我无法理解的唯一已知选项的蜡烛,除了复杂之外还有什么优势?
你可以向那些已经做出承诺的人要求--也就是不向我要求 :)让我们达成一个协议。
我不要求你个人做任何事情)。对样本的要求,样本必须对所有的人都是一样的,这样才有可能进行比较,对吗? 我想这是很明显的。
并感谢您的收听 )
1)数据50-60k,不多,最好是一个文件.........
让我们有50个用于培训,另外50个用于测试(培训之外的样本)。
我想5-6万也许是出于好奇,为什么不翻倍?)))
)))
1)数据50-60k,不多,最好是一个文件,同意即可
谢谢你填写了一个文件而不是两个文件!))先试了一下,可以说是开箱即用,...
只有最后的n个值参与预测,像你一样,因为误差是一样的。
我有217个指标,我肯定有一些冗余的指标,但我懒得去清理。
我使用OHLC_Train.csv 文件训练和验证了总共54147个数据。
在前10万个观测值上测试模型(确切地说,是8万个,前2万个没有考虑,因为指标是根据它们计算的)。
在剩下的44k数据上测试了模型,所以我认为没有重新训练。 5.5次训练44/8=5.5
在我试过的模型中,助推和福瑞特,助推没有留下印象,我已经停止了福瑞特。
在训练中设置了一个强大的不平衡班,但我太懒了,不愿意去做萨满。
关于当前特征的最终模型--200棵树的森林
在托盘上...
在测试中
Confusion Matrix and Statistics Reference Prediction 0 1 0 12449 5303 1 9260 17135 Accuracy : 0.6701 95% CI : (0.6657, 0.6745) No Information Rate : 0.5083 P-Value [Acc > NIR] : < 2.2e-16 Kappa : 0.3381 Mcnemar's Test P-Value : < 2.2e-16 Sensitivity : 0.5734 Specificity : 0.7637 Pos Pred Value : 0.7013 Neg Pred Value : 0.6492 Prevalence : 0.4917 Detection Rate : 0.2820 Detection Prevalence : 0.4021 Balanced Accuracy : 0.6686 'Positive' Class : 0
正如你所看到的,结果与你相同,而且不需要数以百万计的数据,如果有的话,5万个数据就足以找到一个模式。
所以我们得到了同样的结果,这是我们的起点,现在这个错误必须得到改善
))Hohma ))
删除了所有所谓的技术分析指标
有86个 指标,而不是上面例子中的217个
而且模型的质量也只有所提高 )
Confusion Matrix and Statistics Reference Prediction 0 1 0 12769 5597 1 8940 16841 Accuracy : 0.6707 95% CI : (0.6663, 0.6751) No Information Rate : 0.5083 P-Value [Acc > NIR] : < 2.2e-16 Kappa : 0.3396 Mcnemar's Test P-Value : < 2.2e-16 Sensitivity : 0.5882 Specificity : 0.7506 Pos Pred Value : 0.6953 Neg Pred Value : 0.6532 Prevalence : 0.4917 Detection Rate : 0.2892 Detection Prevalence : 0.4160 Balanced Accuracy : 0.6694 'Positive' Class : 0
分类发生在最后一栏的已知条款(那些成熟的OHLS蜡烛),预测标志ZZ未来的蜡烛。为什么要考虑到我无法理解的唯一已知选项的蜡烛,除了复杂之外还有什么好处?
你不能理解,因为你在R中的数据,终端不知道OHLC何时在当前条上形成,所以你只能在第一个条的零条上得到OHLC。那么在零条上打开的是新的时间数据--特别是与大型TFs有关,因为我的样本中有一类相同的预测因子,但应用在不同的TFs上。
1)数据50-60k,不多,最好是一个文件.........
让我们给50人做培训,另外50人做测试(培训之外的样本)。
我可能刚刚命名了5-6万,为什么不翻倍呢?)))
)))
1)数据50-60k不多,一个文件比较好,同意即可
谢谢你填写了一个文件而不是两个文件!))在文件OHLC_Train.csv 上进行了训练和验证,共有54147个。
在前10k个观测值上测试了模型(确切地说,是8k个,前2k个没有被考虑,因为它们被用来计算指标)。
在剩下的44K数据上测试了模型,所以我认为没有重新训练。测试是训练的5.5倍,44/8=5.5。
正如你所看到的,结果与你的相同,我不需要数以百万计的数据,如果有的话,5万个数据就足以找到模式。
所以我们得到了同样的结果,这是我们的起点,现在这个错误需要改进
我把样本分成了两个文件,第一个文件用于任何淫秽的训练尝试,第二个文件用于检查训练结果。
你难道没有办法保存模型并在新的数据上测试它吗?如果是这样,请检查一下,我给出了OHLC_Exam.csv样本的结果。
你能以同样的方式发回这两个文件,但要加上你的预测器和分类结果的那一栏吗?
关于过度训练或缺乏训练的问题。
在我看来,这显然是一种过度训练。
是的...在新的数据上,一切都更加悲伤(()。
Confusion Matrix and Statistics Reference Prediction 0 1 0 9215 5517 1 3654 7787 Accuracy : 0.6496 95% CI : (0.6438, 0.6554) No Information Rate : 0.5083 P-Value [Acc > NIR] : < 2.2e-16 Kappa : 0.3007 Mcnemar's Test P-Value : < 2.2e-16 Sensitivity : 0.7161 Specificity : 0.5853 Pos Pred Value : 0.6255 Neg Pred Value : 0.6806 Prevalence : 0.4917 Detection Rate : 0.3521 Detection Prevalence : 0.5629 Balanced Accuracy : 0.6507 'Positive' Class : 0
这里是文件,不要 使用托盘中的前2k个字符串。
在测试的前100行
UPD====
文件不合适,请在你的收件箱中给我发一封邮件
是的...在新的数据上,一切都更加悲哀(())。
以下是文件,请不要 使用前2千行的线索
在测试中,前100行。
应用程序中没有任何文件。
我改变了训练和验证的抽样分类,对于验证,我每5行抽一次,得到了一个有趣的图表
在样本OHLC_Exam.csv上 准确率0.63
通过X,每棵新的树都会减少结果,表明由于样本中的例子不足而导致过度训练。
用zip压缩文件。应用程序中没有任何文件。
我改变了训练和验证的抽样分类,对于验证,我每5行抽一次,得到了一个有趣的图表。
在样本OHLC_Exam.csv上 准确率0.63
通过X,每棵新的树都会减少结果,表明由于样本中的例子不足而导致过度训练。
用zip压缩文件。是的,是的,我们的模型被过度训练了...
这里有一个下载文件的链接,即使是压缩文件也不适合放在论坛上。
https://dropmefiles.com.ua/56CDZB
试试我的标志上的模型,我想知道准确度会是多少