交易中的机器学习:理论、模型、实践和算法交易 - 页 1325

 
Farkhat Guzairov:

上面的一切都很酷,信息量很大,但 "训练控制",这是什么意思?

例如,你在2014年的数据样本上训练系统,然后给出2015年的样本,想看看模式的概率?如果是这样,那么你就不需要调换任何东西,一切都正确。只是我不认为在这里有什么问题,如果控件给出的结果与预期的不同,它总是这样的。

我使用CatBoost 进行训练,有机会在控制(验证)样本上停止训练,即在训练样本上发生错误减少的同时,立即检查控制样本上的结果如何变化,如果结果没有在控制样本上改善一定数量的树,那么训练就会停止,所有树到最后的改善都会被切断。是的,时间顺序是这样的--我在2014年培训,从2015年到2018年控制培训,在2018年检查结果。也许交换位置是有意义的,因为在训练过程中检测到的模式可能会及时停止工作,在更接近现实中应用的数据上进行训练可能更好--这是一个开放的问题。

 
法尔哈特-古扎罗夫

如果MO在你的案例中的实际应用,在我看来就是以下几点。

既然100%的真实结果概率根本不现实,那就去找一个简单的方法,比如说真假结果的比例,如果是50/50左右,那我们又必须了解你用这些结果获得的利润是多少,如果50%的利润是平均100点,剩下50%的损失是平均50点,那我认为你的系统是适合实际使用。

表中分类的准确度是公制精度--大约60%(对于最好的模型)得到正确的条目,在策略测试器中会更高,因为有些头寸必须收支平衡,但不能盈利

现在申请还为时过早,我们应该为下一阶段做好准备--在标本馆上开凿模型 :)

 
阿列克谢-维亚兹米 金。

我使用CatBoost进行训练,有一个选项可以在控制(验证)样本上停止训练,也就是说,在训练样本上平行减少错误,并立即检查控制样本上的结果如何变化,如果结果没有在控制样本上改善一定数量的树,那么训练就会停止,所有树到最后的改善都会被切断。是的,时间顺序是这样的--我在2014年培训,从2015年到2018年控制培训,在2018年检查结果。也许交换位置是有意义的,因为在训练中确定的模式,仍然可以在时间上停止工作,在更接近现实中的应用的数据上进行训练可能更好--这是一个开放的问题。

例如,我在自己身上注意到了什么。训练中涉及的数据越多,系统就越 "紧",也就是说。为什么会这样,你给出的答案是,在某些时期,一个模型给出了积极的结果,而同一模型在另一个时期给出了消极的结果,结果你把系统带入了昏迷状态,正如我所说的,它变得 "紧张",也许更智能,但这并不意味着智能系统会给出更真实的结果,恐怕比率会保持不变,只是系统会更少地告诉你它对当前形势的观点。

 
阿列克谢-维亚兹米 金。

关于提升--有一个较新的讲座(在python中,catbust是一个选项),由同一个讲师讲授--找不到了


有趣的是,GBM用回归树解决了分类问题。

有人知道吗?其他提升方法(包)也是这样做的吗?

 
阿列克谢-维亚兹米 金。

那么可以得出什么结论呢?看来,最佳数量是验证样本的60%-70%,也就是说,训练应该在比模型验证更小的样本上进行。但不可能不强调30%的故障,那里的所有指标的结果也不差,而故障率非常接近40%和50%。我甚至不知道什么对样本量或内容的影响更大,以及如何设置它...

如果60-70%是好的,30%是好的,就有可能不小心打到这些数字。
你可以试着完全重复计算,如果第二次是一样的,你就可以认为这是一个规律性的问题。(应重复10次以获得更大的统计学意义)。
 
法尔哈特-古扎罗夫

比如说,我在自己身上注意到的。训练中涉及的数据越多,系统就越 "紧",也就是说。这就是为什么它产生的结果概率较小,为什么会这样,答案是在某些时期,一些模型显示出积极的结果,而同样的模型在另一个时期显示出消极的结果,结果是系统陷入昏迷,正如我所说的,它变得 "紧张",但这并不意味着智能系统会产生更多的真实结果,恐怕比例保持不变,但系统会较少地告诉你它对当前形势的看法。

我认为交易中的信号越少越好,越精确越好,模型可以组合成独立的集合体,那么分类的准确性就会很高,完整性也会增加(符合1的事件的数量)。最主要的是以某种方式习惯于生成优秀的模型,同样,也可以通过不同的抽样细分来交替进行。

 
elibrarius

有趣的是,GBM用回归树解决了分类问题。

有谁知道吗?其他提升方法(包)也是这样做的吗?

据我所知,也是这样做的(在不同地方提到)。由于训练本身的特殊性,没有其他方法。这就是为什么我之前说,我认为树的顺序会影响它们在答案中的权重,这就是考虑树叶的合奏并将它们转换为单一规则的合理之处。

 
elibrarius
如果60-70%是好的,30%是好的,有可能不小心打到这些数字。
你可以试着完全重复计算,如果第二次的计算结果相同,你就可以认为这是一种模式。(应重复10次以获得更大的统计学意义)。

你又是怎么做的呢?也就是说,它将是相同的,因为种子是固定的,你可以采取新的种子 - 我以后会尝试,看看会发生什么。

另一方面,每个样本使用了200个模型,这也不小。
 
在一个非稳定的市场中,不能从这种研究中得出结论
 
马克西姆-德米特里耶夫斯基
在一个非稳定的市场中,不能从这种研究中得出结论

样本是固定的,用于培训的细目发生了变化,但用于独立评估的细目保持不变。

请扩大你的观点。