交易中的机器学习：理论、模型、实践和算法交易

Aleksey Vyazmikin 2019.02.13 07:41 #13241

Farkhat Guzairov:

上面的一切都很酷，信息量很大，但 "训练控制"，这是什么意思？

例如，你在2014年的数据样本上训练系统，然后给出2015年的样本，想看看模式的概率？如果是这样，那么你就不需要调换任何东西，一切都正确。只是我不认为在这里有什么问题，如果控件给出的结果与预期的不同，它总是这样的。

我使用CatBoost 进行训练，有机会在控制（验证）样本上停止训练，即在训练样本上发生错误减少的同时，立即检查控制样本上的结果如何变化，如果结果没有在控制样本上改善一定数量的树，那么训练就会停止，所有树到最后的改善都会被切断。是的，时间顺序是这样的--我在2014年培训，从2015年到2018年控制培训，在2018年检查结果。也许交换位置是有意义的，因为在训练过程中检测到的模式可能会及时停止工作，在更接近现实中应用的数据上进行训练可能更好--这是一个开放的问题。

Aleksey Vyazmikin 2019.02.13 07:44 #13242

法尔哈特-古扎罗夫。

如果MO在你的案例中的实际应用，在我看来就是以下几点。

既然100%的真实结果概率根本不现实，那就去找一个简单的方法，比如说真假结果的比例，如果是50/50左右，那我们又必须了解你用这些结果获得的利润是多少，如果50%的利润是平均100点，剩下50%的损失是平均50点，那我认为你的系统是适合实际使用。

表中分类的准确度是公制精度--大约60%（对于最好的模型）得到正确的条目，在策略测试器中会更高，因为有些头寸必须收支平衡，但不能盈利。

现在申请还为时过早，我们应该为下一阶段做好准备--在标本馆上开凿模型 :)

Farkhat Guzairov 2019.02.13 07:51 #13243

阿列克谢-维亚兹米 金。

我使用CatBoost进行训练，有一个选项可以在控制（验证）样本上停止训练，也就是说，在训练样本上平行减少错误，并立即检查控制样本上的结果如何变化，如果结果没有在控制样本上改善一定数量的树，那么训练就会停止，所有树到最后的改善都会被切断。是的，时间顺序是这样的--我在2014年培训，从2015年到2018年控制培训，在2018年检查结果。也许交换位置是有意义的，因为在训练中确定的模式，仍然可以在时间上停止工作，在更接近现实中的应用的数据上进行训练可能更好--这是一个开放的问题。

例如，我在自己身上注意到了什么。训练中涉及的数据越多，系统就越 "紧"，也就是说。为什么会这样，你给出的答案是，在某些时期，一个模型给出了积极的结果，而同一模型在另一个时期给出了消极的结果，结果你把系统带入了昏迷状态，正如我所说的，它变得 "紧张"，也许更智能，但这并不意味着智能系统会给出更真实的结果，恐怕比率会保持不变，只是系统会更少地告诉你它对当前形势的观点。

Forester 2019.02.13 08:02 #13244

阿列克谢-维亚兹米 金。

关于提升--有一个较新的讲座（在python中，catbust是一个选项），由同一个讲师讲授--找不到了

有趣的是，GBM用回归树解决了分类问题。

有人知道吗？其他提升方法（包）也是这样做的吗？

Forester 2019.02.13 08:12 #13245

阿列克谢-维亚兹米 金。

那么可以得出什么结论呢？看来，最佳数量是验证样本的60%-70%，也就是说，训练应该在比模型验证更小的样本上进行。但不可能不强调30%的故障，那里的所有指标的结果也不差，而故障率非常接近40%和50%。我甚至不知道什么对样本量或内容的影响更大，以及如何设置它...

如果60-70%是好的，30%是好的，就有可能不小心打到这些数字。
你可以试着完全重复计算，如果第二次是一样的，你就可以认为这是一个规律性的问题。(应重复10次以获得更大的统计学意义）。

Aleksey Vyazmikin 2019.02.13 08:24 #13246

法尔哈特-古扎罗夫。

比如说，我在自己身上注意到的。训练中涉及的数据越多，系统就越 "紧"，也就是说。这就是为什么它产生的结果概率较小，为什么会这样，答案是在某些时期，一些模型显示出积极的结果，而同样的模型在另一个时期显示出消极的结果，结果是系统陷入昏迷，正如我所说的，它变得 "紧张"，但这并不意味着智能系统会产生更多的真实结果，恐怕比例保持不变，但系统会较少地告诉你它对当前形势的看法。

我认为交易中的信号越少越好，越精确越好，模型可以组合成独立的集合体，那么分类的准确性就会很高，完整性也会增加（符合1的事件的数量）。最主要的是以某种方式习惯于生成优秀的模型，同样，也可以通过不同的抽样细分来交替进行。

Aleksey Vyazmikin 2019.02.13 08:27 #13247

elibrarius。

有趣的是，GBM用回归树解决了分类问题。

有谁知道吗？其他提升方法（包）也是这样做的吗？

据我所知，也是这样做的（在不同地方提到）。由于训练本身的特殊性，没有其他方法。这就是为什么我之前说，我认为树的顺序会影响它们在答案中的权重，这就是考虑树叶的合奏并将它们转换为单一规则的合理之处。

Aleksey Vyazmikin 2019.02.13 08:28 #13248

elibrarius。
如果60-70%是好的，30%是好的，有可能不小心打到这些数字。
你可以试着完全重复计算，如果第二次的计算结果相同，你就可以认为这是一种模式。(应重复10次以获得更大的统计学意义）。

你又是怎么做的呢？也就是说，它将是相同的，因为种子是固定的，你可以采取新的种子 - 我以后会尝试，看看会发生什么。

另一方面，每个样本使用了200个模型，这也不小。

Maxim Dmitrievsky 2019.02.13 08:57 #13249

在一个非稳定的市场中，不能从这种研究中得出结论

Aleksey Vyazmikin 2019.02.13 08:59 #13250

马克西姆-德米特里耶夫斯基。
在一个非稳定的市场中，不能从这种研究中得出结论

样本是固定的，用于培训的细目发生了变化，但用于独立评估的细目保持不变。

请扩大你的观点。

交易中的机器学习：理论、模型、实践和算法交易 - 页 1325