交易中的机器学习：理论、模型、实践和算法交易

Aleksey Vyazmikin 2020.10.22 13:17 #20301

mytarmailS:

我们可以尝试用更复杂的方式来表达目标，即同时用4个参数的形式来表达

比方说，我们决定购买...

而电网并不只是告诉我们要买或卖

它告诉我们

以什么价格买入，以什么价格收盘，多长时间后买入，多长时间后收盘

你也可以添加一个止损

在我看来，这样精确而遥远的预测是很难学的。

对于起飞，我认为我们应该用不同的获利方式做分类，模型应该选择最有利可图的方式。这类似于ZZ，但模型应该从某个点开始在每个柱状上工作，但这个点不会出现在从开仓开始的每个价格运动上。

进场的好地方是可能获得最小损失的地方，即必须立即知道适合设置SL的出场点，如果SL与一些水平指标挂钩，那么进场点就很容易找到并筛选出来，它们是相似的，因此培训效果应该更好。

因此，问题是如何找到这样的点...

Rorschach 2020.10.22 15:01 #20302

Aleksey Vyazmikin:

祝愿成功的人在那里 :)

那么，你需要回归吗？我对这种模式没有什么经验。

我对这个概念很熟悉--有一些人在做这件事--问题是如何创建策略--在引擎本身...

那么对于分类，目标是什么？我将留下表格的第一部分，即关于进场、SL、TP和最后一列+-1作为交易的结果。例如，如果我有一个出口，最后一列应该是+-1。

我们谈论的是什么引擎？以自家的野蛮人或遗传学为例，首先。

Aleksey Vyazmikin 2020.10.22 15:22 #20303

Rorschach:

然后对目标进行分类？我将留下表格的第一部分，即关于进场、SL、TP和最后一列+-1作为交易的结果。我认为我不应该提供关于出口的信息，因为有可能会被偷窥。

我们谈论的是什么引擎？以自家的野蛮人或遗传学为例，首先。

你可以做回归，一个模型可以做，只要是研究，我的理解是，它只是研究。但是评估质量就比较复杂了--需要评估与计划的偏差，我不知道你是否可以立即评估偏差的矢量或有模数--不搞。

关于一个引擎，它将明智地采取正确的数据，以便不产生明显无意义的交易条件--策略生成过程本身，之后我们可以考虑遗传学或其他一些方法来改进模型。

Rorschach 2020.10.22 15:43 #20304

Aleksey Vyazmikin:

回归也可以做，模型也可以做，只要是研究，我的理解就是这样。但是质量估计就比较复杂了--我们将需要估计与计划的偏差，我不知道是否可以估计偏差向量或模数--我没有做过。

关于引擎，将明智地采取必要的数据，以便不产生明知无意义的交易条件--策略生成过程本身，之后我们可以考虑用遗传学或其他东西来训练模型。

事实上，看到分组是很有趣的，它将如何分组，是否会有任何逻辑。

我们可以从马丁、反马丁和推翻开始。然后ifelse：如果交易以负数收盘，下一笔交易以双倍手数开盘，或者只是相反的方向，或者两者都有。很难想出比从头开始更复杂的东西。

Aleksey Vyazmikin 2020.10.22 15:46 #20305

Rorschach:

实际上，看到聚类是很有趣的，它将如何被分组，那里是否会有任何逻辑。

我们可以从一个马汀、一个反马汀和一个反转开始。然后ifelse：如果一笔交易以亏损收盘，那么下一笔交易就会以双倍手数开盘，或者只是朝相反的方向，或者两者都是。很难想出从头开始的更复杂的东西。

我可以提供资源，目前我不能做更多。

Rorschach 2020.10.22 16:27 #20306

Aleksey Vyazmikin:

我可以提供资源，目前不能做更多。

Catbust有 feature_importances，能够查看集群，如森林？

你的机器能消化14号表的180,000,000吗？

Aleksey Vyazmikin 2020.10.22 16:33 #20307

Rorschach:

catbust是否有 feature_importances，即查看集群的能力，就像在脚手架中一样？

你的机器能消化14号表的180,000,000吗？

"Feature_importances " 是特征的重要性，它与集群有什么关系？还是我错过了什么。有这样的功能，但我不怎么用它，因为这种重要性基本上是按树顶来计算的，这不符合我的概念。

我在6千兆字节的表格上训练模型。而且，在我现在的记忆中，它消耗的内存不超过2个千兆字节。

Rorschach 2020.10.22 16:46 #20308

Aleksey Vyazmikin:

"feature_importances " 是特征的重要性，它与集群有什么关系？还是我错过了什么？有这样的功能，但我不怎么用它，因为这种重要性基本上是按树顶来计算的，这不符合我的概念。

我在6千兆字节的表格上训练模型。在我现在的记忆中，它消耗的内存不超过2千兆字节。

对于森林来说，可以看到其重要性和集群。在catbust中，它可能是plot_tree。

数据将被准备好，并将公布。

做了一个6列的测试版本，花了11GB。Notepad++无法打开它，说文件太大。用于SQLite 的BD浏览器已经挂起了大约20分钟。

Forester 2020.10.22 19:49 #20309

Rorschach:

对于一个森林，有一个选项可以查看重要性和集群。在catbust中，它可能是plot_tree。

我将准备好数据并公布。

做了一个6列的测试版本，花了11GB。Notepad++无法打开它，说文件太大。用于SQLite的BD浏览器已经挂起了大约20分钟。

全部命令查看器需要大文件，这使得Notepad++挂起了。

Forester 2020.10.22 19:54 #20310

Aleksey Vyazmikin:

"feature_importances " 是特征的重要性，它与集群有什么关系？还是我错过了什么？有这样的功能，但我不怎么用它，因为这种重要性基本上是按树顶来计算的，这不符合我的概念。

我在6千兆字节的表格上训练模型。在我现在的记忆中，它消耗的内存不超过2千兆字节。

我想知道他们是如何在不把所有数据纳入内存的情况下训练树的。如果我们有一个6千兆字节的表，大约也应该使用6千兆字节的内存。一棵树必须把每一列作为一个整体来排序。如果我们不把所有东西放进内存，而是每次都从磁盘上读取数据，那就太慢了。
唯一的变体是将内存中的数据保持为浮点类型而不是双倍，但这将降低精确度。对我们来说，5位数的精度可能还不错，但catbust是一个通用软件，我认为物理和数学问题应该用双精度解决。

交易中的机器学习：理论、模型、实践和算法交易 - 页 2031