交易中的机器学习:理论、模型、实践和算法交易 - 页 2031

 
mytarmailS:

我们可以尝试用更复杂的方式来表达目标,即同时用4个参数的形式来表达


比方说,我们决定购买...

而电网并不只是告诉我们要买或卖

它告诉我们

以什么价格买入,以什么价格收盘,多长时间后买入,多长时间后收盘

你也可以添加一个止损

在我看来,这样精确而遥远的预测是很难学的。

对于起飞,我认为我们应该用不同的获利方式做分类,模型应该选择最有利可图的方式。 这类似于ZZ,但模型应该从某个点开始在每个柱状上工作,但这个点不会出现在从开仓 开始的每个价格运动上。

进场的好地方是可能获得最小损失的地方,即必须立即知道适合设置SL的出场点,如果SL与一些水平指标挂钩,那么进场点就很容易找到并筛选出来,它们是相似的,因此培训效果应该更好。

因此,问题是如何找到这样的点...

 
Aleksey Vyazmikin:

祝愿成功的人在那里 :)

那么,你需要回归吗?我对这种模式没有什么经验。

我对这个概念很熟悉--有一些人在做这件事--问题是如何创建策略--在引擎本身...

那么对于分类,目标是什么?我将留下表格的第一部分,即关于进场、SL、TP和最后一列+-1作为交易的结果。例如,如果我有一个出口,最后一列应该是+-1。

我们谈论的是什么引擎?以自家的野蛮人或遗传学为例,首先。

 
Rorschach:

然后对目标进行分类?我将留下表格的第一部分,即关于进场、SL、TP和最后一列+-1作为交易的结果。我认为我不应该提供关于出口的信息,因为有可能会被偷窥。

我们谈论的是什么引擎?以自家的野蛮人或遗传学为例,首先。

你可以做回归,一个模型可以做,只要是研究,我的理解是,它只是研究。但是评估质量就比较复杂了--需要评估与计划的偏差,我不知道你是否可以立即评估偏差的矢量或有模数--不搞。

关于一个引擎,它将明智地采取正确的数据,以便不产生明显无意义的交易条件--策略生成过程本身,之后我们可以考虑遗传学或其他一些方法来改进模型。

 
Aleksey Vyazmikin:

回归也可以做,模型也可以做,只要是研究,我的理解就是这样。但是质量估计就比较复杂了--我们将需要估计与计划的偏差,我不知道是否可以估计偏差向量或模数--我没有做过。

关于引擎,将明智地采取必要的数据,以便不产生明知无意义的交易条件--策略生成过程本身,之后我们可以考虑用遗传学或其他东西来训练模型。

事实上,看到分组是很有趣的,它将如何分组,是否会有任何逻辑。

我们可以从马丁、反马丁和推翻开始。然后ifelse:如果交易以负数收盘,下一笔交易以双倍手数开盘,或者只是相反的方向,或者两者都有。很难想出比从头开始更复杂的东西。

 
Rorschach:

实际上,看到聚类是很有趣的,它将如何被分组,那里是否会有任何逻辑。

我们可以从一个马汀、一个反马汀和一个反转开始。然后ifelse:如果一笔交易以亏损收盘,那么下一笔交易就会以双倍手数开盘,或者只是朝相反的方向,或者两者都是。很难想出从头开始的更复杂的东西。

我可以提供资源,目前我不能做更多。

 
Aleksey Vyazmikin:

我可以提供资源,目前不能做更多。

Catbust有 feature_importances,能够查看集群,如森林?

你的机器能消化14号表的180,000,000吗?

 
Rorschach:

catbust是否有 feature_importances,即查看集群的能力,就像在脚手架中一样?

你的机器能消化14号表的180,000,000吗?

"Feature_importances " 是特征的重要性,它与集群有什么关系?还是我错过了什么。有这样的功能,但我不怎么用它,因为这种重要性基本上是按树顶来计算的,这不符合我的概念。

我在6千兆字节的表格上训练模型。而且,在我现在的记忆中,它消耗的内存不超过2个千兆字节。

 
Aleksey Vyazmikin:

"feature_importances " 是特征的重要性,它与集群有什么关系?还是我错过了什么?有这样的功能,但我不怎么用它,因为这种重要性基本上是按树顶来计算的,这不符合我的概念。

我在6千兆字节的表格上训练模型。在我现在的记忆中,它消耗的内存不超过2千兆字节。

对于森林来说,可以看到其重要性和集群。在catbust中,它可能是plot_tree。

数据将被准备好,并将公布。

做了一个6列的测试版本,花了11GB。Notepad++无法打开它,说文件太大。用于SQLite 的BD浏览器已经挂起了大约20分钟。
 
Rorschach:

对于一个森林,有一个选项可以查看重要性和集群。在catbust中,它可能是plot_tree。

我将准备好数据并公布。

做了一个6列的测试版本,花了11GB。Notepad++无法打开它,说文件太大。用于SQLite的BD浏览器已经挂起了大约20分钟。
全部命令查看器需要大文件,这使得Notepad++挂起了。
 
Aleksey Vyazmikin:

"feature_importances " 是特征的重要性,它与集群有什么关系?还是我错过了什么?有这样的功能,但我不怎么用它,因为这种重要性基本上是按树顶来计算的,这不符合我的概念。

我在6千兆字节的表格上训练模型。在我现在的记忆中,它消耗的内存不超过2千兆字节。

我想知道他们是如何在不把所有数据纳入内存的情况下训练树的。如果我们有一个6千兆字节的表,大约也应该使用6千兆字节的内存。一棵树必须把每一列作为一个整体来排序。如果我们不把所有东西放进内存,而是每次都从磁盘上读取数据,那就太慢了。
唯一的变体是将内存中的数据保持为浮点类型而不是双倍,但这将降低精确度。对我们来说,5位数的精度可能还不错,但catbust是一个通用软件,我认为物理和数学问题应该用双精度解决。