交易中的机器学习:理论、模型、实践和算法交易 - 页 2804

 
mytarmailS #:

那么,这种矫枉过正的做法有什么意义呢?

筛选出相关性大于 0.9 的特征。

筛选出相关性大于 0.8 的特征。

筛选出相关性大于 0.7 的特征

筛选出相关性大于 0.6 的特征

....

..

我不明白这有什么意义,只要一次就完事了。

什么叫 "一次就完事"--有很多样本,所以需要一个系统的方法。如果有用的话,我会用 MQL5 来做,这样它就能开箱即用,希望能更快。

mytarmailS#:

========================================

此外,众所周知,木头并不关心相关符号。

采取的方法是,训练模型,从模型中选择重要特征,不要担心....。

不做无用功,不浪费自己和他人的时间。

CatBoost 在每次迭代拆分或建树时都会随机选择预测因子的数量--这取决于设置,这意味着强相关预测因子有更多机会进入随机状态,即不是针对它们,而是针对它们携带的信息。

我现在正在做,也是为了论坛的主题,看看对该样本是否有意义。

至少,我认为这种方法可以使模型更加多样化,从而可以描述(回忆会更多)样本中的更多情况,并进一步使用模型包。

 
Aleksey Vyazmikin #:

我现在就在做,包括为一个论坛主题 做,看看对该样本是否意义

没有意义

 
mytarmailS #:

没有意义

你认为样本没有希望?

 
Aleksey Vyazmikin #:

CatBoost 在每次迭代拆分或建树时都会随机选择预测因子的数量--这取决于设置,这意味着强相关预测因子有更多机会进入随机状态,即不是针对它们,而是针对它们携带的信息。

是的,但助推器的创造者并不知道这一点...

他们也不知道可以通过相关性过滤掉符号)))他们怎么会知道,这种方法只有 50 年的历史))))

你真的认为自己比他们知道得更多?

Aleksey Vyazmikin#:

您认为样本没有希望吗?

当然...Boost 把这一切都考虑进去了。

别为难我了,我可能比你年轻)。

 
Aleksey Vyazmikin #:

你认为样本没有希望?

https://datascience.stackexchange.com/questions/12554/does-xgboost-handle-multicollinearity-by-itself


决策树天生对多重共线性免疫 例如,如果有两个函数、

其他模型,如逻辑回归,会同时使用这两个函数

如逻辑回归,会同时使用两个函数。

由于比思特树使用单独的决策树,因此也不会受到多重共线性的影响

========

你可以使用这种方法,评估每个函数的重要性,并在最终模型中只保留最好的函数。


这其实就是我之前告诉你的

Does XGBoost handle multicollinearity by itself?
Does XGBoost handle multicollinearity by itself?
  • 2016.07.02
  • ope ope 1,653 3 3 gold badges 16 16 silver badges 27 27 bronze badges
  • datascience.stackexchange.com
I'm currently using XGBoost on a data-set with 21 features (selected from list of some 150 features), then one-hot coded them to obtain ~98 features. A few of these 98 features are somewhat redundant, for example: a variable (feature) $A$ also appears as $\frac{B}{A}$ and $\frac{C}{A}$. My questions are : From what I understand, the model is...
 
mytarmailS #:

是啊,这种助推器的创造者并不知道....。

他们也不知道可以通过相关性筛选出符号))他们怎么会知道,这种方法只有 50 年的历史))))

你真的认为自己比他们知道得更多?

我相信。Boost 将这一切都考虑在内。

别跟我来这套,我可能比你年轻)。

我分析了这些模型的结果,发现它们抓住了高度相关的预测因子,例如基于时间的预测因子--即使它们有很小的时滞。

我认为他们对一切都了如指掌,但他们也不应该告诉你那些几十年前的陈词滥调....。

关于 "您 "或 "您"--我认为,如果不带有攻击性信息,也不妨碍建设性对话,那么大家最好还是按照自己方便的方式称呼对话者。


mytarmailS#:

https://datascience.stackexchange.com/questions/12554/does-xgboost-handle-multicollinearity-by-itself


决策树天生不受多重共线性影响 例如,如果有 2 个函数:

在决定是否拆分时,决策树只会选择其中一个 其他模型、

如逻辑回归,会同时使用两个函数。

由于分离树使用的是单独的决策树,因此也不会受到多重共线性的影响

========

您可以使用这种方法,评估每个特征的重要性,并在最终模型中只保留最好的特征。


这其实就是我之前告诉你的

这就是问题所在,它会选择 - 是的,但这种选择会经历多少次....。

此外,CatBoost 与 xgboost 有一些不同之处,在不同的样本上会有不同的结果,平均而言,CatBoost 更快,甚至更好,但并非总是如此。

 

另外,我有自己的方法 类似的预测因子分组,并从中选择最佳选项,我需要一个相关性形式的对照组...

 
脚本全部正常工作 - 看来我得让它通宵工作了....
 
Aleksey Vyazmikin #:

CatBoost 在每次迭代拆分或建树时都会随机选择预测因子的数量--这取决于设置,这意味着强相关预测因子有更多机会进入随机状态,即不是针对它们,而是针对它们携带的信息。

你确定它是在随机挑选预测因子吗?我不是在 "猫扑",我是在查看基本 "猫扑 "示例的代码。所有预测器都在这里使用。也就是说,取最好的一个。与之相关的预测因子会紧随其后,但稍差一些。但在其他一些分割层次或修正树中,另一个相关预测因子可能会更好。

 
Aleksey Vyazmikin 将 相似的预测因子分组,并从中选出最佳变体,而且我还需要一个相关的对照组....。
所以,请给我提供几个有参考价值的公式,让我试试。