I'm currently using XGBoost on a data-set with 21 features (selected from list of some 150 features), then one-hot coded them to obtain ~98 features. A few of these 98 features are somewhat redundant, for example: a variable (feature) $A$ also appears as $\frac{B}{A}$ and $\frac{C}{A}$. My questions are : From what I understand, the model is...
那么,这种矫枉过正的做法有什么意义呢?
筛选出相关性大于 0.9 的特征。
筛选出相关性大于 0.8 的特征。
筛选出相关性大于 0.7 的特征
筛选出相关性大于 0.6 的特征
....
..
我不明白这有什么意义,只要一次就完事了。
什么叫 "一次就完事"--有很多样本,所以需要一个系统的方法。如果有用的话,我会用 MQL5 来做,这样它就能开箱即用,希望能更快。
========================================
此外,众所周知,木头并不关心相关符号。
采取的方法是,训练模型,从模型中选择重要特征,不要担心....。
不做无用功,不浪费自己和他人的时间。
CatBoost 在每次迭代拆分或建树时都会随机选择预测因子的数量--这取决于设置,这意味着强相关预测因子有更多机会进入随机状态,即不是针对它们,而是针对它们携带的信息。
我现在正在做,也是为了论坛的主题,看看对该样本是否有意义。
至少,我认为这种方法可以使模型更加多样化,从而可以描述(回忆会更多)样本中的更多情况,并进一步使用模型包。
我现在就在做,包括为一个论坛主题 做,看看对该样本是否 有意义。
没有意义
没有意义
你认为样本没有希望?
CatBoost 在每次迭代拆分或建树时都会随机选择预测因子的数量--这取决于设置,这意味着强相关预测因子有更多机会进入随机状态,即不是针对它们,而是针对它们携带的信息。
是的,但助推器的创造者并不知道这一点...
他们也不知道可以通过相关性过滤掉符号)))他们怎么会知道,这种方法只有 50 年的历史))))
你真的认为自己比他们知道得更多?
您认为样本没有希望吗?
当然...Boost 把这一切都考虑进去了。
别为难我了,我可能比你年轻)。
你认为样本没有希望?
https://datascience.stackexchange.com/questions/12554/does-xgboost-handle-multicollinearity-by-itself
决策树天生对多重共线性免疫 。 例如,如果有两个函数、
其他模型,如逻辑回归,会同时使用这两个函数 、
如逻辑回归,会同时使用两个函数。
由于比思特树使用单独的决策树,因此也不会受到多重共线性的影响 。
========
你可以使用这种方法,评估每个函数的重要性,并在最终模型中只保留最好的函数。
这其实就是我之前告诉你的
是啊,这种助推器的创造者并不知道....。
他们也不知道可以通过相关性筛选出符号))他们怎么会知道,这种方法只有 50 年的历史))))
你真的认为自己比他们知道得更多?
我相信。Boost 将这一切都考虑在内。
别跟我来这套,我可能比你年轻)。
我分析了这些模型的结果,发现它们抓住了高度相关的预测因子,例如基于时间的预测因子--即使它们有很小的时滞。
我认为他们对一切都了如指掌,但他们也不应该告诉你那些几十年前的陈词滥调....。
关于 "您 "或 "您"--我认为,如果不带有攻击性信息,也不妨碍建设性对话,那么大家最好还是按照自己方便的方式称呼对话者。
https://datascience.stackexchange.com/questions/12554/does-xgboost-handle-multicollinearity-by-itself
决策树天生不受多重共线性影响 。 例如,如果有 2 个函数:
在决定是否拆分时,决策树只会选择其中一个 。 其他模型、
如逻辑回归,会同时使用两个函数。
由于分离树使用的是单独的决策树,因此也不会受到多重共线性的影响 。
========
您可以使用这种方法,评估每个特征的重要性,并在最终模型中只保留最好的特征。
这其实就是我之前告诉你的
这就是问题所在,它会选择 - 是的,但这种选择会经历多少次....。
此外,CatBoost 与 xgboost 有一些不同之处,在不同的样本上会有不同的结果,平均而言,CatBoost 更快,甚至更好,但并非总是如此。
另外,我有自己的方法将 类似的预测因子分组,并从中选择最佳选项,我需要一个相关性形式的对照组...
CatBoost 在每次迭代拆分或建树时都会随机选择预测因子的数量--这取决于设置,这意味着强相关预测因子有更多机会进入随机状态,即不是针对它们,而是针对它们携带的信息。
你确定它是在随机挑选预测因子吗?我不是在 "猫扑",我是在查看基本 "猫扑 "示例的代码。所有预测器都在这里使用。也就是说,取最好的一个。与之相关的预测因子会紧随其后,但稍差一些。但在其他一些分割层次或修正树中,另一个相关预测因子可能会更好。