I'm currently using XGBoost on a data-set with 21 features (selected from list of some 150 features), then one-hot coded them to obtain ~98 features. A few of these 98 features are somewhat redundant, for example: a variable (feature) $A$ also appears as $\frac{B}{A}$ and $\frac{C}{A}$. My questions are : From what I understand, the model is...
では、このやり過ぎに何の意味があるのか?
相関関係が0.9を超える形質を除外するためだ。
相関が0.8より大きい形質を選別するため。
相関が0.7を超える特徴を除外する。
相関が0.6を超える特徴を除外する。
....
..
何の意味があるのかわからない。
一度だけとはどういう意味ですか?サンプルはたくさんあるので、システマティックなアプローチが必要です。もしそれが役に立つなら、私はMQL5でそれを行うつもりです。
========================================
それに、木は相関符号を気にしないことが知られている。
モデルを訓練し、モデルから重要な特徴を選択し、心配しないでください。
無意味なことをせず、自分の時間と他人の時間を無駄にしない。
CatBoostは、分割またはツリー構築の各反復で予測変数の数をランダムに選択します - 設定に依存し、それは、相関の強い予測変数がランダムに、つまり、それらではなく、それらが運ぶ情報に、より多くのチャンスがあることを意味します。
今、フォーラムのスレッドでも、そのサンプルに意味があるかどうかを確認するためにやっています。
少なくとも、このアプローチによってモデルをより多様にすることができ、サンプル内のより多くの状況を記述することができる(Recallがより多くなる)ようになり、モデルのパッケージをさらに利用できるようになると期待しています。
そのサンプルに意味があるか どうかを確認するために、フォーラムのスレッドも含めて 今やっているところだ。
それはない
意味がない
そのサンプルは絶望的だと思うか?
CatBoostは、分割またはツリー構築の各反復で、予測変数の数をランダムに選択します - それは設定に依存し、強く相関する予測変数がランダムに、つまりそれらではなく、それらが運ぶ情報に、より多くのチャンスがあることを意味します。
しかし、ブーストの作成者はそのことを知らない。
彼らはまた、相関によって符号をフィルタリングすることが可能であることも知らない))) どうやって知ることができるのだろう、その方法はわずか50年前のものだ))))
あなたは、自分が彼らよりも多くのことを知っていると本当に信じているのですか?
そのサンプルは絶望的だと思いますか?
もちろん...ブーストはすべてを考慮に入れている。
それに、私の方があなたより若いんだから。)
そのサンプルは絶望的だと思うか?
https://datascience.stackexchange.com/questions/12554/does-xgboost-handle-multicollinearity-by-itself
決定木は本質的に多重共線性とは無縁である 、
という2つの関数があり、99%相関している場合、決定木は分割を決定するときにどちらか一方しか選ばない 。 他のモデル、例えばロジスティック回帰は両方の関数を使う、
ロジスティック回帰のような他のモデルは、両方の関数を使用します。
ブスティング木は別々の決定木を使うので、多重共線性の影響も受けません 。
========
このアプローチを使って、各関数の重要性を評価し、最終モデルに最適な関数だけを残す ことができます。
これは、私が先にお話ししたことです。
ああ、そういうブーストの作り手はそれを知らないんだ......。
彼らはまた、相関関係によってサインをフィルタリングすることが可能であることも知らない)))どうやって知ることができるのだろう。)
あなたは本当に、自分が彼らよりも多くのことを知っていると信じているのだろうか?
私は知っている。ブーストはすべてを考慮に入れている。
私はあなたより年下なんだから。)
私はモデルの結果を分析し、相関性の高い予測因子、例えば時間に基づく予測因子-たとえタイムラグが小さくても-をつかんでいることを確認した。
私は、彼らはすべてのことを完璧に知っていると思うが、何十年も前の決まり文句を言うべきではないと思う......。
"あなた "または "あなた "について - 不快なメッセージを持たず、建設的な対話を妨げないのであれば、誰にとっても対話者の都合の良いように呼ぶ方が良いと思います。
https://datascience.stackexchange.com/questions/12554/does-xgboost-handle-multicollinearity-by-itself
決定木は本質的に多重共線性とは無縁である 。 例えば、2つの関数があるとする、
があった場合、ツリーは分割するかどうかを決定するときに、そのうちの1つだけを選択する 。 他のモデル、
ロジスティック回帰のような他のモデルは、両方の関数を使用します。
ブスティング木は別々の決定木を使うので、多重共線性の影響も受けない 。
========
このアプローチを使って、各特徴の重要性を評価し、最良の特徴だけを最終 モデルに残すことができます。
これは、私がさっき言ったことです。
それが問題なんだ。CatBoostは1つを選択する。
また、CatBoostはxgboostといくつかの違いがあり、異なるサンプルで異なる結果があります、平均的にCatBoostはより速く、より良いですが、常にではありません。
それに、似たような予測因子をグループ分けして、その中から最良の選択肢を選ぶという独自の方法もあるし、相関関係という形でコントロールグループが必要だし...。
CatBoostは、分割またはツリー構築の各反復で、予測変数の数をランダムに選択します - それは設定に依存し、強く相関する予測変数がランダムに、つまりそれらではなく、それらが運ぶ情報に、より多くのチャンスがあることを意味します。
本当にランダムに予測変数を選んでいるのですか?私はcatbustingではなく、基本的なboustingの例のコードを見ていました。そこではすべての予測子が使われている。つまり、最も良いものが選ばれる。相関のあるものはその次になるが、少し悪くなる。しかし、他のスプリットレベルや補正ツリーでは、相関のある予測変数の別のものがよりよいかもしれない。