I have a dataset where yes=77 and no=16000, a highly imbalanced dataset. My plan was to identify the most important variables influencing the response variable using random forest and then develop a logistic regression model using the selected variable. I am planning to use...
Я тут читаю: Флах П. - Машинное обучение. Наука и искусство построения алгоритмов, которые извлекают знания из данных - 2015 там есть несколько страниц посвященных этой теме. Вот итоговая: Отмеченный
もし100の例に対して、あるクラスが5点で、別のクラスが95点だとしたら、どうしてモデルは最初のクラスに0.5以上の確率を与えることができるのでしょうか?これはモデルへの質問ではなく、データセットの作者への質問です。
最初のクラスは30%以上あります。そうですね、問題ないと思います。滅多にないとしても、"0 "よりも "1 "を予測する可能性が高い規則を一つ見つければ十分だ。
それに、クラスのバランスをとることでデータセットを変更することを防ぐ人はいない。ファーストクラスは30%以上ある。そして、たぶん、問題はないと思う。 まれにではあるが、"0 "よりも "1 "を予測する可能性が高いルールリストを1つ見つければ十分 だ。
それに、クラスのバランスをとることで、誰もデータセットを変えることはできない。あなたはcatbustに文句を言っていたが、catbustはtreerulelistではない。
君はキャットバスターに文句を言っていたが、キャットバスターは木じゃない。
不満はアルゴリズムについてではなく、すでに咀嚼されたデータを与えた方が良いという事実についてだ。
以前、あなたは何とかそれを理解した...
取引、自動取引システム、取引戦略のテストに関するフォーラム。
トレーディングにおける機械学習:理論、モデル、実践とアルゴ-トレーディング
mytarmailS、2016.10.29 11時22分。
仮定の状況....
100の潜在的な予測変数があり、説明を簡単にするためにそれらを指標とします。
RSIが90を超え、ストキャスティクスがゼロ以下になったときです(もちろん、天井からの状況です) 、 この状況は90%の確率で値下がりを もたらし、他のすべての予測要素は 完全なノイズであり、予測要素のRSIとストキャスティクスにおける他のすべての状況も 完全なノイズである。...
つまり、99.9%のノイズに対して、0.01%の有用なシグナルがあるということです。
あなたのMOが奇跡的に98の予測因子をすべて除外し、RSIとストキャスティクスの2つだけを残したとします。
RSIでは、RSI>0、RSI>13、RSI<85、RSI=0、RSI<145、................ MOは RSIとストキャスティクスに存在する全ての可能性のある 状況を考慮に入れてモデルを構築することになります。
さて、最終的にはどうだった?
モデル表現と目標比率がどう関係するのか正当化してください。私が言っているのは、モデルは近代化されたシート、つまりルールとして表現できるということだ。
バランス調整が必要なのはNSだけ。ツリーモデルはバランシングを必要としない。
これは良いデータの場合であり、いずれにせよアルゴリズム内部のカウンターが働き、割り当てられたターゲットの数を決定する...。
ここでの特異性は、CatBoostモデルがすべての例を0.5未満の確率に割り当てることを好むことである。したがって、ターゲットを「1」に分類することはなく、0と0.5の間にあるものもあまりうまく分布しない。
ターゲットの100の例があるとして、5つのラベル("A")と95のラベル("B")。
とすると、モデルはラベル "A "の確率を0.5より大きくすることはできない。
個々のルールでは可能 だが、投稿にはcatbustと書かれており、これは1つのルールではなくモデル (ルールの予測値の合計) であり、合計がそのような高い確率を持つことはない。
たとえモデルが「A」マークだと確信していたとしても、である。Bのルールの方がはるかに大きいからである。
バランス調整が必要なのはNSだけです。木製モデルにはバランシングは必要ありません。
https://stats.stackexchange.com/questions/340854/random-forest-for-imbalanced-data
ターゲットの100の例に対して5点(A)と95点(B)がある場合
とすると、モデルはラベル "A "の確率を0.5より大きくすることはできない。
個々のルールでは可能 ですが、投稿にはcatbustと書かれており、これはモデル (ルールの予測値の合計)であって、単一のルールではなく、合計がそのような高い確率を持つことはありません。
たとえモデルが「A」マークだと確信していたとしても、である。A "のルールの確率の和は、"B "のルールの確率の和によって予測されすぎてしまう。
すべては予測変数とモデルの木の数に依存する。
私はトレーニングのためにCatBoostモデルにこだわらない。
https://stats.stackexchange.com/questions/340854/random-forest-for-imbalanced-data
https://www.mql5.com/ru/blogs/post/723619
16000件中77件は少なすぎる。77の例は代表的とは言い難い。
唯一の選択肢は、ツリーを深く研究することだ。
https://www.mql5.com/ru/blogs/post/723619
16000人中77人は少なすぎる。77の例は代表的とは言い難い。
唯一の選択肢は、その木を深く研究することだ。