トレーディングにおける機械学習:理論、モデル、実践、アルゴトレーディング - ページ 2800

 
mytarmailS #:

もし100の例に対して、あるクラスが5点で、別のクラスが95点だとしたら、どうしてモデルは最初のクラスに0.5以上の確率を与えることができるのでしょうか?これはモデルへの質問ではなく、データセットの作者への質問です。

最初のクラスは30%以上あります。そうですね、問題ないと思います。滅多にないとしても、"0 "よりも "1 "を予測する可能性が高い規則を一つ見つければ十分だ。

それに、クラスのバランスをとることでデータセットを変更することを防ぐ人はいない。
 
Aleksey Vyazmikin #:

ファーストクラスは30%以上ある。そして、たぶん、問題はないと思う まれにではあるが、"0 "よりも "1 "を予測する可能性が高いルールリストを1つ見つければ十分 だ。

それに、クラスのバランスをとることで、誰もデータセットを変えることはできない。

あなたはcatbustに文句を言っていたが、catbustはtreerulelistではない。

 
バランス調整が必要なのはNSだけです。木製モデルにはバランシングは必要ない。
 
mytarmailS #:

君はキャットバスターに文句を言っていたが、キャットバスターは木じゃない。

不満はアルゴリズムについてではなく、すでに咀嚼されたデータを与えた方が良いという事実についてだ。

以前、あなたは何とかそれを理解した...

取引、自動取引システム、取引戦略のテストに関するフォーラム。

トレーディングにおける機械学習:理論、モデル、実践とアルゴ-トレーディング

mytarmailS、2016.10.29 11時22分。

仮定の状況....

100の潜在的な予測変数があり、説明を簡単にするためにそれらを指標とします。

RSIが90を超え、ストキャスティクスがゼロ以下になったときです(もちろん、天井からの状況です) この状況は90%の確率で値下がりを もたらし、他のすべての予測要素は 完全なノイズであり、予測要素のRSIとストキャスティクスにおける他のすべての状況も 完全なノイズである。...

つまり、99.9%のノイズに対して、0.01%の有用なシグナルがあるということです。

あなたのMOが奇跡的に98の予測因子をすべて除外し、RSIとストキャスティクスの2つだけを残したとします。

RSIでは、RSI>0、RSI>13、RSI<85、RSI=0、RSI<145、................ MOは RSIとストキャスティクスに存在する全ての可能性のある 状況を考慮に入れてモデルを構築することになります。

さて、最終的にはどうだった?


モデル表現と目標比率がどう関係するのか正当化してください。私が言っているのは、モデルは近代化されたシート、つまりルールとして表現できるということだ。

 
elibrarius #:
バランス調整が必要なのはNSだけ。ツリーモデルはバランシングを必要としない。

これは良いデータの場合であり、いずれにせよアルゴリズム内部のカウンターが働き、割り当てられたターゲットの数を決定する...。

 
Aleksey Vyazmikin #:

ここでの特異性は、CatBoostモデルがすべての例を0.5未満の確率に割り当てることを好むことである。したがって、ターゲットを「1」に分類することはなく、0と0.5の間にあるものもあまりうまく分布しない。

ターゲットの100の例があるとして、5つのラベル("A")と95のラベル("B")。

とすると、モデルはラベル "A "の確率を0.5より大きくすることはできない。

個々のルールでは可能 だが、投稿にはcatbustと書かれており、これは1つのルールではなくモデル (ルールの予測値の合計) であり、合計がそのような高い確率を持つことはない。


たとえモデルが「A」マークだと確信していたとしても、である。Bのルールの方がはるかに大きいからである。

 
elibrarius #:
バランス調整が必要なのはNSだけです。木製モデルにはバランシングは必要ありません。

https://stats.stackexchange.com/questions/340854/random-forest-for-imbalanced-data

random forest for imbalanced data?
random forest for imbalanced data?
  • 2018.04.16
  • MSilvy MSilvy 139 1 1 silver badge 8 8 bronze badges
  • stats.stackexchange.com
I have a dataset where yes=77 and no=16000, a highly imbalanced dataset. My plan was to identify the most important variables influencing the response variable using random forest and then develop a logistic regression model using the selected variable. I am planning to use...
 
mytarmailS #:

ターゲットの100の例に対して5点(A)と95点(B)がある場合

とすると、モデルはラベル "A "の確率を0.5より大きくすることはできない。

個々のルールでは可能 ですが、投稿にはcatbustと書かれており、これはモデル (ルールの予測値の合計)であって、単一のルールではなく、合計がそのような高い確率を持つことはありません。


たとえモデルが「A」マークだと確信していたとしても、である。A "のルールの確率の和は、"B "のルールの確率の和によって予測されすぎてしまう。

すべては予測変数とモデルの木の数に依存する。

私はトレーニングのためにCatBoostモデルにこだわらない。

 

https://www.mql5.com/ru/blogs/post/723619

16000件中77件は少なすぎる。77の例は代表的とは言い難い。
唯一の選択肢は、ツリーを深く研究することだ。

Нужна ли деревьям и лесам балансировка по классам?
Нужна ли деревьям и лесам балансировка по классам?
  • www.mql5.com
Я тут читаю: Флах П. - Машинное обучение. Наука и искусство построения алгоритмов, которые извлекают знания из данных - 2015 там есть несколько страниц посвященных этой теме. Вот итоговая: Отмеченный
 
elibrarius #:

https://www.mql5.com/ru/blogs/post/723619

16000人中77人は少なすぎる。77の例は代表的とは言い難い。
唯一の選択肢は、その木を深く研究することだ。

この本はどうですか?
理由: