トレーディングにおける機械学習：理論、モデル、実践、アルゴトレーディング

Aleksey Vyazmikin 2022.10.24 10:59 #27991

mytarmailS #:

もし100の例に対して、あるクラスが5点で、別のクラスが95点だとしたら、どうしてモデルは最初のクラスに0.5以上の確率を与えることができるのでしょうか？これはモデルへの質問ではなく、データセットの作者への質問です。

最初のクラスは30％以上あります。そうですね、問題ないと思います。滅多にないとしても、"0 "よりも "1 "を予測する可能性が高い規則を一つ見つければ十分だ。

それに、クラスのバランスをとることでデータセットを変更することを防ぐ人はいない。

mytarmailS 2022.10.24 11:16 #27992

Aleksey Vyazmikin #:

ファーストクラスは30％以上ある。そして、たぶん、問題はないと思う。まれにではあるが、"0 "よりも "1 "を予測する可能性が高いルールリストを1つ見つければ十分 だ。

それに、クラスのバランスをとることで、誰もデータセットを変えることはできない。

あなたはcatbustに文句を言っていたが、catbustはtreerulelistではない。

Forester 2022.10.24 11:32 #27993

バランス調整が必要なのはNSだけです。木製モデルにはバランシングは必要ない。

Aleksey Vyazmikin 2022.10.24 11:38 #27994

mytarmailS #:

君はキャットバスターに文句を言っていたが、キャットバスターは木じゃない。

不満はアルゴリズムについてではなく、すでに咀嚼されたデータを与えた方が良いという事実についてだ。

以前、あなたは何とかそれを理解した...

取引、自動取引システム、取引戦略のテストに関するフォーラム。

トレーディングにおける機械学習：理論、モデル、実践とアルゴ-トレーディング

mytarmailS、2016.10.29 11時22分。

仮定の状況....

100の潜在的な予測変数があり、説明を簡単にするためにそれらを指標とします。

RSIが90を超え、ストキャスティクスがゼロ以下になったときです（もちろん、天井からの状況です）、 この状況は90％の確率で値下がりを もたらし、他のすべての予測要素は完全なノイズであり、予測要素のRSIとストキャスティクスにおける他のすべての状況も完全なノイズである。...

つまり、99.9%のノイズに対して、0.01%の有用なシグナルがあるということです。

あなたのMOが奇跡的に98の予測因子をすべて除外し、RSIとストキャスティクスの2つだけを残したとします。

RSIでは、RSI>0、RSI>13、RSI<85、RSI=0、RSI<145、................ MOは RSIとストキャスティクスに存在する全ての可能性のある 状況を考慮に入れてモデルを構築することになります。

さて、最終的にはどうだった？

モデル表現と目標比率がどう関係するのか正当化してください。私が言っているのは、モデルは近代化されたシート、つまりルールとして表現できるということだ。

Aleksey Vyazmikin 2022.10.24 11:41 #27995

elibrarius #:
バランス調整が必要なのはNSだけ。ツリーモデルはバランシングを必要としない。

これは良いデータの場合であり、いずれにせよアルゴリズム内部のカウンターが働き、割り当てられたターゲットの数を決定する...。

mytarmailS 2022.10.24 11:56 #27996

Aleksey Vyazmikin #:

ここでの特異性は、CatBoostモデルがすべての例を0.5未満の確率に割り当てることを好むことである。したがって、ターゲットを「1」に分類することはなく、0と0.5の間にあるものもあまりうまく分布しない。

ターゲットの100の例があるとして、5つのラベル（"A"）と95のラベル（"B"）。

とすると、モデルはラベル "A "の確率を0.5より大きくすることはできない。

個々のルールでは可能 だが、投稿にはcatbustと書かれており、これは1つのルールではなくモデル （ルールの予測値の合計） であり、合計がそのような高い確率を持つことはない。

たとえモデルが「A」マークだと確信していたとしても、である。Bのルールの方がはるかに大きいからである。

mytarmailS 2022.10.24 12:10 #27997

elibrarius #:
バランス調整が必要なのはNSだけです。木製モデルにはバランシングは必要ありません。

https://stats.stackexchange.com/questions/340854/random-forest-for-imbalanced-data

random forest for imbalanced data?

2018.04.16
MSilvy MSilvy 139 1 1 silver badge 8 8 bronze badges
stats.stackexchange.com

I have a dataset where yes=77 and no=16000, a highly imbalanced dataset. My plan was to identify the most important variables influencing the response variable using random forest and then develop a logistic regression model using the selected variable. I am planning to use...

Aleksey Vyazmikin 2022.10.24 12:15 #27998

mytarmailS #:

ターゲットの100の例に対して5点（A）と95点（B）がある場合

とすると、モデルはラベル "A "の確率を0.5より大きくすることはできない。

個々のルールでは可能 ですが、投稿にはcatbustと書かれており、これはモデル （ルールの予測値の合計）であって、単一のルールではなく、合計がそのような高い確率を持つことはありません。

たとえモデルが「A」マークだと確信していたとしても、である。A "のルールの確率の和は、"B "のルールの確率の和によって予測されすぎてしまう。

すべては予測変数とモデルの木の数に依存する。

私はトレーニングのためにCatBoostモデルにこだわらない。

Forester 2022.10.24 12:18 #27999

mytarmailS #:

https://stats.stackexchange.com/questions/340854/random-forest-for-imbalanced-data

https://www.mql5.com/ru/blogs/post/723619

16000件中77件は少なすぎる。77の例は代表的とは言い難い。
唯一の選択肢は、ツリーを深く研究することだ。

Нужна ли деревьям и лесам балансировка по классам?

www.mql5.com

Я тут читаю: Флах П. - Машинное обучение. Наука и искусство построения алгоритмов, которые извлекают знания из данных - 2015 там есть несколько страниц посвященных этой теме. Вот итоговая: Отмеченный

mytarmailS 2022.10.24 12:35 #28000

elibrarius #:

https://www.mql5.com/ru/blogs/post/723619

16000人中77人は少なすぎる。77の例は代表的とは言い難い。
唯一の選択肢は、その木を深く研究することだ。

この本はどうですか？

トレーディングにおける機械学習：理論、モデル、実践、アルゴトレーディング - ページ 2800