トレーディングにおける機械学習:理論、モデル、実践、アルゴトレーディング - ページ 56

 
アレクセイ・ブルナコフ
数年後このスレッドに、彼女の結果が書かれています。
リンク先を教えてください。
 
ヴァディム・シシュキン
リンク先を教えてください。
全体のトピックは結果論です。
 
ユーリー・レシェトフ

少なくとも、一般的なサンプルで一様な分布を持つサンプルをランダムにシャッフルして分割するのではなく、日付ごとにトレーニングサンプルとテストサンプルに厳密に分けることで、そのようなことが可能になります。ある部分には縦方向のトレンドが多く含まれ、他の部分には横方向のトレンドが含まれるということがあります。ランダムミキシングを適用すると、サンプルの異なる部分に類似したパターンが集まる確率が低下する。

ちなみに、このような欠点はMetaTraderの内蔵ストラテジーテスターにも あり、トレーニングサンプルとフォワードテストを厳密に日付で分けている。そのため、分水嶺に近い市場動向の変化は、意図的なオーバートレーニングにつながることもある。

これが実験計画の重要なポイントです。現実には、厳密な時間の区切りがあります。こうして、完全な意味での未来志向でモデルが試されるのです。

私もこれを持っています。検証の結果、相場は下落が優勢で、ショートのオーバーシュートがあります。まあ、将来的には優勢になる可能性もありますが。何が起こるかわからない。
 
ヴァディム・シシュキン
そこであなたは、立派なトレーダーと同じように、答えを口にした。
宇宙の答えとでもいいましょうか。
 
アレクセイ・ブルナコフ
これが実験計画の重要なポイントです。現実には、時間的に厳密な区切りがあるのです。そうやって、完全な意味での未来志向のモデルが試されているのです。

私もこれを持っています。検証の結果、相場は下落が優勢で、ショートのオーバーシュートがあります。まあ、将来的には優位に立つかもしれませんが。何が起こるかわからない。

これはアンバランスサンプルと呼ばれ、機械学習の問題である。

分かりやすくするために、例を挙げます。例えば、上昇トレンドが 優勢な学習サンプルがあり、下降トレンドは上昇トレンドよりもサンプル中に少ない、つまりアンバランスな状態であるとします。

仮に、サンプルに1,000回の下降と10,000回の上昇の動きがあったとします。そして、上方への移動の分類誤差を10%とする。しかし、10,000例に対してその10%は、下降を予測したと分類された1,000個の誤ったシグナルに相当し、サンプルには下降を示す1,000例しかないのです。つまり、いくら下降の分類が正確でも、将来の動きが下降の可能性があると予測する分類器の反応には、その誤差が少なくとも50%あることになる。つまり、あるクラスの学習サンプルが不均衡であればあるほど、そのクラスに対する誤判定が他のクラスに対する分類器の応答の品質に与える影響は大きくなります。

そのため、地震、火山噴火、経済危機などの希少な現象を予測することは非常に困難である。なぜなら、現象が非常に稀で、サンプルに反映されない場合、稀な現象では、反対クラスの例に対する誤差が過大になるからです。

したがって、学習サンプルは、すべてのクラスについて同じ数の例を含むように、あらかじめバランスされている必要があります。そうでなければ、代表性の低いクラスはトレーニングセット外のテストで不合格になる可能性が高くなります。また、一般的なサンプルをトレーニング部分とテスト部分に分ける際、一方では類似の予測因子、他方では異なる予測因子を持つ例が混在しないように、一様な確率分布を持つPRNGを用いて例を混合する必要がある。つまり、従属変数だけでなく、予測変数のバランスが崩れないようにするためです。

 
ユーリー・レシェトフ

これはアンバランスサンプリングと呼ばれ、機械学習の問題である。

分かりやすくするために、例を挙げましょう。例えば、学習サンプルがあり、上昇トレンドが 優勢で、下降トレンドが上昇トレンドより少ない、つまりアンバランスな状態であるとします。

仮に、サンプルに1,000回の下降と10,000回の上昇の動きがあったとします。そして、上方への移動の分類誤差を10%とする。しかし、10,000例に対してその10%は、下降を予測したと分類された1,000個の誤ったシグナルに相当し、サンプルには下降を示す1,000例しかないのである。つまり、いくら下降の分類が正確でも、将来の動きが下降の可能性があると予測する分類器の反応には、その誤差が少なくとも50%あることになる。つまり、あるクラスの学習サンプルが不均衡であればあるほど、そのクラスに対する誤判定が他のクラスに対する分類器の応答の品質に与える影響は大きくなります。

そのため、地震、火山噴火、経済危機などの希少な現象を予測することは非常に困難である。結局のところ、ある事象が非常にまれで、サンプルにまばらにしか表されていない場合、反対のクラスの例に対する誤差は、まれな事象に対して過剰になります。

したがって、学習サンプルは、すべてのクラスについて同じ数の例を持つように、事前にバランスさせる必要があります。そうでなければ、代表性の低いクラスはトレーニングセット外のテストで不合格になる可能性が高くなります。また、一般的なサンプルをトレーニング部分とテスト部分に分ける際、一方では類似の予測因子、他方では異なる予測因子を持つ例が混在しないように、一様な確率分布を持つPRNGを用いて例を混合する必要がある。すなわち,従属変数だけでなく,予測変数の不均衡を避けるためである.

ユーリー 言いたいことはわかる。訓練時と検証時のサンプリングは確かにアンバランスになる可能性があります。しかし、実際には、バイアスが非常に強くかかっている可能性のある未来を取引しているのです。そして、そのような結果に強い戦略である必要があります。
 
ユーリー・レシェトフ


したがって、学習サンプルは、すべてのクラスの例を同じ数だけ含むように、あらかじめバランスされている必要があります。そうでなければ、代表性の低いクラスはトレーニングセット外のテストで不合格になる可能性が高くなります。また、一般的なサンプルをトレーニングパートとテストパートに分ける際、一方のパートでは類似の予測因子、他方のパートでは異なる予測因子を持つ例が混在しないよう、一様な確率分布のPRGPを用いた例を混合する必要があります。すなわち,従属変数だけでなく,予測変数の不均衡を避けるためである.

キャレットパッケージ

一対の機能。downSample/upSample - オブザベーションの数を減少/増加させ、完全にバランスのとれたクラスを取得します。ダウンサンプル/アップサンプルは、単純なランダムサンプリングアルゴリズムに基づいています。

PS.

レシェトフ!

Rの勉強を始める。平凡な言葉が多くなってきましたね。

 
サンサニッチ・フォメンコ

レシェトフ!

Rの勉強を始める。平凡な表現が多くなってきたね。

真剣な顔で数字と戯れるために、すべてを捨ててRの達人になる。
 
アレクセイ・ブルナコフ
Yuriさん、わかりました。確かにトレーニング時と検証時の両方でサンプルがアンバランスになることがあります。しかし、実際には、バイアスが非常に強くかかっている可能性のある未来を取引しているのです。そして、そのような結果に抵抗力のある戦略であるべきです。
潜在的な過学習を防ぐことが、安定を得るための唯一の方法だからです。そして、バランスの悪いトレーニングサンプルは、代表性のないクラスに対するオーバートレーニングの原因となる可能性があります。結局のところ、学習アルゴリズムは、一般化可能性を高めるために必要なものではなく、自分が適切と考えるように行動しようとするのである。サンプルが不均衡な場合、最も代表的でないクラスの例が少なく、汎化する代わりに暗記することが最も簡単であるため、そのクラスの学習誤差を最小にすることができます。このような暗記学習をした後では、学習サンプルの外では、代表性の低いクラスでアルゴリズムのエラーが最も発生しやすいということは、何も不思議なことではありません。
 

日付の範囲にこだわらない - 正確に日付でデータを分ける(X日以前はトレーニング、X日以降はバリデーション)

ポイントはシンプルです。現実の世界では、実際の取引の質を評価するために、未来からの観察と過去からの観察を含む混合サンプルを取ることを誰も許さないでしょう。すべての観測は、日 x 以降に行われます。

したがって、バリデーションで混合サンプルを取る(日付の分離をしない)ことで、バリデーションでの品質指標を過大評価することになります。それだけです。そうすると、嫌な予感がするものです。

理由: