トレーディングにおける機械学習:理論、モデル、実践、アルゴトレーディング - ページ 57

 
ユーリー・レシェトフ
過剰な学習を防ぐことで、サステナビリティを実現するのです。そして、バランスの悪いトレーニングサンプルは、代表性の低いクラスのオーバートレーニングの原因となる可能性があります。結局のところ、学習アルゴリズムは、一般化可能性を高めるために必要なものではなく、自分が適切と考えるように行動しようとするのである。サンプルが不均衡な場合、最も代表的でないクラスの例が少なく、汎化する代わりに暗記することが最も簡単であるため、そのクラスの学習誤差を最小にすることができます。このような暗記学習では、学習サンプルの外では、最も代表性の低いクラスでアルゴリズムのエラーが発生する可能性が高く、何も驚くことはないのです。
トレーニングサンプルのバランスをとることに反対はしていません。私は、日付で区切ることなく、ランダムにサブサンプルを取って検証することに反対はしません。検証に関する指標を過大評価することになる。
 
アレクセイ・ブルナコフ

考え方はシンプルです。現実の取引では、未来からの観察結果を含む混合サンプルを取って、実際の取引の質を評価することは誰も許さないでしょう。すべての観測は、X日目以降に行われます。

したがって、バリデーションで混合サンプルを取る(日付の分離をしない)ことで、バリデーションでの品質指標を過大評価することになります。それだけです。そうすると、嫌な予感がするものです。

思想と何の関係があるのですか?思考は主観的なものです。思考は、正しいことも、意図的に間違っていることもある。なぜなら、イマジネーションは問題なく制限されるからです。真理の基準は、常に経験です。

2つのトレーニングサンプルを採取します。1つは事前にバランスが取れているもの、もう1つは非常にバランスが取れていないものです。両方のサンプルでアルゴリズムを学習させ、テストパーツで汎化能力を測定する。そして、汎化能力を比較する。一般化能力が最も高いものが、真偽の基準となる。

そうでなければ、私たちは脈がなくなるほど考え、推測することになるでしょう。結局のところ、意見の相違は議論の中で生まれ、真実は経験の中で生まれるのです。

というわけで、バランスの取れたトレーニングサンプルというテーマについて、これ以上議論するのはもうやめよう。そうでなければ、この合唱はいつまでも続くでしょう。2つの異なる意見があり、どちらがより正しく考えているかを測定し続けることは時間の無駄です。

 
ユーリー・レシェトフ
まあ、安定はオーバートレーニングの防止で達成されるのですが。そして、アンバランスなトレーニングサンプルは、代表性の低いクラスに対するオーバートレーニングの原因となる可能性があります。結局のところ、学習アルゴリズムは、一般化可能性を高めるために必要なものではなく、自分が適切と考えるように行動しようとするのである。サンプルが不均衡な場合、最も代表的でないクラスの例が少なく、汎化する代わりに暗記することが最も簡単であるため、そのクラスの学習誤差を最小にすることができます。このような暗記学習の後では、学習サンプルの外では、代表性の低いクラスでのアルゴリズムの誤差が最も発生しやすいのは当然である。

1.アンバランスなクラスでは、クラス間の誤差が数倍に乖離することもあり、大変なことになります。そして、どれが正しいのか?

2.クラスのバランスをとることは、常に可能とは言い難いのです。

BUY|SELLを使った例ですね。観測値(バー)の数が3000を超えると、アンバランスの差は10%、最大でも20%になります。バランスをとることは十分に可能です。

そして、ここでDr.Traderが 提案したのは、「Pivot/Not Pivot」というターゲット変数です。ZZからパクったんだろう。ですから、このターゲット変数では、アンバランスなクラスは桁が違うことになります。最大クラスまで増強すれば、そのようなバランスの取れたサンプルで授業ができるのでしょうか?ないようです。

だから、バランシングはそんなに単純な話ではないんです。

自分の体験から

  • アンバランスが大きくない場合(20%以下)、バランシングは必須です。
  • アンバランスが大きい(倍数)場合は、バランスをとることができないので、このターゲット変数を全く使用しない方がよいでしょう。

他の解決策は見つかりませんでした。

 
ユーリー・レシェトフ
真剣な顔で数字を弾けるように、すべてを捨ててRの熟練者になるんだ。
今のところ、あなたが数字を弾いていることに気づいていないのですが、顔はどうでしょう。
 
サンサニッチ・フォメンコ
今のところ、数字を弾くのは気がつかないけど、顔はどうかな〜。
さて、私のアバターは、かなり真面目な顔をしていますね。少なくとも私は、できるだけ真剣に取り組んだつもりです。でも、どうやらあまりうまくいかなかったようですね?
 
ユーリー・レシェトフ

思想と何の関係があるのですか?思考は主観的なものです。思考は、正しいことも、意図的に間違っていることもある。なぜなら、イマジネーションは問題なく制限されるからです。真理の基準は、常に経験です。

2つのトレーニングサンプルを採取します。1つは事前にバランスが取れているもの、もう1つは非常にバランスが取れていないものです。両方のサンプルでアルゴリズムを学習させ、テストパーツで汎化能力を測定する。そして、汎化能力を比較する。一般化能力が最も高いものが、真偽の基準となる。

そうでなければ、私たちは脈がなくなるほど考え、推測することになるでしょう。結局、意見の相違は議論の中で生まれ、真実は経験の中で生まれるのです。

というわけで、トレーニングサンプルのバランスをとるという話題はこれ以上やめようと思います。そうでなければ、2つの異なる意見があるため、このチョリバーはいつまでも続き、どちらが正しく考えているかを測定し続けることは時間の無駄です。

私はある意味で、あなたは別の意味で。私は、セットを厳密に日付で分けるべきだと思います。そして、バランスということですね。
 
アレクセイ・ブルナコフ
私はある意味で、あなたは別の意味で。私は、セットを日付で厳密に分ける必要があると言います。そして、バランスということですね。

申し訳ないが、もうこの合唱を続ける意味はないと思っている。バランスの欠点については、すでに例を挙げて説明したつもりです。おそらく、説得力がないのでは?私は黒のレトリックが苦手なので、真剣な表情で黒を白にするのは無理です。だから、あまり厳しく言わないでください。

むしろ、現実とのバランスを取るために「無理やり」納得させようとしているのでは?しかし、そんなつもりは毛頭ない。現実は、残念ながら私にとってはアンバランスなことが多く、バランスをとる機会がいつもあるわけではないことも知っています。ですから、私の投稿では、訓練標本以外の現実をバランスさせようとする必要はなく、訓練標本のバランスをとることが必要かつ十分であり、そこから得られるモデルが代表性の高いクラスの方向に偏ることはないということを説明しようとしたのです。一般的なサンプルを日付ごとに分割する場合も、バランスをとることができない場合が多い。だから、トレーニングサンプルのバランスは、日付ではなく、クラスの代表性が均等になるようにしているんです。

トレーニングセットのバランス調整については、これ以上お答えするつもりはありません。このコーラスはもう引きずっているんですね。

 
ユーリー・レシェトフ

申し訳ないが、もうこの合唱を続ける意味はないと思っている。バランスの欠点については、すでに例を挙げて説明したつもりです。おそらく、説得力がないのでは?私は黒のレトリックが苦手なので、真顔で黒を白にするのは無理です。だから、あまり厳しく言わないでください。

むしろ、現実とのバランスを取るために「無理やり」納得させようとしているのでは?しかし、そんなつもりは毛頭ない。現実は、残念ながら私にとってはアンバランスなことが多く、バランスをとる機会がいつもあるわけではないことも知っています。ですから、私の投稿では、トレーニングサンプルの外で現実のバランスを取ろうとする必要はなく、トレーニングサンプルのバランスを取ることが必要かつ十分であり、そこから得られるモデルが代表性の高いクラスの方向に偏ることはない、ということを説明しようとしたのです。一般的なサンプルを日付ごとに分割する場合も、バランスをとることができない場合が多い。そのため、トレーニングサンプルのバランスは、日付ではなく、クラスの代表性が均等であることを条件としています。

トレーニングサンプルのバランス調整については、これ以上お答えしません。だから、もう大騒ぎになっているんです。

OK .納得はさせない。
 

絵を完成させるために口を挟み、スレッドの上にある私の意見を再度述べたいと思います。

1.2つのデータセットが必要です。2つ目のデータは、1つ目のデータの時間的延長線上にあるものです。

2.1セット目のデータのバランスをとる。間違いなくバランスをとっています。

3.最初のデータセットをランダムにトレーニング、テスト、検証の3つのパートに分ける。

  • 学習データセットに対してクロスバリデーションを用いてモデルを学習させる。
  • 学習したモデルをテストセットと検証セットで実行する。
  • そうでなければ、誤差の差が大きいと、ノイズ予測変数(ターゲット変数との関係が弱い)の存在によってモデルが過剰に訓練されていることを証明するので、より適切な予測変数の検索に進みます。

4.第1セットの時間的な継続である第2セットでエラーを得る。

4つのセットの誤差がほぼ同じであれば、モデルは再トレーニングされない。もしエラーがきちんとした値を持っていれば、さらに安全に、つまりテスターを通して実行することができます。

有意差(30%以上)がある場合、元の予測器セットはモデルの再トレーニングにつながり、個人的な経験ではモデルの種類を入れ替えても、再トレーニングの点では何も解決しません。ノイズ予測器を排除する必要がある。予測変数の中にノイズ予測変数が全くない、ということも簡単に起こり得ます。

 
私はYuriさんのオプティマイザーを1年以上使っていますが、HSPFジェネレーターによるサンプリングについては全く同感なので、皆さんの会話を応援します。要は、出力される情報についての入力データの情報を特定する作業である。つまり、オプティマイザーは、我々の出力(理想的なもの)に対して、入力データがどれだけ有益であるかを教えてくれるのです。つまり、オプティマイザーはこの問いに答えるのである。そして、もしデータが悪い結果を示すなら、それは出力に関する情報を運んでいない、あるいはむしろ予測器が与える一般化のそのレベルまで運んでいることを意味する。そして、次のようなケースを想像してみよう。入力が10個あるとする。質問、サンプルをゼロに分割するためには、いくつのエントリ(ストロイ)を用意すればいいのでしょうか?ヒントをあげよう。10個の入力で100個の入力はゼロに最適化されるはずです。100件になると、データの総列挙になるからです。私の説明が足りなかったかもしれません、申し訳ありません。ユーリは確かに語りませんが、予測器を使うことで、宣伝していないけれども、どんなデータでも汎用性が高まるというニュアンスがありますね。すなわち、10個の入力に対して、100行が与えられた場合、システムデータと全く無関係なものであっても。このアルゴリズムは、一般化可能性が高いモデルを構築する。90%以上の範囲にある。このモデルは天井から取ったデータであり、システムとは一切関係がないため、将来的に十分に機能するかどうかは定かではありません。しかし、プレディクターは多次元空間を最小限の誤差でソーイングすることができるのです。しかし、そのためには、一つ厄介なデータ操作を行う必要があります。しかし、私はユーリに完全に同意します。このタスクは、出力に対する入力の情報性を識別することであり、この場合、データの順序は何の役割も果たさない。この場合、HSPFはオプションになりますが...。
理由: