トレーディングにおける機械学習:理論、モデル、実践、アルゴトレーディング - ページ 126

 
アンドレイ・ディク
誤解されているようですね。zzでも、他のインジケーターでも、ネットにエントリーする場所を教えない。訓練されたネットは、自分で入る場所を選びます。

やれやれ...。それじゃあ、わからないよ...。

 
mytarmailS:

何をどう関連付けるか?私もよくわかりません。

ここでやったのは、あなた以外にはいないと思います )

もう一度説明し、ネステッドクロスバリデーションについて読むことをお勧めします。

これは私の作品からの一例です。私は、非常に複雑なシステムのある工学的パラメータを予測する回帰 モデルを構築していました。

モデルの学習パラメータを調べ、クロスバリデーションのテストフォールドで最適なモデルを選択し、検証を行うのです。テストでは、合計100のモデルを選択しました(グラフ上の点)。これらはテストサンプルの中で最も優れたモデルです。何が違うかというと、使う予測変数が違うのです。

テスト時に十分に学習されていないモデルは、検証時にも十分に学習されていないことがわかります。テスト時と検証時の完全な学習済みモデルが学習される。テストでは高く、検証では低いという過学習の状態は全く存在しない。

選択したモデルのテストでの性能と検証での性能の間に相関があることがわかった。

予測変数の数を変化させることで、モデルはアンダーフィットからフルフィットに成長する。そして、この成長は、最適なモデルを選択したデータと、選択した最適なモデルを検証したデータの両方に共通するものである。一貫性がある!

つまり、検証で一番良かったモデルを1つだけ選ぶ(サンプル外)のではなく、複数のモデル学習を行い、テストによって選択し、検証での品質指標を比較したのです。これはネステッドクロスバリデーションです。このモデルは再トレーニングされません。クロスバリデーションで最適なモデルを選び、サンプル外メトリクスで最適なものを得ることができるんです。

そして、もし私がFXでのモデル性能のばらつきが検証でのモデル性能のばらつきを説明できないとすると、最適なモデルを選択するサンプル(この場合、クロスバリデーションテストでの平均品質)を持っていても、サンプル外での品質性能は予測できないのである。

つまり、モデル選択を行いながら、サンプル外選択手順そのものをテストしないことで、モデルのフィッティングを行っているのです。

私のような絵は、静止している一貫性のあるデータで出てきます。例として、センサーの過熱はすべてのケースでモデル化された値を劣化させるので、これを物理的に説明する。

金融の時系列をモデル化する場合、私はすでに2,000のモデルを選んで、テストサンプルでの品質指標が検証サンプルと相関しないことを示しました。

ネスティッドクロスバリデーションでは、異なるモデル(または異なる入力やパラメータを持つモデル)をユニークな学習サンプルで何度も学習させ、その後テストを行います。それぞれのユニークなサンプルに対して、最適なモデルが選択されます。その後、独自の検証用サンプルで再度テストします。この工程を何度も繰り返す。モデル自身とその選択手順が、サンプル内とサンプル外の結果に一貫性を与えることを示すために、外部のテスト層が必要である。

SanSanychやDr.などにも指摘したことがあります。博士は私を理解してくれた。SanSanSanychには伝わらなかった。

ですから、為替や他の金融市場でもこのような図式を実現すれば、本番ではテストカットオフの観点から最適なモデルを実行することができるのです。

 
アレクセイ・ブルナコフ

もう一度説明し、ネステッドクロスバリデーションについて読むことをお勧めします。

これは私の作品からの一例です。私は回帰モデルを構築し、非常に複雑なシステムの工学的パラメータを予測していたのです。

モデルの学習パラメータを調べ、クロスバリデーションのテストフォールドで最適なモデルを選択し、検証を行うのです。テストでは、合計100のモデルを選択しました(グラフ上の点)。これらはテストサンプルの中で最も優れたモデルです。何が違うかというと、使う予測変数が違うのです。

テスト時に十分に学習されていないモデルは、検証時にも十分に学習されていないことがわかります。テスト時と検証時の完全な学習済みモデルが学習される。テストでは高く、検証では低いという過学習の状態は全く存在しない。

選択したモデルのテストでの性能と検証での性能の間に相関があることがわかった。

予測変数の数を変化させることで、モデルはアンダーフィットからフルフィットに成長する。そして、この成長は、最適なモデルを選択したデータと、選択した最適なモデルを検証したデータの両方に共通するものである。一貫性がある!

つまり、検証で一番良かったモデルを1つだけ選ぶ(サンプル外)のではなく、複数のモデル学習を行い、テストによって選択し、検証での品質指標を比較したのです。これはネステッドクロスバリデーションです。このモデルは再トレーニングされません。クロスバリデーションで最適なモデルを選び、サンプル外メトリクスで最適なものを得ることができるんです。

そして、もし私がFXでのモデル性能のばらつきが検証でのモデル性能のばらつきを説明できないとすると、最適なモデルを選択するサンプル(この場合、クロスバリデーションテストでの平均品質)を持っていても、サンプル外での品質性能は予測できないのである。

つまり、モデル選択を行いながら、サンプル外選択手順そのものをテストしないことで、モデルのフィッティングを行っているのです。

私のような絵は、静止している一貫性のあるデータで出てきます。例として、センサーの過熱はすべてのケースでモデル化された値を劣化させるので、これを物理的に説明する。

金融の時系列をモデル化する場合、私はすでに2,000のモデルを選び、テストサンプルでの品質指標が検証サンプルと相関しないことを示しました。

ネスティッドクロスバリデーションでは、異なるモデル(または異なる入力やパラメータを持つモデル)をユニークな学習サンプルで何度も学習させ、その後テストを行います。各サンプルに対して、最適なモデルが選択されます。その後、独自の検証用サンプルで再度テストします。この工程を何度も繰り返す。モデル自身とその選択手順が、サンプル内とサンプル外の結果に一貫性を与えることを示すために、外部のテスト層が必要である。

SanSanychやDr.などにも指摘したことがあります。博士は私を理解してくれた。SanSanSanychには伝わらなかった。

ですから、FXやその他の金融市場でもこのような図式を実現すれば、テストセグメントの観点で最適なモデルを本番で動かすことができます。

まだわからない、ごめんね。

バリデーションファウル:テストファウルと同じファイルにあるのか、それとも全く新しいファイルでバリデーションが行われているのか?

PS.

クロスバリデーションとは、次のようなアルゴリズムのことである:ファイルを例えば10個のファールに分割する。最初の9でティーチング、10でバリデーション。そして、2-10で教え、1倍で検証するのです。そうして、検証を反則的に動かしていくのです。そうだろ?

 
SanSanych Fomenko:

まだ理解できない、ごめんなさい。

バリデーションファウル:テストファウルと同じファイルにあるのか、それとも全く新しいファイルでバリデーションが行われているのか?

PS.

クロスバリデーションとは、次のようなアルゴリズムのことです。ファイルを例えば10個のファールに分割します。最初の9でティーチング、10でバリデーション。そして、2-10で教え、1倍で検証するのです。そうして、検証を反則的に動かしていくのです。そうだろ?

はい。

10ファールに対してM1クロスバリデーションで1サイクルの学習、正しく理解できましたね。学習パラメータの各組み合わせについて:9ファウルで学習、遅延チェックで学習。だから10回。10フォールドの品質指標の平均値を得ることができた。仮にm1とします。

この手順をN回繰り返してみましょう(常に新しいデータをトレーニングとテストに追加します)。

ネスティッドクロスバリデーション(Nested Crossvalidation)。

M〜N回繰り返す。各サイクルMはユニークなトレーニングサンプルである。m1、m2、...を得る。異なるデータに対する学習と最適なモデルの選択の際に得られる品質の mn メトリクス。

アウターレイヤー。選択された各モデルMは、固有の検証サンプルでテストされる。k1、k2、...を得る。サンプル以外のknのテスト。

ポイントチャートM vs. Mを描いてみよう。K.クロスバリデーションでのモデル品質の変化が、サンプル外の品質をどのように決定するかについての推定値を得ることができる。

予測変数の選択について。もし、そのような膨大なデータを取得する能力がなければ、モデルの各サイクルNに一意の予測変数のセットを与えればよい。テストと検証で、選択した予測変数によってモデルの性能に一貫性があるかどうかをテストしていただきます。大雑把に言うと、テストで十分に訓練されていないモデルは、検証でも悪い結果を出すはずである。テスト時に過剰に学習させたモデルは、検証時にはより悪い結果をもたらします。

 
アレクセイ・ブルナコフ


この錯覚で15年の半分を潰した。モデルの検証は、トレーニング、テスト、検証の手順とは全く関係のないデータに対してのみ行う必要があります。該当する計算結果を調べるのが億劫なんです。でも、お書きのようなガラケーのせいで、半年も無駄にしてしまいました。

 
サンサニッチ・フォメンコ

モデルの検証は、トレーニング、テスト、検証の手順とは全く関係のないデータに対してのみ行う必要があります。

Brrrrr。

それが本来の姿なんです!検証は、延期されたサンプリング(というか、ネストされたアプローチについて話している場合は、サンプル)上で行われます。

どんな錯覚?いずれにせよ、このアプローチは、1サンプルのモデルフィッティングよりも客観的である。

 
アレクセイ・ブルナコフ

Brrrrr。

そういうものなんだ!」と。検証は、遅延したサンプル(ネストされたアプローチについて話している場合は、むしろサンプル)に対して行われます。

どんな錯覚?この方法は、いずれにせよ、1サンプルのモデルフィッティングよりも客観的である。

あなたが一番よく分かっているはずです。

私には効果的です。ノイズ予測器を取り除けば、6月のデータで学習したモデルが7月のデータでも使えるようになり、7月のデータでモデルを学習させると、6月に学習したモデルで7月に使った予測と同じ誤差が出るようになるのです。これが再教育の不足というものです。

 
サンサニッチ・フォメンコ

あなたが一番よく分かっているはずです。

すべて私に合っています。ノイズ予測器を取り除けば、6月のデータで学習したモデルは7月のデータでも機能します。7月のデータでモデルを学習させると、その7月のデータでの学習の誤差は、6月に学習したモデルで7月に使用した予測と同じになります。これが再教育の不足というものです。

これが2ヶ月の例ではなく、常時動作しているとしたら、それはそれでアリかもしれません。

ジグザグ膝に所属して、何を教えているのですか?この特定のターゲットが一貫してよく学習していることを否定はしませんが、ニーに属すると正確なインプットが得られません。それが問題なんです。1日先のボラティリティをかなり正確に予測できるのですが、取引では何も出てきません。

 
アレクセイ・ブルナコフ

これが2ヶ月間という例ではなく、常時動作しているとしたら、それはそれでアリかもしれません。

ジグザグ膝に所属して、何を教えているのですか?この特定のターゲットが一貫してよく学習していることを否定はしませんが、ニーに属すると正確なインプットが得られません。それが問題なんです。1日先のボラティリティを正確に予測することはできますが、取引では何の役にも立ちません。

ターゲットの欠点は、モデルのオーバートレーニングを判断する方法論とは関係ない。ターゲットやプレディクターが不明な注文を何度か実行したことがあります。ノイズ予測器を取り除けば、どこでも同じ結果になる。
 
サンサニッチ・フォメンコ
ターゲットの欠陥は、モデルのオーバーフィッティングを判定する手法とは関係ない。

勘違いしているのでは?ノイジーラベル(ゼレフカ)は、テストで見たものと、将来見ることになるものとの間に不協和音を生じさせます。そのような場合のために、入れ子式の検証など、さまざまな工夫がなされているのです。テストでは、いくつかの代替モデルのうち、より悪いものを選ぶべきだということを証明するアプローチもあります。

ノイズ予測器を取り除けば、どこでも同じ結果になる。

どのように判断されたのでしょうか?当時未知であった未来に対して、予測器のパフォーマンスを追跡したのでしょうか?

理由: