トレーディングにおける機械学習:理論、モデル、実践、アルゴトレーディング - ページ 3170

 
fxsaber #:

これは、テスターのほとんどすべてのユーザーが見る写真である。、ー解説がー

この写真では、統計的有意性がかなり高い。

私は、これがサンプル内の市場変化の影響であると推測している。例えば、Sampleは当初は実際のパターンを持っていたが、その後何も持たなくなった。しかし、フィッティングはサンプル全体で起こった。

このようなSample内の破綻は何とか避けなければなりません。


逆の効果も起こりうる:左のOOSは下、右のOOSは上。つまり、Sampleの最初の部分にはパターンが見つからず、フィッティングだけが見つかった。

オーバートレーニングか非定常性だろう。もちろん、生データやアルゴリズム自体に問題がある場合は別だが。

私は通常、問題を少し「動かして」みます。可能なパラメータ(および利用可能なメタパラメータ)をすべて少し変えてみて、結果がどう変わるか見てみます。、、、、、人によっては、人

 
mytarmailS #:
もし、OOSでもトレーニングのように利益が得られるのであれば、この効果(OOSへの流出)は市場だけに内在するものであり、さらに仮説を立てることができる。

トレーディング、自動トレーディング・システム、トレーディング戦略のテストに関するフォーラム。

トレーディングにおける機械学習:理論、モデル、実践、アルゴ・トレーディング

fxsaber, 2023.08.16 11:38 AM

このようなナンセンスなことが起こります。左側のOOSは通過し、右側には - しない。そして、右側は文字通りすぐに "ダイブ"。

OOSが左を通過するのがわかりますか?

 
fxsaber #:

左側にOOSが通っているのが見えるだろうか?

私たちは右の効果について話している

実験を完全に複製するが、合成データを使用する。


======================================

左の OOSも フィットであるが、一種の2次のものである。


TCのバリエーションが一般的に1000種類しかないと想像してください。


ステップ1と2

1) 良いTSを最適化/検索し始める。これが訓練 データ(適合/検索/最適化)である。

TCが儲かる300のバリエーションを見つけたとしよう...

2) さて、あなたはこの300のバリアントの中から、テスト データでOOSに合格するTCを探しています。トレーンと テストOOS)の両方で稼げるTCを10個見つけたとします。


では、ポイント2は何ですか?

最適化の条件が1つ(テストに合格)ではなく、2つ(テストに合格+ テストに合格)になっているから です。

 
fxsaber #:

これは、テスターのほとんどすべてのユーザーが見る写真である。その説明に興味がある。

この写真では、統計的有意性がかなり高い。

私は、これがサンプル内の市場変化の影響であると推測している。例えば、Sampleは当初は実際のパターンを持っていたが、その後何も持たなくなった。しかし、フィッティングはサンプル全体で起こった。

このようなSample内の破綻は何とか避けなければなりません。


逆の効果も起こりうる:左のOOSは下、右のOOSは上。つまり、Sampleの最初の部分にはパターンが見つからず、フィッティングだけが見つかった。

OOSは常に右でなければならない。

OOSが左の場合、TCがオーバートレーニングでなく、前を見ていないことを保証する方法はない。これらは、TCをテストする際に、他の何よりも先に取り組むべき最初の大きな問題である。


あなたはどれを持っていますか?違いはありません!どちらか一方であろうと、両方であろうと関係ない。正しくテストする必要があります。

そして、テスターのことは忘れて、次のようにテスト用のファイルを作成したほうがいい:


2つのファイルがあります。


最初のファイルは、トレーニング、テスト、検証の3つの部分にサンプルによってランダムに分割されています。ランダムな)トレーニング・サンプルで勉強し、次にランダムなテスト・サンプルとバリデーション・サンプルでチェックする。結果を比較する。それらがほぼ等しければ、2番目の「自然配列」ファイルでチェックする。ここでもほぼ同じであれば、主な結論が得られる。この結論があって初めて、それ以外のこと、つまり精度や収益性、その他のことについて話す意味がある。


先読みと再訓練をチェックする他の方法は、実はないのです。

 
fxsaber #:

こういうこともある。左のOOSはパスし、右はパスしない。そして右側では、文字通りすぐに "ダイブ "する。


よくあることだ。

つまり、文字通りすぐに大きくダイブする。急降下の性質は明確ではない。私はSBに近いものであるべきだと思うが、そのような写真を頻繁に見かける。


最適化後に逆転TCを実行すると、ドレインしないこともあるような気がする。

Pハッキング(またはデータ・ドレッジング)とは、研究者が統計的に有意な結果を見つけるまでデータを分析する統計的手法である。データから有意な関係や違いを見つけるために、分析のパラメーターを変えたり、特定のデータだけを選んだり、複数の比較を行ったりする。これは偽陽性を引き起こし、科学的結論を歪める可能性がある。P-ハッキングは科学的不正行為の一形態であり、誤った前提に基づく誤った推奨や決定につながる可能性がある。


***ご指摘の通り、その逆も起こり得ます。
 
fxsaber #:

左側にOOSが通っているのが見えるだろうか?

トレーニング期間を短くした場合、チャートのトレンド反転は早く起こるでしょうか?

私はティック・ストラテジーについて詳しくはありませんが、この動作の要因の1つは、トレーニング中に比較可能なデータがないことです。

どのような学習方法を使っているのか分かりませんが、ツリーシステムであったり、条件付き指標(関数)の範囲をクランプするだけのフィルターであったりする場合、そのような範囲のそれぞれに該当する例の数を見積もる価値があります。

考えられる状況は、データのドリフトと、フィルター/リストの確率結果分布のシフトである。

例えば、トレーニングのためにあるサンプルで量子セグメントを選択し、他の2つのサンプルでそれらの分布(ターゲット0||1に対する正答と誤答のパーセンテージ)を推定すると、3つのサンプルで安定性基準を満たすことが25%~30%の範囲で発見されます - この場合、モデルが不安定な予測子を選択する可能性が高くなり、いずれかのサイトで機能しなくなることは明らかです。

結局のところ、すべては単純な規則性を分析すること、すなわち、望遠鏡で彗星の尾をランダムに観察するのではなく、それをそのように考える理由を探すことに帰着する。

 
fxsaber #:

左側にOOSが通っているのが見えるだろうか?

システムはどのくらい利益を維持しますか?

右のOOSに鋭いプラムがあるとき、私はそれが発見された市場パターンの急激な180度の反転と直接関連しているとは思いません(それは、再トレーニングや調整のような実際の問題ではなく、神秘的な性質、ブードゥー教の実践の適用、一般的なものの理由を示すでしょう。)通常は、Maxが上記で述べたように、偽陽性(または偽陰性)を引き起こすコードのエラーによるものであり、それを修正することで、最悪の場合はOOSの右のランダムな挙動(オーバートレーニング)、最良の場合は収益性の漸進的な衰退(発見されたパターンの衰退および/またはその漸進的な変化)につながる。

 
Andrey Dik #:

システムはいつまで収益性を維持できますか?

私は、右側のOOSで急激な急落があるとき、システムの同じような動作に遭遇したことがあります。私は、それが発見された市場パターンの180度の急激な反転と直接関連しているとは思いません(それは、再トレーニングや調整のような実際の問題ではなく、神秘的な性質の理由、ブードゥー教の実践の適用、一般的な何かを示すでしょう。)通常は、Maxが上記で述べたように、偽陽性(または偽陰性)を引き起こすコードのエラーによるものであり、それを修正することによって、最悪の場合はOOSの右のランダムな挙動(オーバートレーニング)、最良の場合は収益性の漸進的な衰退(発見されたパターンの衰退および/またはそれらの漸進的な変化)につながる。

そして、TSが多くのパラメータを持つか、非常によくフィットしている場合、ディップは常に鋭くなる。なぜなら、それは「薄く」機能したからである。パラメーターの数が多いと誤差が大きくなり、それが積み重なっていく。TSを粗くし、パラメーターを少なくするだけでも、テスターではそれほど美しくないが、よりスムーズに崩壊する。

マーチンゲールのポーカーで例えることができる。失敗したポジションの数が多い。それを大量の失敗したパラメータか何かに置き換えてみよう。結果は同じだ。

なぜならπハッキングは問題を解決するのではなく、問題を一掃してしまうからだ。バイアスを減らして分散を増やし、またその逆も同様です。エラーはまだそこにあり、ただ隠されているだけなのだ。
 

テストと試験のサブサンプルのグラフを視覚化し、電車をカットした。

実際には、これらは列車→テスト→試験という時系列セクションである。

gifを見た後、テストと試験のサンプルは、どの方向にも傾向があるというよりも、むしろ振動の振幅を小さくしていることが明らかになった。

しかし、よく見ると、これらのサンプルではいくつかの反復で改善が見られる。つまり、これらは異なるサンプルで安定性を示すルール(量子セグメントの形)であると推測できる。また、異なるセクションは反復ごとに異なる変化をすること、つまり、テストでの改善が試験での改善と直接的な相関関係がないことにも注目できる。

上に書いたように、これは個々の量子セグメントのクラスに属する確率の偏りが変化することで説明できる。

量子セグメント自体は、ターゲット信号をスキップする、つまりゼロにするための信号として、言い換えればサンプルを2つに分割するための信号として、そのコストの見積もりによって選択される。つまり、誤信号を減らすためのコストが推定される。各反復で再計算が行われ、価格が最も低い variant が取り除かれます。

以下は、ある計算方法によって価格がどのように変化するかを示しています。下の図は各点が量子セグメント(軸xはシーケンス番号)です。

最初の反復で価格がランダムに選択された場合、テスト/試験サンプルで結果は大きく変わるでしょうか?

 

反復4と5の間に、テストサブサンプルがターゲットの正答数を劇的に失い、すぐに試験サンプルとの乖離(デルタの増加)につながることがわかります。


理由: