トレーディングにおける機械学習：理論、モデル、実践、アルゴトレーディング

Aleksey Vyazmikin 2023.08.17 11:41 #31751

fxsaber #:

もちろん、さまざまだ。しかし、サンプルの直後に故障が見られることは非常に多い。おそらく認知の歪みで、何かに注意を払うと、それがあまりにも頻繁に起こるという印象を受けるのだろう。

もしそれが頻繁に起こるのであれば、世界的なパターンが変化することに疑問の余地はないはずで、そうでなければブレークポイントは同じ日付の前後になるはずだ。

しかし、純粋に統計的に見れば、発生頻度が変化しているのかもしれない。つまり、古いパターンが引き続き作動しているが、モデルにとっては新しいパターンも存在しているのである。たとえば、ボラティリティが大きく変化し、コード（条件付き予測変数）がいくつかの固定値を持つか、またはそのようなボラティリティのオブザベーションがほとんどない - 訓練中または他の範囲ではずっと安定していた．言い換えると、（新しいデータが収集された場合）新しいオブザベーションがサンプルの中で成長します - ここでは、そのようなイベントの出現を検出するメカニズムが必要です。

その逆も起こりうる-戦略がまれな事象に基づいて構築され、そのトレンドが1年以上続く場合である。最近、私はそのような奇跡的なEAの構築を見てもらった。

その人は、2016年以降のEAの動作履歴（金の成長）しか見ておらず、何かが壊れており、MOの助けを借りて正しいチャートブレイクダウンを最適化する必要があると訴えていました。

ボンネットの下では、それぞれが平均100のシグナルを与える、つまり実際には履歴上の異なるインジケータによって検出された排出が発見され、共通のグループに統合された12個のインジケータがあることが判明しました。これらの異常値は、今後も同じ確率で履歴上で繰り返されるのだろうか？

はい、統計的には異常値ですが、異常値でない異常値もあります。

fxsaber#：

このチャートは3年間の日々の取引を示している。

ティックでは多いように見えますが、私はもっと大きなレンジを使っています - 分足で10年から、シグナルは最初はそれほど頻繁ではありません - ベースとなるシグナルがあります。

fxsaber#:

私がしなかったことは、各レンジのチャートを作ることでした。私は統計データを数えたが、チャート自体は見ていない。

パターンの動態を見てください - 多くの場合、それらは比較的短い時間間隔にあった塊である可能性があります - サンプルに相対して、パターンの観測が全区間にわたって繰り返される傾向があるならば、それは良いことです。

もう1つのニュアンスは、同じCatBoostで - 新しいデータでは約50%の葉が枯れる、つまりモデルが構築されたパターンが発生しなくなる。

fxsaber＃：

ハイライトされた部分を理解できませんでした。

他の2つのサンプルは、トレーニングが行われたサンプルに続くテストと試験です。

つまり、新しいパターンがテストサンプルで改善されない場合、改善のための反復が停止されます。そして試験 - 単にモデルの独立したテストです。理想的には、学習とテストによって試験で成功するモデルを選択することを学ぶべきです - これは別の問題です。

そしてもちろん、モデル選択のタスクが解決されれば、必要であればトレーニングのサンプルを増やすことができますし、少なくともトレーニングサンプルとテストサンプルを現在の日付に近づけることができます。

Aleksey Nikolayev 2023.08.17 15:45 #31752

Aleksey Vyazmikin #:

どのような有意性検定を提案しますか？私は量子セグメント選択のアルゴリズムが完璧だと言っているわけではない。

また、量子セグメントの選択とは、量子セグメント（つまり私が作成したグラフ）によって訓練なしでうまくスクリーニングされた文字列のことですか？はい、この方法は木製のモデルを作る一般的なアプローチとは少し違いますが、コンセプトは変わりません。

SBの例については、2つの考慮点があります：

1.1.プロセスが不明で、データしかない場合、トレードに最適な時間帯があるというパターンを取ることができる。それとも、この仮説を否定するような考察があるのでしょうか？

2.これらの観測が時間（イベント履歴）にわたって比較的均等に分布していたとすれば、これは乱数発生器のエラーに近い。

トレーニングでは、私は長期間のサンプルを使用します-通常は少なくとも10年間です。

私の実験を修正することを提案しよう。1から10までの数字が書かれた10個の箱と、100個の白いボールと100個の黒いボール（10と100の数字は条件付き）があるとする。そして、それぞれの箱に何個のボールが入っているかを調べ、配列のアルゴリズムに規則性があるかどうか、つまり、どの番号の箱ではどの色のボールが優勢かを理解しようとする。

つまり、（両方の色の）ボールを無作為に、0.1の確率で、いずれかの引き出しに入れるだけでは、結局、色の比率に均一性はない！ほとんどの場合、ほとんどすべてが白の箱と、ほとんどすべてが黒の箱が存在することになる。この問題はDSPの品質には全く関係なく、本物の量子DSPを使えばすべてが同じになる。これは確率的ランダム性の本質に関わる問題なのだ。不規則性は常に存在するが、それが次のレイアウトで見つかる箱の数は絶対に予測できない。先ほどの曜日の例でも同じである（曜日の時間はボックス番号のアナログである）。

これには2つの方法がある。確率が均等である場合よりも、実際の不均等性がはるかに大きいことを示そうとする方法である。これはある種の統計的検定によって行われる。あるいは、不均一性は小さいとはいえ、ノイズのために弱く現れているに過ぎない何らかの規則性によるものだと確信することだ。しかし、それは信念と実践の問題であり、うまくいけばOKだ。

箱の数字（1週間の時間）が、あなたのクアンタのアナロジーであることが明らかになったかと思います。

Aleksey Vyazmikin 2023.08.17 16:41 #31753

Aleksey Nikolayev #:

私の実験を修正することを提案しよう。1から10までの数字が書かれた10個の箱と、100個の白いボールと100個の黒いボール（10と100は慣例的な数字）があるとする。そして、それぞれの箱に何個のボールが入っているかを調べ、その配列のアルゴリズムに規則性があるかどうか、つまり、どの番号の箱にはどの色のボールが多いかを理解しようとする。

つまり、（両方の色の）ボールを無作為に、0.1の確率で、いずれかの引き出しに入れるだけでは、結局、色の比率に均一性はない！ほとんどの場合、ほとんどすべてが白の箱と、ほとんどすべてが黒の箱が存在することになる。この問題はDSPの品質には全く関係なく、本物の量子DSPを使えばすべてが同じになる。これは確率的ランダム性の本質に関わる問題なのだ。不規則性は常に存在するが、それが次のレイアウトで見つかる箱の数は絶対に予測できない。先ほどの曜日の例でも同じである（曜日はボックス番号のアナログである）。

これには2つの方法がある。確率が均等である場合よりも、実際の不均等性がはるかに大きいことを示そうとする方法である。これはある種の統計的検定によって行われる。あるいは、不均一性は小さいとはいえ、何らかの規則性によるものであり、それがノイズのために弱く現れているだけであることを確かめる。しかし、それはすでに信仰と実践の問題であり、うまくいけばOKだ。

箱の数字（1週間の時間）が、あなたのクアンタのアナロジーであることが明らかになったかと思います。

もし我々がSBについて話しているのであれば、どのようなモデルについて話すことができるのか。モデル（木製またはニューラル）の本質は、データのパターンを見つけることだからだ。

一つの箱の中に同じ色のボールが多数存在することがあるという事実について、私は10回実験を行い、そのたびに結果を得ます（サンプルを10分割します）。実験を10回行った後、同じ箱の中にある色のボールが他の箱よりも多く見つかる確率はどれくらいでしょうか？

このケースに合うような統計的検定を他に知っていますか？

何事も、SBでプラスアルファを確信することはできませんが......。

確実性を増す方法を探しています。

また、私は、選択された量子セグメントには、予測変数の他の部分よりも非ランダム分割の可能性があると仮定しています。私はこのようなセグメントを抽象的に、玉石の中にある貴重な鉱物・金属の鉱脈のように捉えているのですが......。

Aleksey Vyazmikin 2023.08.17 17:22 #31754

どうすれば分かりやすいか分からないので、2つの木の分裂を模式的に示している。

2本の棒は2つの予測因子で、縦棒は時間を象徴しています（ただし、正確に再現したわけではありません）。

太い線は、木モデルによる予測変数の分割の標準的な場所です。

番目の予測変数（図の左）は、2から3までの範囲に最大のユニットの蓄積があることを示しており、私はそれを色で強調しました。

最初の分割の後、最初の分割から残った数字を青っぽい色で強調しました（ユニットが枝に沿って行った右の部分とします）。

つまり、最初の分割の後に残ったユニットの合計を数えると、分割はちょうど真ん中で行われ、1から2まで含まれるように分割されるはずだが、最初の列には、4と同様に、絶対的に反応に関する最も弱い統計的指標が含まれており、それぞれ8しかないが、中央のものには10と12が含まれている。量子カットオフにより、1列目と4列目は一方に、2列目と3列目は他方にシフトすることができ、量子カットオフを行わない場合よりも合計で1単位だけ少ないが、この範囲では最初に8単位多く観察され、これは有意と思われる。つまり、この範囲には隣の2つの範囲よりも多くのユニットが含まれ続けると予想される。

量子区分選択の考え方の本質を説明できましたか？

補足しておくと、これは慣例であり、算術的な誤りを許容するものである。重要なのは文章と論理であって、ここでは数字ではない。

Aleksey Vyazmikin 2023.08.17 17:46 #31755

まあ、日常用語では -162 と +162 の範囲を持つ予測器を持っている - 信号を送信します。

量子セグメント検出の助けを借りて、私たちはレベルの範囲を見つけることができ、より頻繁に発生する打つとき、例えば、下のレベルにバウンスします。レベルの近くにない残りのセクションは、単に順番に分類することができます。そして、それは1つの予測が、異なる目的のためにデータを表現する2つの方法があることが判明 - オプションとして。

Aleksey Nikolayev 2023.08.17 17:52 #31756

Aleksey Vyazmikin #:

このケースに当てはまるような統計的検定を他にご存知ですか？

最も普遍的なものはモンテカルロ法でしょう。明らかに分離不可能なクラスが存在する状況を繰り返しシミュレートし、量子が平均してどのような振る舞いをするかを見るのです。もし何かが見つかれば、それは自滅です。

明白に不可分のクラスは、特徴と同じ分布で生成されたサンプルを取ることによって得ることができます。

Aleksey Vyazmikin 2023.08.17 18:03 #31757

Aleksey Nikolayev #:

最も普遍的なものはモンテカルロ法だろう。明らかに分離不可能なクラスの状況を繰り返しシミュレートし、量子が平均してどのように振る舞うかを見る。もし何かが見つかれば、それは自己欺瞞である。

明白に不可分のクラスは、特徴と同じ分布で生成されたサンプルを取ることによって得ることができる。

モンテカルロは、シーケンスを混ぜ合わせ、ランダムに文字列を得ることである。そして、配列がランダムでないと仮定するならば、配列を混ぜることはおそらく正しくない......。時系列ではランダムではないし。もう少し詳しく説明してもらえますか？

そのようなテスト用のサンプルをcsvで作ってもらえますか？Rで十分速いと思います。そうでなければ、もう一日コードを書くことになるし、うまくいくかどうかもわからない。

Aleksey Nikolayev 2023.08.17 18:15 #31758

Aleksey Vyazmikin #:

モンテカルロとは、配列を混ぜてランダムに文字列を得ることである。そして、配列がランダムでないと仮定するならば、配列を混ぜることはおそらく正しくない......。時系列ではランダムではないし。もう少し詳しく説明してもらえますか？

このようなテスト用のサンプルをcsvで作成できますか？Rで十分速いと思います。そうでなければ、もう一日コードを書くことになるだろうし、うまくいくかどうかもわからない。

統計ライブラリには、異なる分布のサンプルを生成する関数があります。例えば、1列目に符号として200の正規サンプルを生成し、2列目に0.5の確率で無作為選択によってマークを作ることができます。

これをパッケージの中でどうにか自動化できればもっといいのですが、何度もやって、そのたびに何かを計算しなければならないので、それはあなただけが知っていることです。

Aleksey Vyazmikin 2023.08.17 18:56 #31759

Aleksey Nikolayev #:

統計ライブラリには、異なる分布のサンプルを生成する関数があります。例えば、1列目に符号として200の正規サンプルを生成し、2列目にそれぞれ0.5の確率で無作為選択によりマークを作成します。

これをパッケージの中でどうにか自動化できればもっといいのですが、何度もやって、そのたびに何かを計算しなければならないので、それはあなただけが知っていることです。

I have never used this feature before.

ーこのーこのー

Генерирует псевдослучайные величины, распределенные по нормальному закону с параметрами mu и sigmа. В случае ошибки возвращает false. Аналог rnorm() в R. 



bool  MathRandomNormal( 
   const double  mu,             // математическое ожидание 
   const double  sigma,          // среднеквадратическое отклонение 
   const int     data_count,     // количество необходимых значений 
   double&       result[]        // массив для получения псевдослучайных величин 
   );

Maxim Dmitrievsky 2023.08.17 19:15 #31760

Aleksey Vyazmikin #:

ランダムなオーバーシュートがいかに非生産的なアプローチであるかを書いたのと同じだ。

私は、サンプリングの可能性をテストするときに、予測変数の選択のランダム性の要素を持つオーバーサンプリングを使用します。

無作為化は、予測変数の応答が無作為化されているので、モデルが機能し続けることを期待する正当な理由を与えません。

また無意味な揉め事に巻き込まれる危険性があります。OOSで機能するランダムに発見されたセットと、精神的な苦悩の末に発明された、しかも根本的な正当性のないセットの違いは何だろうか？検証方法が同じなのに。修辞的な質問だ。

ランダム検索と、選択のランダム性の要素を含む検索の違いは何ですか？))

トレーディングにおける機械学習：理論、モデル、実践、アルゴトレーディング - ページ 3176