トレーディングにおける機械学習:理論、モデル、実践、アルゴトレーディング - ページ 1613

 
アレクセイ・マヴリン

どんな議論かというと、そんなことをしたら、あなたが何かを理解していないか、私が理解しているかのどちらかだということです。

私が驚いたのは、ここで言っているような学習済みモデルは、生データで学習させなければならないという点です。

入力データに相関のあるものがあれば、無相関のものに還元する必要がある。

ここでは、3桁のRGBで色の濃淡を分類するようにモデルを教えます。3桁、これが純粋な生データだ!!!!あなたのアプローチでは、次のような予測式を作る必要があります。

1- R 2-G 3-B - 4 赤が多い 5 -緑が多い 6- 緑と青を合わせたものより赤が多い ......。100500 緑が青と同じぐらい赤くない。))

モデルは自分で学習する必要はないのでしょうか?生データを持っているのですから、そのためにあるのです


そして、その逆、つまり相関のある生データを掛け合わ せるのです。

間違っているかもしれませんが、符号を初歩的な部分(ロギングルールなど)に分けてこそ、明確な パターンが得られるように思います。同じ例に戻って、キャンドルを使ってみましょう。

純粋 で唯一のパターンであれば、45の可能性を持っています。

open[-1]<low

という45の選択肢の中に、それ以外のものはないのです。列挙して、1つのルール(1つの修正)を選び、それを使っています。

ネットが見つけてくれるから」という理由で「オリジナルシリーズ」を取ることを提案されていますが、あなたの場合、それは「.NET」だと理解しています。

open[1:2] ; high[1:2] ; low[1:2] ; close[1:2]

つまり、一言で言えば

私は、1つのルール、1つの 価値、ノイズのない 形で、きれいな パターンを持っています。

2つの値を持つ4つの行(OHLC)があり、合計8つの値、 +ノイズが あります。

質問:どちらがより冗長で相関のあるサンプルを持っていますか?

 
mytarmailS:


しかし、あなたは逆に、互いに相関のある生データを生成して いるのです。

間違っているかも しれませんが、符号を初歩的な部分(例えばログルール)に分解して初めて純粋な パターンを引き出せるように思います。同じ例に戻って、キャンドルを使ってみましょう。

純粋 で唯一のパターンであれば、45の可能性を持っています。

という45の選択肢の中に、それ以外のものはないのです。ブルートフォースで、1つのルール(1つの修正)を選んで、それを使って います。

ネットが見つけてくれるから」という理由で「オリジナルシリーズ」を取ることを提案されていますが、あなたの場合、それは.NETだと理解しています。

つまり、一言で言えば

私は、1つのルール、1つの 価値、ノイズのない 形で、きれいな パターンを持っています。

2つの値を持つ4つの行(OHLC)があり、合計8つの値、 +ノイズが あります。

質問 : 最も冗長で相関のあるサンプルを持つのは誰ですか?

1.おそらく、あなたは間違っています。

2.3 シリーズが非定常であるため、このようなことは起こりません。シリーズにモデルを当てはめただけで、「純粋なパターンを分離した」はずなのに、MOと何の関係があるのかも全く不明です、、。もし、そのような純粋な規則性があれば、MOは発明されることもなく、他の初歩的な方法によって発見されるでしょう。

4.もし、あなたが言うように、1つの特徴だけを取り出してしまうと、100%過剰訓練=過小訓練、100%盲目、何も見えていない、したがって100%「間抜け」なモデルになってしまいます、鈍感ですみません)

S.s.大衆にMO万歳!)))

 
アレクセイ・マヴリン

1.おそらく間違っている。

100のハード(統計的)なルールと3000のソフト(確率的)なルールのどちらが優れているかは、興味深いところです。素直に問題を解決すれば、つまり入力データで学習すれば、同じ非定常性なので2番目の変形が良いと思いますが、定常性を持つ市場モデルを構築したいのであれば、必ずしもそうではないですが、1番目の変形を選ぶべきでしょう.........。とにかく、これ以上議論するつもりはない、あなたの方が私を納得させたのだから...。

 
Aleksey Vyazmikin:

あまり満足のいく結果ではありません。葉っぱはそこそこ集まったけど、次は葉っぱ同士の相性をどうするのがベストなんだろう。20%~50%以上重なることが多いので、同じ信号を出してしまい、あまり良くないということです。グループ化して、それぞれのグループに活性化の閾値を設定することです。

葉の選択の問題は最後まで解決されていない、でも5年のそれぞれに良い結果を示している葉を選択すると、さらに悲しいです20%〜40%が動作を停止することを期待することができ、それらをオフにするかどうかを理解することができないです - 特に四半期によってテストを行い、それはその後の四半期で最後の四半期の葉が損失(多く)上書きすることが判明した。

葉っぱの選別方法自体は期待できそうだが、その処理に非常に時間がかかる。

ちょっとネクロポストで質問なのですが、なぜ最初はポートフォリオの最適性条件に基づいて、その葉から木を作ることができないのでしょうか(だいたいMarkowitz 理論のような)?もしかしたら、すでにどこかで議論されているのかもしれませんが、私は見ていません。

 
アレクセイ・ニコラエフ

ちょっとネクロポストで質問なのですが、なぜ最初はその葉のポートフォリオの最適性条件に基づいてツリーを構築することができないのでしょうか(だいたいMarkowitzの理論のようなものです)。もしかしたら、すでにどこかで議論されているのかもしれませんが、私は見ていません。

私は何度も書いていますが、MOモデル構築のための利用可能なアルゴリズムは、ノイズの多い時系列のニュアンスを考慮していないため、トレーディングには適していません。これは、例えば、分割のための予測値を使用する場合、サンプル全体にわたって正しい分類の確率の集計的な優先分布を与えるが、この分布はサンプルの一部に集まった稀な現象によってのみ引き起こされ得るということが明らかである。サンプリングした葉の活性化頻度を調べると、このことが明らかになりました。

しかし、そのためには、学習アルゴリズムを変えるか(私はプログラミングの能力が十分ではありません)、別の方法でランダム性を推定する必要があります。最適なポートフォリオの条件」という のがよくわからないが。

もう一つのバリエーションとして、サンプル全体に対してターゲット分類の確率のシフトを改善する予測値の範囲を 選択し、それらに対して別々の予測器を作るという考え方もあります。この考えは今実行中ですが、結果がどうなるかはまだわかりません。

ところで、予測値をグリッドで分割して、さらにツリーモデルを構築する際に利用することについては、議論されるべき重要な側面があり、モデル構築、ひいては最終結果に直接影響すると思われますが、私はそのような議論はなかったと記憶しています。

 
アレクセイ・ヴャジミキン

私は何度も書いていますが、利用可能なMOモデリング・アルゴリズムは、トレーディングには適しません

IRの標準的なデータ表現では、取引に不利だ...」と言いたいのかもしれません。IRのせいではありません。

アレクセイ・ヴャジミキン


ところで、ツリーモデルを構築する際に、後で使用する予測変数のグリッドをバンドリングするという話はなかったと記憶しているのですが......。

パーティショニング・グリッドの意味は何ですか?

 
アレクセイ・ヴャジミキン

ポートフォリオ最適化条件」の 意味がよくわからないが。

一定の(許容可能な)リスク(ボラティリティまたはドローダウン)レベルでポートフォリオ・リターンを最大化すること。

どうやらそうみたいですね、アルゴリズムは変えなければならないでしょう。異なる葉の株式間の多くの相関を計算する必要があり、時間的に非常に高価になる可能性があります。

ただ、このような話題は以前にもフォーラムで議論されたことがあるかもしれないと思いました。

 
アレクセイ・ヴャジミキン

ところで、ツリーモデルにおけるスコーピングの ための予測子 グリッドの議論はなかったと記憶していますが、これは議論すべき重要なトピックであり、モデル構築、ひいては最終結果に直接影響するように思います。

ツリーでは、それぞれの予測因子から異なる範囲を取り出し、どれがより優れているかをチェックします。

最初に半分に分け、ベストの半分をまた半分に、ベストの1/4をまた半分に、といった具合に、各予測子で分けます。ノードは、すべての予測因子にわたって、これらのすべてのピースのうち最良の分割となる。
手動で行っているのでしょうか?アルゴリズムが完璧に、そして素早くやってくれる。

アレクセイ・ヴャジミキン

しかし、このような分布は、サンプルの一部分に集まった稀な現象が原因であるとしか考えられない。サンプリングした葉っぱの活性化周波数を調べたら、一目瞭然でした。

この稀な現象を発見するための予測因子を探すことが必要である。もし予測因子があれば、最も単純な標準モデルですべてを見つけることができる。

 
mytarmailS:

MOの標準的な情報提示の種類は、取引には適さないという意味でしょう...。 MOのせいではありません)

言いたいことは言ったつもりです。一般的なモデルの作り方でのトレーニングでは、考慮されないニュアンスがたくさんあるのです。 この問題は、これらの手法の改良、性能結果の選択、予測変数の追加学習によって解決できるはずで、もしかしたら他の選択肢もあるかもしれませんが、今のところ私は知りません。


mytarmailS:

パーティショニング・グリッドの意味とは?

予測値の範囲をチェックして予測能力をよりよく配分するように、範囲の部分を分割しようとするアルゴリズムです。例えば,ターゲットが3つあるサンプルがあり,サンプルが1 - 24%,2 - 50%,3 - 26%に分布し,値の範囲を持つ予測変数があるとします.グリッドの目的は,例えばターゲット1が24%以上「予測」される予測変数の値の領域を見つけることで,分割はこの領域を強調することにあります.このようなグリッドを構築するアルゴリズムには、さまざまなバリエーションがある。


アレクセイ・ニコラエフ

一定の(許容可能な)リスク(ボラティリティまたはドローダウン)レベルでポートフォリオ・リターンを最大化すること。

どうやらそうみたいですね、アルゴリズムは変えなければならないでしょう。異なる葉の株式間の多くの相関を計算する必要があり、時間的に非常に高価になる可能性があります。

ふと思ったのですが、以前にも似たような話題がフォーラムで出ていたかもしれませんね。

ここで、アクティベーションの相関を考慮し、条件的に相関のある葉は同じグループに入り、そうしてポートフォリオが作られるのです。しかし、ポートフォリオには1つの基本戦略があり、それを数多くこなすことが安定につながります。同じ予測変数が使われるなら、時間軸上で活性化が重ならないようにすればよいだけである。これは一般的に現実的なことだと思います。


エリブラリウス

ツリーはまさにその通り、それぞれの予測因子から異なる範囲を取り出し、どれがより優れているかをチェックするのです。

最初は半分に分割、ベストの半分はさらに半分に、ベストの4分の1はさらに半分に、といった具合に各予測子で分割していきます。ノードは、すべての予測因子にわたって、これらのすべてのピースのうち最良の分割となる。
手動で行っているのでしょうか?アルゴリズムが完璧に、そして素早くやってくれるのです。

この稀な現象を発見するための予測因子を探す必要があるのです。もし予測因子があれば、最も単純な標準的なMOモデルですべてを見つけることができます。

完璧にできるってどういうこと?手動ではなく、今見ているような方法で行うスクリプトを書いているのです。

私の場合、理想は予測値のバリエーションをそれぞれ個別に評価することです。また、1つのターゲットを増幅する予測変数の活性化範囲を1つの予測変数にマージしたいのですが、私の知っているメッシュでは、範囲を順次分割していくことではできません。同様に、スパーへのランキングの予測変数も(ノードを構築して)別の予測変数とマージします。これまでの理論では。

下図は、通常の予測器を時間別に示したものです。文字通り時計を記録し、サンプル全体の各ターゲットの偏差値10%未満の予測器の活性化をフィルタリングしています。それは、ターゲット-マイナスが有利な時間18と19と有利でない時間15であることが判明し、私はサンプル値1で新しい予測器を取得します - 予測値の組み合わせ18と19 、 -1 -値15と0 - 出力で他のすべての値。

下図の値1と値4のように、中間値を排除して分割範囲を1つに集約するパーティショニンググリッドはどのようなものでしょうか。


 
アレクセイ・ヴャジミキン

ここで、アクティベーションの相関を考慮し、条件的に相関のあるシートは同じグループに入り、こうしてポートフォリオが作成されるのです。しかし、ポートフォリオの基本戦略は一つであり、安定性のためにたくさんやる必要があるのです。同じ予測変数が使われるなら、時間軸上で活性化が重ならないようにすればよいだけである。一般的には、これが現実的です。

例えば、すべてのストラテジーがBUYしかしない場合、おそらく時間による重なりを最小にする(常に正の相関を持つ相関を最小にする)ことに帰結する。BUYとSELLが許可されている場合、タイムクロスは戦略の悪い部分を相互に補うのに有効である(負の相関は通常ポートフォリオにとって良いものである)。

おそらく、相関はストラテジーの実行時間とその交点の時間によって簡単に定義できるだろう。

理由: