トレーディングにおける機械学習:理論、モデル、実践、アルゴトレーディング - ページ 3333

 
Aleksey Vyazmikin #:

私にはまだ理解できない。まあ、すべては 1つの空間、つまり1つの予測因子のメトリックの中で起こっている のだが、他のものをどのように考慮すればいいのだろうか?

予測するときにどうするかということですが、私は2つのモデルを使うことを考えていました。 1 つは、データが "塊 "の領域にあることを確認するか、排除されたものを 検出する もので、もう1つは、すでに残っているものに対して機能するものです。

つまり 2次元空間での距離を変える(斜辺を計算する)。もし5000個の標識があれば、5000次元空間での距離を測定することになる(測定方法 - Algibeのk-meansのコードを参照、そこではこれが主なタスクである - 距離を測定するために、それを基礎とする)。
すべての空間でのカテの二乗和のルートのように見えるhttps://wiki.loginom.ru/articles/euclid-distance.html.

もし本当にやるのであれば - 例えば1...100000のボリュームが0,00001...0,01000の価格差分を計算で飲み込まないように、予測因子を調整することを忘れないでください。

どうやってそれを検出 するのか?それが問題だ。特に市場データでは、例のようにノイジーな領域を明確に分けることはできません。90%から99%、すべてがノイジーなのだ。

ノイズのある線を除去する既製のパッケージを使う方が簡単かもしれない。

 
Maxim Dmitrievsky #:

https://www.mql5.com/ru/articles/9138

誰もが気にしていた1年だった

私はこのようなアルゴリズムを10個か20個書いてきた。この記事は、結果の安定性という点ではベストではない、最初のパンケーキだ。

だから、議論することは何もない。


まあ、なぜケースはありません - 私は人々が積極的な議論に移動するように、パイソンはまだトレーダーの間で普及していないと思います。
私は後で私のサンプルであなたのアプローチを試してみます。

CatBoostのout-of-boxメソッドは試しましたか?

 

sibirqk #:
Они синхронизированы. Я же написал в начале поста - 'выровнял их по датам', что как раз и означает синхронизацию пар по времени.

"しかし残念ながら、またしても完全なランダムだ。写真は説明のためのグラフの一部である。"

その通りだ。

 
Forester #:

この例では 、2つの予測変数があります。つまり、2次元空間での距離を変更します(斜辺を計算します)。もし5000個の標識があれば、5000次元空間での距離を測定することになる(測定方法 - alglibのk-meansコードを参照、そこでの主なタスク - 距離を測定する、それを基礎とする)。
すべての空間でのカテの二乗和のルートのように見える。https://wiki.loginom.ru/articles/euclid-distance.html。

ーありがとうございますーー考えて考えよう。

フォレスター#:

もし本当にやるのであれば - 例えばボリューム1...100000が計算で価格差0,00001...0,01000を飲み込まないように、予測因子を調整することを忘れないでください。

、ーそうです、、ー正規化する必要がー必要です。しかし、もしそれらを正規化せず、純粋に指標だけで計算したらどうなるでしょうか?:)それに、カテで数えるというアイデアは好きではない。

提案されたアルゴリズムを再現し、それを改善することを考えるのが正しいことだと思いますが。

フォレスター

どうやって検出 するか?それが問題だ。特に市場データでは、例のようにノイズの多い領域を明確に分けることはできません。ー ノイズがーのーのー90~99パーセントのー。

ノイジー線を除去するための既製のパッケージを使う方が簡単かもしれない。

ビデオをご覧になりましたか?ビデオの最後の方で、モデルが構築され、データがどの領域に属するかを検出し、トレーニングが行われた与えられたサンプルに従って非累積的であれば、その信号は無視される、と言っています。そこで議論されているよりもはるかに悪いデータを持っていることは明らかですが、それが目標「1」の20%~30%であれば、私はすでに満足しています。

もう一つの選択肢は、全体のサンプルの中でこれらの行をマークアップすることによって、これらの除外された例を検出するようにモデルを訓練することです。

 
Aleksey Vyazmikin #:

その通り、正規化すべきだ。しかし、もしそれらが数値化されておらず、純粋に指標だけで計算されているとしたらどうでしょう?:)それに、カテを通して数えるというアイデアは好きではない。

一方のチップは2クオンタ、もう一方は32クオンタに量子化される。それではうまくいかない。

Aleksey Vyazmikin#:

ビデオをご覧になりましたか?ビデオの最後の方で、モデルが構築され、データがどの領域に属するかを検出し、学習が行われた与えられたサンプルに従って非累積の場合、その信号は無視される、と言っています。そこで議論されているよりもはるかに悪いデータを持っていることは明らかだが、目標の "1 "の20%~30%であれば、私は満足だ。

もう一つの選択肢は、全体のサンプルの中でこれらの行をマークアップすることによって、これらの除外された例を検出するようにモデルを訓練することです。

見たことはありません。
このような計算をしなくても、除外された例を検出することができます。すでにお話ししたように、クラスの1つの確率が約50%である葉を除外するだけです。

 
Forester #:

片方のチップは2クオンタ、もう片方は32クオンタに量子化されている。これではダメだ。

いや、相対的な場所、つまりスプリッター(分割)の数はすべて同じで固定される。

フォレスター#:

このような計算をしなくても、除外された例を検出することができます。すでにお話ししたように、50%程度の確率でいずれかのクラスに属する葉を除外すればいいのです。

いろいろな方法があります。私が興味があるのは、モデル構築前の処理のバリエーションです。それは、最終的な結論、つまり、最終的なモデルがうまく学習できたかどうか、一般的に、誤差を減らすような組み合わせのバリエーションを与えるように思えるからです。
それに、何かを「捨てる」ことができるという事実について話すなら、私たちが話しているのがどのモデルについてなのか言及すべきです。森であれば、「捨て」ない葉の割合を数えるべきか、50%付近のこれらの葉の活性化数を数え、その閾値を超えたら信号に反応しないようにすべきか。
ブーストする場合、そこはさらに楽しい。合計で不確かな葉は確率を一方向にシフトさせることができる。確率のシフトによって重みがどのように分布するかを示すグラフを作りたいのだが、ずっと先延ばしにしている。3日間、コンピューターはモデルの葉の類似性を検討する。アルゴリズムの最適化について考えるが、長すぎる......。

 
Forester #:
5000の特徴がある場合
このような大きな次元では、KNNのようなメトリック・アルゴリズムはほとんど意味をなさない。大雑把に言えば、サンプル全体がどの点からもほとんど同じ距離にあることが判明し、結果は距離の小さなランダムな偏差によって決定される。
 
Aleksey Vyazmikin #:


、後ほど私のサンプルであなたのアプローチを試してみます。

CatBoostのout-of-the-boxメソッドを試しましたか?

すぐに使える方法とは
Pythonはオプションです。多くの文献を投げた。
まあ、私はまた、まだ始めていないすべての人は、いくつかの時間が気まぐれで、その後、このトピックに来るだろうと予測している :) 多分10年後、多分100年後

他の選択肢がないようなものだ。他のニューラルネットワークを使った選択肢はあるかもしれないが、原理は同じだ。
 
Maxim Dmitrievsky #:

これが 機能です。

マキシム・ドミトリエフスキー#:
まるで他の選択肢が存在しないかのようだ。他のニューラルネットワークを使ったバリエーションはあるかもしれないが、原理は同じだ。

データを分割/分離するさまざまな方法があり、以前にもこのスレッドで試されたことがある。

ベイズ・ネットワークがある。一見すると、因果関係を復元する能力があるだけに興味深い。

 
Aleksey Vyazmikin #:

これがその 機能性だ。

データを分割/分離するさまざまな方法があり、以前にもこのスレッドで試されたことがある。

ベイジアンネットワークがある。一見すると、因果関係を復元できる可能性があるだけで興味深い。

いや、試したことはない。今夜試してみるよ。
これらの方法はモデルに依存する。データはそれ自体で分離されたり分離されたりはしない。どう説明したらいいかわからない。一度試してみたが、またオプティマイザーとトラブルになった。本に書いてある。
ここで左に行けば馬を失う。右に行けば双頭の竜を失う。
理由: