カオスにはパターンがあるのか?それを探してみよう!特定のサンプルを例にした機械学習。 - ページ 17

 
Valeriy Yastremskiy #:

何かの開始時刻と終了時刻(セッション、カレンダー)以外は、何も思い浮かばない。どういう意味ですか?

なぜかというと、考えられる最も明白なものだけだからだ。ボラティリティは図の中にあった。

大雑把に、何らかの市場指標をとって、それを吸い上げるしかないんだろう。山積みではない。誰もが積み上げたかったが、そうはいかないことが分かった。
 
Maxim Dmitrievsky #:
なぜかというと、最も明らかに可能性があるからだ。ボラティリティは図の中にあった。

大雑把に、何らかの市場指標をとって、それを吸い上げるべきだろうね。山積みではない。誰もが山積みにしたかったが、そうはいかないことが分かった。
離散的な価格指標では、すべてを行うことは容易ではなく、別にそれはしばしば接続と意味を失う。チャネルの幅やボラティリティ、価格変動のスピード。単純なことのようだが、私の頭の中には概念がない))))。
 
Valeriy Yastremskiy #:
離散的な価格指標では、すべてが単純なわけではなく、単体ではつながりや意味を失うことが多い。チャネルの幅やボラティリティ、価格変動のスピード。単純に見えるが、私の頭の中には概念がない)))。

まず、MOに何を求めるかを明確にしなければならない。つまり、標準的なオプティマイザーのようなツールを作り、そこに異なるターゲット機能を設定するのです。

そしてそれを使って指標(属性)を操作する。何か面白いもの(聖杯のようなもの)が思い浮かぶまで、多くの場合、総当たりで、間抜けな方法で。

何かを学んだら、さらに深く掘り下げていく。

自分では当たり前のことを書いているつもりなんだろうけど、それは僕にとっては当たり前のことなんだ。

 
Renat Akhtyamov #:

ブランチの問題は確かに興味深いものだが......。

だから疑問に思ったんだ。

もしかしたら、パターンが特定できるかもしれない。

いくつかの小節を連続して、例えば3-4本分析することをお勧めします。

次に、この3-4小節のサンプルの先頭から1小節移動して、再度分析する。

あるサンプルを別のサンプルに重ねるように。

パターンを見つけることができる。

このように:


どうする?棒グラフは常に異なる。現在のスケールに結びつけない限り。私は、例えば色(極性)のように、少し違った理論でアプローチすべきだと思う。例えば、色(極性)。定常性は発生するが、少し違った方法で発生し、また簡単に破壊される。
 

とりあえず、このスレッドの最初のサンプルからこのモデルを手に入れた。

バランス

残念ながら、テスト・サンプルでは失敗した。

 

モデルを訓練する方法を見つける過程で、さまざまなアプローチがテストされ、10万以上のモデルが作成された。標本変換と予測変数の 選択のさまざまな方法が使用された。これらの手法は,互いに組み合わされた.



標本変換と予測変数の選択の手法.

標本変換:

  • 1. 変換 なし
  • 2.方向(ベクトル)のタイプによる取引の 選択 - 選択なし、買い、売り - 別々のサンプルに保存あり。
  • 3.財務結果に応じてターゲット関数を シフト する。
  • 4."ドロップ"-FP 型予測変数の強い量子によるサンプルからの行の除外 - 各反復でサンプルを変更しながら、サンプル量の推定の10-30連続反復:

(a) サンプル列の ベクトルを考慮せずに、そのベクトルがサンプル内のターゲットの平均からの偏差の所与のパーセンテージより大きければ、最良の量子で 除外 し、そうでなければ、ベクトルを考慮したサンプルで追加評価し、最良の変種を選択する。

b)"a"と 同じ であるが、テスト サンプル TNの 確率が減少する方向への偏差を示した量子セグメントは選択されない。

c)「a」と 同じ だが、推定選択は「テスト」サンプルに対して行われる。

予測値の選択:

  • 1. 定量化

(a) 各予測変数の量表の選択を伴う統計量による予測変数の 選択

( b) バイナリ・サンプリングによる統計量表の 選択

(c) プールされたバイナリ標本を形成するために,異なるベクトルを持つサブ標本からの分位セグメントを 組み合わせる

d) バイナリ量子に基づく量子表の選択を伴う統計量による予測変数の 選択

  • 2)強い相関を持つ 予測変数の除外
  • 3. 予測量をバイナリに変換した後にのみ、フィールドごとに支配的な予測量を選択する類似の応答フィールドによる予測量の グループ化
  • 4. CatBoost モデルでの予測変数の平均使用頻度による 選択 訓練 サンプルを 8分割する。我々は、得られた統計量に基づく予測変数の選択のために、5つの学習戦略と20以上の方法を使用する。
  • 5."Drop"法を実行した後の各サンプルに対する予測変数の 要約 選択。
 

新記録であり、今回のテストサンプルもプラス側だ。

バランス

モデル

 

このモデルがどのように導き出されたかを書いておこう。複雑なサンプルから何かを取り出す方法には誰も興味がないだろうから、おそらく自分のために。

つまり、利益が50ピプス以下ならマイナス、つまり以前は「1」だったのを「0」にしたのだ。残ったプラスは20%以下だが、より顕著なトレンドの動きを選択できるようになった。

次に、クオンツ表から各予測因子のスプリットを選択した。サンプリングには約900のテーブルを使用し、5%から確率をずらしたスプリットを選択し、量子スプリットにおけるシグナル発生の安定性を評価した。

次のステップは、選択した量子分割を組み合わせることである。私はランダム要素を使ったアプローチを使い、「分割数が多ければ多いほど良い」という基準で結果を評価した。

このようにして、私は予測者の量子表を作成した。成功したセグメントがない予測変数は、量子テーブルで "0,5 "と区切られるだけである。

8から800まで、8ステップで100のモデルをトレーニングした。

得られたバリエーションから最良のモデルを選択し、そのモデルで使用された予測子を分析した。

さらに100個のモデルを、これらの予測変数のみで、Seedを8から800まで 8ステップで訓練してみました。最良のモデルの結果は、最後のモデルよりもわずかに悪かった。もちろん、それは私を困惑させた。

なぜなら彼らの予測変数がより良い結果を得ることができるからです。ステップ1のSeedを1から10000まで使って、10000個のモデルをトレーニングしました。

下のグラフは、モデルの財務結果をベストからワーストに並べたものです。

モデルの約25%は収益性が低く、平均利益は2116.65です。平均利益は2116.65ポイントで、38%のモデルが3000ポイント以上の利益を上げている。

なぜテストサンプルの結果が試験サンプルと相関しないのか、それはサブサンプルの特殊性なのか、それとも他の理由があるのでしょうか?

下のグラフは、試験サンプルの結果を、前回と同じように試験サンプルの成績順に並べたものである。

わかりやすくするために、散布図もランダムに見えるようにしてあります。

二項統計量ではなく、指標-点のことだと思っていたのですが、下のグラフにあるように、2つのサンプル間の精度指標も独立しています。


試験サンプルと訓練サンプルの結果の依存性を特定しなければ、モデルを選択することは困難です - 追加の評価基準を開発する必要があると思います - モデルができるメトリクス。

新しいモデル(私は2つに気づきました)は、50未満の予測因子を使用していました。このプロセスを繰り返すことで、最終的にはモデルを構築するのに十分な予測変数が残ると思います。

その時どうするか - 選択された予測変数のみを使って全サンプルでモデルを訓練し、その集約が新しいデータでどのように振る舞うかを見ることができます。

さらに、トレーニングなしで選択される確率を高める、選択された予測変数の特別な特徴を見つけたいと思います。

 
Aleksey Vyazmikin #:

そして、各予測子の量子テーブルから分割を選択した。サンプリングには約900のテーブルを使用し、5%から確率をずらした分割を選択し、量子分割における信号発生の安定性を評価した。

次のステップは、選択した量子分割を結合することである。私はランダム要素を使ったアプローチを使い、「分割数が多ければ多いほど良い」という基準で結果を評価しました。この方法が完璧かどうかはわかりませんし、おそらく改善すべきです。

基本的には、55%以上の確率で葉を選択しているのでしょうか?

Aleksey Vyazmikin#:

さらに100のモデルを訓練してみましたが、これらの予測変数のみで、Seedも8から800までステップ8で 訓練してみました。最良のモデルの結果は、最後のモデルよりわずかに悪かった。もちろん、これは私を困惑させた。

どうやらSeed-aのランダムはベストサンプルのランダムの変種と完全には一致しなかったようだ。それゆえ、異なる/悪い結果になったのだ。

Aleksey Vyazmikin#:

テストサンプルの結果が試験サンプルと相関しない理由は明確ではありません - サブサンプルの特殊性でしょうか、それとも他の理由があるのでしょうか?

下のグラフは、試験サンプルの結果を、前回と同じように試験サンプルの財務結果別に並べたものである。

通常のトレーニングが、トレーンに合わせて再トレーニング/調整されるのと同じです。この場合、あなたは試験に適合 させたことになる。テストでも試験でも、どのようなフィッティングも、あなたのテストに見られるように、ランダムな結果につながります。

ベストトレインや試験を受けるべきではないと思います。最高の列車や試験よりもずっと悪い結果ではありますが、安定したものが必要です。

私がDarchで作業していた時、両方のサンプルで選択がありました err = err_ oob * k+ err_trn * (1 - k); ここでk=0.62 (推奨ですが、変更可能です)
すなわち、 err = err_ oob * 0.62+ err_trn * 0.38;
しかし、これは計算時間が増加する選択には不必要なパラメータです。

H1でのサンプリングの実験によると、安定したものがあったが、ほとんど稼げなかった。10000回取引しても、1回あたりわずか0.00005回。通常の取引ではスプレッドやスリッページなどでこの5ptを食いつぶしてしまうので、これも面白くない。

400回トレードしても、試験では40ポイント。そして私のように試験では0に近い(ランダム)。

多くのアプローチがあるが、誰もうまくいく方法を見つけられていない。
 
elibrarius #:

基本的には55%以上の確率で葉が選ばれる?

いいえ,言うなれば,選択される1つの予測変数の数値範囲です.5%というのは、サンプル訓練におけるパーセンテージ "1 "の値に対する相対的なものです。

elibrarius#

どうやらSeed-aのランダムは最適サンプルのバリアントランダムと完全に一致しなかったようだ。そのため、結果が異なっている。

ランダムは固定されています :)このシードはトリッキーな方法で計算されているようです。つまり、モデル構築に許容されるすべての予測変数がおそらく関与しており、それらの数を変更すると選択結果も変更されます。

elibrarius#:

これは通常の学習と同じで、トレーンに再学習/適合させます。この場合、あなたは試験に対してフィットを 行いました。テストでも試験でも、あなたのテストに見られるように、どのようなフィッティングもランダムな結果につながります。

なぜフィッティングなのでしょうか。つまり、予測因子の確率分布が異なるのです。そしてそれは,最も安定した予測変数を選択することによって,つまりすべてのサンプルで許容できる結果を与えることによって,あるいは外部の特徴(つまり別の予測変数)によって確率分布を変更することによって,処理することができます - そのようなモデルについては知りませんが,試してみたいです.似たような効果は、異なるツリーの選択されたリーフ、あるいはモデル全体に対してリカレント・トレーニングを使用することで得られるかもしれません。おそらくリカレント・ニューロンでも可能だろう。

私は今のところこの方法を、結合モデルを構築するための予測子を選択する方法として、また実際のトレーニングの前に他の効果的な予測子を識別するためのベンチマークとして扱っています。

elibrarius#

最高の列車や試験を受けるべきだとは思いません。最良の訓練や試験よりもはるかに悪い結果ではありますが、安定したものが必要です。

When I was working with Darch, there was a selection on both samples err = err_ oob * k+ err_trn * (1 - k); where k=0.62 (recommended, but you can change it)
I.e. err = err_ oob * 0.62+ err_trn * 0.38;
But it is an unnecessary parameter for selection with increasing calculation time.

err_ はどのような指標なのでしょうか?

elibrarius#

あなたは400回トレードしていますが、試験では40点です。まあ、テストでは、私のように - 0に近い(ランダム)。

多くのアプローチがありますが、まだ誰も生産的なものを見つけていません。

X軸は、テストサンプルの期待値行列の値、すなわち、一般的には、はい、しかし、いくつかの成功例があります。


理由: