トレーディングにおける機械学習:理論、モデル、実践、アルゴトレーディング - ページ 2413

 
Maxim Dmitrievsky:
なぜこれが有効なのか、その全体像が見えてきません。

サンプルの中にランダムな予測因子、実際にはノイズがあるとすると、そのノイズを一掃することが目的です。

結果は改善されないとお考えですか?

 
Aleksey Vyazmikin:

サンプルにランダムな予測因子、つまりノイズがあるとすると、そのノイズを一掃することが目的です。

成果が上がらないとでも思っているのでしょうか?

どんなチップとターゲットの組み合わせでも、安定した信号が見つかるまで、時間による信号のフィルタリングを行う方が簡単なのです。そして、そのようなモデルからボットを構築する
 
Maxim Dmitrievsky:
任意のチップとターゲットのバンドルを取り、安定した信号が見つかるまで時間ごとに信号をフィルタリングする方が簡単です。そして、そのようなモデルからボットを構築する

それとも、提案されているアクションが、predictor_1に、時間に関する情報を含む追加のpredictor_2を加えることとどう違うのか、理解できないのでしょうか?

 
Aleksey Vyazmikin:

出来上がったモデルの分析を通じて、予測因子/属性/特徴の選択方法を改善できないかと考えています。

私はアルゴリズムの実装についていくつかのアイデアを持っていますが、尊敬するコミュニティと共有することにしました。もしかしたら、このアルゴリズムの実装に取り掛かる前に、建設的な批判やアルゴリズムの追加・改良があるかもしれません。正当性を主張しても何も動かないというのは、面白いですね。


CatBoostモデル作成時の使用頻度による予測変数の選択(Feature importance)

これは、各アルゴリズムにはそれぞれツリー構築のクセがあり、その中でアルゴリズムがより頻繁に使用する予測子(この場合はCatBoost)を選択する、というものです。

しかし、時間軸上の均一性を推定するために、複数のサンプルを使用し、それらのデータを1つのテーブルに集約することにします。このアプローチにより、あるモデルの予測変数の選択に 強い影響を与えるランダムな事象をふるい落とすことができます。モデルを構築するための規則性は、サンプル全体に存在するはずで、新しいデータでの正しい分類を促進することができる。この機能は、市場からのデータ、すなわち隠れた循環性を含む完全性のないデータ、すなわち時間的ではなく、イベントドリブンなデータに適用される。その際、いずれかのプロットで上位30%~50%に入らない予測変数にペナルティを与えることが望ましく、これにより異なる時間地平のモデルで最も頻繁に要求される予測変数の選択が可能になります。

また、ランダム性を減らすために、異なるSeed値を持つモデルを使うべきで、そのようなモデルは25から100個ほど必要だと思います。得られたモデルの品質に応じて係数を追加するのか、それとも予測変数による結果をすべて平均化するのか、まだわかりませんが、まずは単純に平均化することから始めてはどうでしょう。

量子化テーブルを使用する問題は重要で、予測変数の選択において重要かもしれません。テーブルが固定されていないと、各モデルがサブサンプルに対して独自のテーブルを作成し、結果を比較することができないので、テーブルはすべてのサンプルに共通である必要があります。

量子化テーブルを取得することが可能です。

  1. CatBoostのハイパーパラメータに、学習サンプル全体を量子に分割する種類と数を設定し、結果をcsvで保存することで、学習サンプル全体を量子に分割することができるようになりました。
  2. CatBoostのハイパーパラメータを、サンプル領域の一つを選択してクアンタに分割するタイプと数で設定し、その結果をcsvで保存します(仮にベストとします)。
  3. テーブルのセットから最適な選択肢を選択する別のスクリプトを使用してテーブルを取得します。
トレーニング時に強制的にテーブルをロードすることで、各サンプルに過去に取得したテーブルを使用します。

量子化はブースターへの供給前に自分で行うことができ、すべてが自分のコントロール下にある。
0から0.00005まで=0.00005から0.00010まで=0.00010など。

 
elibrarius:

ブーストにかける前に自分で数値化することができ、すべてをコントロールすることができます。
0~0.00005 = 0.00005 0.00005~0.00010 = 0.00010 など。

3つ目の量子化テーブルの入手方法として、私が事前に作成したカスタム量子化テーブルの評価も行っています。実験によると、これは必ずしもベストな選択ではないことが分かっています。ところで、数列の話なので、線形、フィボナッチ、指数以外にどのようなステップが使えるのでしょうか?

 
Aleksey Vyazmikin:

量子化テーブルを得るための3つ目のオプションは、私が事前に作成したカスタム量子化テーブルの評価も含まれています。実験によると、これは必ずしもベストな選択ではないことが分かっています。ところで、数列の話なので、線形、フィボナッチ、指数以外にどんな段階があるのでしょうか?

3つで十分じゃないですか?すでに実験回数は3倍になっています))他にどこが?
 
Aleksey Vyazmikin:

私がポイントを理解していないのか、それならもっと詳しく書いてください。それとも、提案されたアクションが、predictor_1に時間情報を含むpredictor_2を追加することとどう違うのか理解できないのでしょうか?

詳細を書かない理由もありますが、いつか出てくるでしょう。その仕組みの一部は、すでにここで紹介したとおりです。属性の選択に縛られない、唯一の賢明な選択肢と捉えています。理想は、属性は何でもよくて、タグもそうであることです。アルゴリズムのタスクは、時間的な要素を考慮しながら、それらを較正することです(これらの属性が機能しない場所をフィルタリングする)。証明 - Pradoのメタ・ラベリングに、この方法を若干チューニングしたもの。全く違うステップにいるので、理解は生まれないかもしれません。
 
elibrarius:
3つでは物足りないですか?実験数はすでに3倍になっている))これ以上何をすればいいのか?

もちろん、十分ではありませんが :)実は、予測因子ごとに最適なテーブルを選択しているのですが、ノンサンプリングであればあるほどいいんです。スクリプトの最新バージョンは、すべてのテーブルから最適な区間を選択し、予測因子ごとに1つのテーブルに統合しています。

 
マキシム・ドミトリエフスキー
まだ詳細を書けない理由がありますが、いつか書けるようになります。その仕組みの一部は、すでにここで説明したとおりです。属性を選択する殻に縛られない、唯一の賢明な選択肢と捉えています。理想は、属性は何でもよくて、タグもそうであることです。アルゴリズムのタスクは、時間的な要素を考慮しながら、それらを較正することです(これらの属性が機能しない場所をフィルタリングする)。証明 - Pradoのメタ・ラベリングに、この方法を若干チューニングしたもの。全く違うステップにいるので、理解は生まれないかもしれません。

そうですね、アルゴリズムのキャリブレーションについては、本当によくわからないんです。研修先でフィルターをかけても、応募時にどのように認識すればよいのかが明確でない。

 

映画「マトリックス」のファン?

マトリクスとどう関係があるのでしょうか?
頭のいい人を読むと、10年かけて海外の下っ端がいろいろ膨らませたものを読むより、1時間読めば多くの情報が得られる...。
とか、そうでないとか...。