トレーディングにおける機械学習:理論、モデル、実践、アルゴトレーディング - ページ 2412

 
mytarmailS:

Alexeiさん、pythonかr-coreを勉強して、そこで何か作ってみてください...。信じてくれれば、千の疑問が消えるのに・・・。

外国語を2、3カ国語習得して、他のすべての能力をマスターすれば、他人に依存することなく、役に立つだろうに、何と良い願いだろう。しかし、私はすべてのことに才能があるわけではなく、コーディングで高い成果を上げることはできないし、あまりにも多くの労力を費やすことになると実感しています。

mytarmailS:

形質選択法がすでに試され、機能しているのであれば、その効率を確認することに何の意味があるのでしょうか? そうでなければ、存在しないことになります。

ここでの疑問は、むしろこの方法の有効性、つまり予測子を除外しないサンプルフィードと比較して、最終的にどの程度結果を改善できるのか、ということでした。つまり、実際の実験です。


mytarmailS:

問題は形質拒絶ではなく、形質そのものにあります。10個の指標を与えて、顔が青くなるまで選択すれば、どんな選択アルゴリズムでも同じ結果になります......。

私は今、5つくらいの予測因子を持っていますが、だからこそ、このアプローチは面白いのです。

mytarmailS:

ビデオでは、何万もの機能の中から選択し、何十億もの機能を作成・列挙しているMSUAの話も出てきますが、ご覧になりましたか?

それこそ、何百万ものアイデアを生成して自動的にチェックするシステム、それが本質であり、個々の判断であり、特徴量の選択は最後の小さな部分であり、何の面白みもない、どんなアルゴリズムを取り上げて進んでも、何の話題にもならない、ただ面白くないだけなのだ。

ただ、大量の機能を扱って、パターンから生成する方法を開発しているところです。特徴量の2値化のプロセスでは、おそらく新しい予測器内で異なる指標を維持したまま、5000のうち50000の特徴量を作り、それらを相互関係を調査して、すでにモデルが構築されている新しい飽和した特徴量を作成する必要があります。

全体として、なぜ私の活動に対してそのような原始的な見方をするのか......。

 
アレクセイ・ヴャジム

とにかく、なぜ私のパフォーマンスをそんなに原始的に捉えているのかがわからない...。

Alexey、あなたの5kのバイナリ記号はすべて2-3の主成分、すなわち2-3の記号とすべて置き換えることができることを理解していない)) しかし、あなたは知るためにそれを行う必要があります...。

また、5Kの機能を持つクールなモデルが、上位のモデルにとっては何百もある機能のうちの1つに過ぎず、それがさらに上位のモデルの機能になるということも理解していない......」。

以上が、現在私が考えているカテゴリーです。


Ivakhnenko MHUAを見ると、コンセプトが非常に精巧で深く、読んでいると自分がMOの小学1年生になったような気がします...。

 
mytarmailS:
アレクセイ、5kのバイナリ属性はすべて2-3の-major componentで置き換えられること、つまり2-3の属性とすべて))が、やってみないとわからないということがどうしてわからないんだ?

私が理解しているとかいないとか、そんな結論はどこから出てくるのでしょうか。MGUAの話題は、実際に適用した経験がないため、私には手つかずです。私のサインを2-3に凝縮する準備はできたか?それを見て、私のアプローチと比較してみたいですね。すでにそれ用にすべて研ぎ澄まされているのですから、問題はないのではないでしょうか?

mytarmailS:
また、5kの属性を持つあなたのクールなモデル全体が、上位のモデルにとっては数百の属性のうちの1つに過ぎず、それがさらに上位のモデルの属性となることも理解できないのでしょうか......。

今考えているのは、このようなカテゴリーです。

私は、モデルから葉っぱを抜き取るということをずっと実践してきました。葉っぱは、よりグローバルなモデルにとって飽和状態のコンポーネントなのです。

私が考え出したものは、別の名前で一般向けに実装されているものも多いのですが、すべてをゼロからやると、理論だけでなく、どうしてそうなるのかという根本的な理解も必要になります。

 
mytarmailS:
同じIvakhnenkoのMSUAを読むと、なんと緻密で深い概念なのだろう、読むとMOの小学1年生になったような気分になる......。

やらなきゃいけないことがあるんです。もう、確認したい思いは十分にあるので、コーディングして検証しないと。

 
mytarmailS:

また、5Kの機能を備えたクールなモデルが、上位のモデルにとっては数百の機能のうちの1つに過ぎず、それがさらに上位のモデルの機能になるということも分かっていない......。

映画「マトリックス」のファン?

 

出来上がったモデルの分析を通じて、予測因子/属性/特徴の選択方法を改善できないかと考えています。

私はアルゴリズムの実装についていくつかのアイデアを持っていますが、尊敬するコミュニティと共有することにしました。もしかしたら、このアルゴリズムの実装に取り掛かる前に、建設的な批判やアルゴリズムの追加・改良があるかもしれません。正当性を主張しても何も動かないというのは、面白いですね。


CatBoostモデル作成時の使用頻度による予測変数の選択(Feature importance)

これは、各アルゴリズムにはそれぞれツリー構築のクセがあり、その中でアルゴリズムがより頻繁に使用する予測子(この場合はCatBoost)を選択する、というものです。

しかし、時間軸上の均一性を推定するために、複数のサンプルを使用し、それらのデータを1つのテーブルに集約することにする。このアプローチにより、あるモデルの予測変数の選択に 強い影響を与えるランダムな事象をふるい落とすことができます。モデルを構築するための規則性はサンプル全体に存在するはずであり、それによって新しいデータでの正しい分類が容易になる可能性がある。この機能は、市場からのデータ、すなわち隠れた循環性を含む完全性のないデータ、すなわち時間的ではなく、イベントドリブンなデータに適用される。その際、いずれかのプロットで上位30%~50%に入らない予測変数にペナルティを与えることが望ましく、これにより異なる時間地平のモデルで最も頻繁に要求される予測変数の選択が可能になります。

また、ランダム性を減らすために、異なるSeed値を持つモデルを使うべきで、そのようなモデルは25から100個ほど必要だと思います。得られたモデルの品質に応じて係数を追加するのか、それとも予測変数による結果をすべて平均化するのか、まだわかりませんが、まずは単純に平均化することから始めてはどうでしょう。

量子化テーブルを使用する問題は重要で、予測変数の選択において重要かもしれません。表が固定されていないと、各モデルがサブサンプルに対して独自の表を作成し、結果を比較することができなくなるので、表はすべてのサンプルに共通でなければなりません。

量子化テーブルを取得することが可能です。

  1. CatBoostのハイパーパラメータに、学習サンプル全体を量子に分割する種類と数を設定し、結果をcsvで保存することで、学習サンプル全体を量子に分割することができるようになりました。
  2. CatBoostのハイパーパラメータを、サンプル領域の一つを選択してクアンタに分割するタイプと数で設定し、その結果をcsvで保存します(仮にベストとします)。
  3. テーブルのセットから最適な選択肢を選択する別のスクリプトを使用してテーブルを取得します。
トレーニング時に強制的にテーブルをロードすることで、各サンプルに過去に取得したテーブルを使用します。
 
ブートにシャップ値を接続して、どんなデータでも出力で特徴の相互作用を見ることができます。アレクセイのように、下着を掘るのが好きな人向けです :)また、Limeと同様の、モデルに依存しないライブラリもあります。もちろん、何百もの無意味なサインを分析するのであれば、そのような事業は絶望的である。単純な雑用なのに、誰も無料でやってくれないのは、結果が分かっているのにすごい時間潰しになるからです。
 
Maxim Dmitrievsky:
シャップ値をブートストラップに接続して、どんなデータでも出力で特徴の相互作用を見ることができます。Alexeyのように下着を掘り下げるのが好きな人向けですね :)

モデルへの影響、分割数、分割後の正しい例数など、測定基準は様々です。問題は、その使い方が正しいかどうかです。ちなみに、私の記憶では、初期のビルドではshap値はコマンドラインでは使えなかったと思いますが、こうすることで可視化のためのスクリプトを 作ることができます。

 
マキシム・ドミトリエフスキー
もちろん、何百もの無意味な記号を分析するのであれば、そのような試みは絶望的である。単純な雑用で、しかも結果が分かっているすごい時間潰しなので、誰かが無料でやってくれることはまずないでしょう。

なぜ悲観的になるのか。ポイントは、理論的にはどんなターゲット/基本戦略にも適した属性のセットを生成し、その中から特定のターゲットに最適なものを選択することにある。

操作後の分類品質の上昇を疑う?
 
Aleksey Vyazmikin:

なぜ悲観的になるのか。ポイントは、理論的にはどんなターゲット/基本戦略にも適した属性のセットを生成し、その中から特定のターゲットに最適なものを選択することにある。

操作後の分類の質の向上を疑っているのでしょうか?
なぜこれが有効なのか、その全体像が見えてこないのです。