トレーディングにおける機械学習:理論、モデル、実践、アルゴトレーディング - ページ 2111

 
Aleksey Vyazmikin:

いや、意味のあるモデルではないだけに、フィット感はあるはずです

私はそうは思いません。数値化することで、情報量を減らすことができます。量子化数を最大にすることで、最大限の情報量を残すことができます。

しかし、65535への量子化には、255への量子化よりも時間がかかるのです。

 
elibrarius:

方法を知っていますか?

そうですね、今やっているのは、もともと遺伝子の木のためにやっていたものです。

サンプル全体の情報分布とターゲットとの関係を評価する必要があります。ある量子化セクションでどのように誤差を減らすか、どのような割合でサンプルが含まれているかを調べ、それらの指標のバランスをとることで、最適なパーティションを選択することができるのです。

 
elibrarius:

私はそうは思いません。数値化することで、情報量を減らすことができます。量子化の数が最大であれば、最大限の情報量を残すことができます。

しかし、65535への量子化には、255への量子化よりも時間がかかるのです。

反対するのは間違っているはずです。情報が少ないので、ノイズから切り離す必要があります。私たちは(私は)安定した依存関係を必要とし、5年ごとに再発するものではなく、したがって、特定のターゲットへの傾向を推定するのに十分な統計がない、不十分な例を使用して、単にフィッティングにつながる。

 
Aleksey Vyazmikin:

そうですね、今やっているのは、もともと遺伝子の木のためにやったことです。

サンプル全体の情報分布とターゲットとの関係を評価する必要があります。私は 、量子化の特定のセクションでどのようにエラーが減少しているか 、そのセクションがどのような割合のサンプルを含んでいるかを調べます。これらの指標のバランスをとることで、最適なパーティションを選択することができます。

量子化の誤差はどのように推定するのですか。トレーニングを実行して、全カラムによって一度に得られるだけで、現時点で量子化された各カラムは得られないのです。

 
elibrarius:
Aleksey Vyazmikin:

定量化の誤差をどのように見積もるのか。これは、現在量子化されている各列ではなく、すべての列に対して一度に学習を実行することによってのみ得られる。

サンプル全体に対する目標残高の変化を推定している。特に、ターゲットが2つ以上ある場合は、この点に注意が必要です。

 
Aleksey Vyazmikin:

サンプル全体に対する対象者の残高の変化を推定している。特に、ターゲットが2つ以上ある場合は、その傾向が強くなります。

いずれにせよ、次の分割では、量子化ポイントを通じて2つに分かれることになります。

255個の大きな塊を量子化することで、量子の境界をかなり大雑把に-5-10-20%程度-動かすことができます。65535クアンタを適用すれば、クアンタムの0.5%のステップを持つことになります。そして、ツリーが一番いいものを選んでくれる。

ありえないけど。通常は、真ん中か四分の一に当たるだけです。65535量子だとより正確に真ん中を見つけることができ、255だと256倍も荒くなります。

 
elibrarius:

いずれにせよ、次のスプリットは、量子化ポイントを通じて2つに分かれることになります。

255個の大きな塊を量子化することで、量子の境界をかなり大雑把に-5-10-20%程度-動かすことができます。65535クアンタを適用すれば、クアンタムの0.5%のステップを持つことになります。そして、ツリーが一番いいものを選んでくれる。

ありえないけど。通常は、真ん中か四分の一に当たるだけです。65535個の量子を使えばより正確に真ん中を見つけることができ、255個を使えば256倍荒くなります。

その通り、分割はされるが、その分割は50%ではなく、不平等なものになる。上位の分割(複数)との対応関係にもよるが、論理的には、そのセグメントがユニットで飽和しているところと、(サンプル全体のバランスに対して)同数 であるところを見れば、確率は違ってくると思われる。目標は、葉に含まれるサンプルの少なくとも1%を取得し、同時に同じクラスのラベルの約65%を取得することである。

 
Aleksey Vyazmikin:

その通り、分割はされますが、その分割は50%ではなく、ばらつきがあります。上位の分割(複数)との対応関係にもよりますが、論理的には、セグメントがユニットで飽和して いるところで検索するか、(サンプル全体のバランスに対して)偶数個あるところで検索すれば、確率は違ってくると思われます。目標は、葉の中にあるサンプルの1%以上、同時に同じクラスのラベルの65%程度を取得することです。

これはなかなか難しい課題だと思います。

そして、そのような機能があれば、MOがなくても、それだけで仕事ができるのです。

残念ながら、そのような機能はありません。

 
マキシム・ドミトリエフスキー

試験には必要ないですが、重宝しそうです。

結果は奇妙なもので、テストとトレーニングのサンプルではRecall 0.6-0.8、試験では変換なしで0.009、変換ありで0.65と、何かおかしいのです :(

CatBoostは変換アルゴリズムを学習しているような気がします :)

また、新旧のラインをマークするチャンスはあるのでしょうか?そして、変換されたサンプルから変換された文字列を 取り除き、解釈の問題なのか、質的訓練ではないのか、すべて確認することが可能です。

 
elibrarius:

これはなかなかチャレンジングだと思います。

そして、そのような機能が見つかれば、MoDがなくても、それだけで仕事ができるのです。

残念ながら、そのような機能はありません。

by yはグリッド分割、by Xはサンプル全体における各クラスの対象の合計の偏差率である。フィルターは5%です。異なるクラスが異なるセクションを支配しており、あるクラスによって改善が見られる(ヒストグラムがマイナスになる)ミラー変化とそうでない場合があることがわかります。これらはすべてトレーニングに生かされるべきものですが、私の知る標準的なトレーニング方法では、あまり考慮されていません。遺伝子を使ったオーバートレーニング(より正確には消去法)の方が効果的である可能性がある--そうすべきなのだ。