Всем привет! Так получилось, что я уже около семи лет занимаюсь машинным обучением. В последние несколько из них я как исследователь и CTO Neurons Lab часто работаю с финансовыми данными в рамках проектов, связанных с инвестиционным менеджментом и алгоритмическим трейдингом. Чаще всего клиенты приходят с текущими стратегиями, которые нужно...
catbust はかなり強い正則化を持っており,特に符号がカテゴリカルな場合は,boost でそのように宣言する必要があります.
L2正則化を減らしても 改善されなかった。だから、Lassoの方がうまくいくんです。
試験のサンプリングにちょうどいい作品かもしれませんね。そして、それに最適なパラメータを持つモデルを選んで、フィットを行うのです。
今は必ずクロスバリデーション(前方検証)で確認します。小さな部分にフィッティングするのではなく、一度にすべてのデータにフィッティングする、それが一番の学習方法だと思っています。
ドクもフォーラムから姿を消す前にアドバイスしていました。
まず、Lassoの調整ができないので、調整が全くできず、パラメータがそのままになっているんです。
次に、CatBoostomと同じプロットで、800ものモデルから選ぶことができ、実質的にベストな選択肢を選びました。
ファイルを添付しましたので、ご自身でいろいろなモデルを試してみてください。Lassoはバイナリサンプルにのみお勧めします。
まず、私はLassoのチューニング方法を知らないので、微調整は一切なく、 パラメータの ありのままの状態です。
次に、CatBoostomと同じサイトであること。そして、800ものモデルがあり、実質的にベストな選択肢を取ったということです。
ファイルを添付します - 自分で別のモデルを試してみてください、Lassoはバイナリサンプリングのためだけに推奨されています - これはトリックです。
クロスバリデーションはそのままお試しください。全データの1/10を異なる未知プロットで10回サイクルする。パラメータを指定したcatbustとデフォルトのパラメータを指定したlassoを選択した場合の最適な推定値になります。
同じように試してみてください。カスタムテスターでは問題なく動きましたが、モデルのエクスポート時に問題があります。
MAが トレーニングに関わるのであれば、モデルを適用する際にもあるはずではないか?
MAShkaの真髄はパーティションタイプ-上は1クラスだけ、下はもう1クラスだけ?
クロスバリデーションのためにそのまま試してみてください。全データの1/10を異なる未知プロットで10回サイクルする。これは、いくつかのパラメータを持つcatbustまたはデフォルトのパラメータを持つlassoを選択するための最適な推定値になります。
二値化は何らかのサンプリング推定によるものなので、クロスバリデーションはメインサンプルのプロットでより良い結果を示すでしょう。
クロスバリデーションは時間に縛られたサンプルにはあまり関係ありませんが、トレーディングの場合はそうです。市場は徐々に変化し、モデルは時間内に安定したパターンを見つけなければなりません。クロスバリデーションの場合、学習とチェックの時間間隔は学習済みサンプルと近いか、または分断されていることがあります。
現在、CatBoostは 全データの60%で学習させています。20%は停止制御に、残りの20%はモデルの評価に使っています。
トレーニングで10%ということであれば、サンプル数が少なすぎますね。クロスバリデーションは時間に縛られたサンプルにはあまり適していませんが、トレーディングの場合はそうです。市場は徐々に変化するので、モデルは時間と共に安定したパターンを見つけなければなりません。クロスバリデーションの場合、学習と検証の時間間隔を学習するサンプルに近づけたり差し引いたりすることが可能です。
何か標準的な・古くからあるクロスバリデーションの話でしょう。
まず、ラインを混ぜる必要はなく、0-90トレーニング90-100テスト、次に10-100トレーニング、0-10テスト、次に20-100-10トレーニング10-20テスト、などがあるようにブロックを取ります。
次に、プラドのアドバイスに従って、トレーとテストの間に剪定スペースを空けて、トレーとテストのサンプルを分離する必要があります。テストの10〜100の例題に隣接する電車の例題が、そのヒント/シーカーとなる。詳しくはこちら https://dou.ua/lenta/articles/ml-vs-financial-math/
もしくはこちらが画像です。
今、私のCatBoostは 全データの60%で学習していますが、そのうち20%は停止制御で、最後の20%はモデル評価です。
トレーニングに10%というのは、サンプリングとしては少なすぎる。そして最後に、クロスバリデーションの代わりに、ローリングフォワードを使用することができます。どちらが試験区を丸く取らず、前だけ取るのか。
shuffleパラメータは何をするのですか?通常、Falseの場合、Trueの場合よりもはるかに悪い結果に なります。
バレードフォワードを説明する写真。
shuffleパラメータは何のためにあるのですか?通常、Falseの場合、Trueの場合よりもはるかに悪い結果に なります。
テスト用と訓練用の例をシャッフルし、連続しないようにする。
は、3連符の例とテストの例を混ぜて、順を追わないようにしたのですか?
ランダム?ここに書いてあるように?