トレーディングにおける機械学習:理論、モデル、実践、アルゴトレーディング - ページ 1325

 
Farkhat Guzairov:

上記のすべてがクールで、とても参考になるのですが、「トレーニングコントロール」、どういう意味でしょうか?

I.e.例えば、2014年のデータのサンプルでシステムを訓練し、2015年のサンプルを与えて、パターンの確率を見たいですか?もしそうなら、何も交換する必要はなく、すべてが正しいのです。ただ、コントロールが予想と違う結果を出しても、それはそれで問題ないと思います。

トレーニングにCatBoostを使って いますが、コントロール(検証)サンプルでトレーニングを停止する機会があります。つまり、トレーニングサンプルでエラーが減少すると同時に、コントロールサンプルで結果がどう変化したかをすぐに確認し、コントロールサンプルで結果が所定の数の木を改善しない場合、トレーニングを停止して最後の改善までのすべての木を切り離すのです。そうですね、年表はこんな感じで、2014年にトレーニング、2015年から2018年までコントロールトレーニング、2018年に結果確認という感じです。学習中に検出されたパターンがやがて機能しなくなる可能性があり、現実のアプリケーションに近いデータで学習した方が良い場合もありますから、場所を入れ替えることに意味があるのかもしれません - それは未知の問題です。

 
ファルハット・グザイロフ

もし、あなたの場合のMOの実用化は、私の考えでは次のようなものです。

真の結果の100%の確率を得ることは単に不可能なので、次に単純な方法に行き、例えば、真の結果と偽の結果の比率は、それが50/50の領域である場合、再び我々はあなたがこれらの結果で得る利益を理解しなければならない、利益の50%が100ポイントの平均であり、残りの50%の損失は平均50ポイントであれば、私はあなたのシステムはすでに実用に適していると思います。

表中の分類の精度は、メトリックの精度です - 約60%(最高のモデルの場合)が正しいエントリを取得し、いくつかの位置が損益分岐する必要があるため、戦略テスターでは、それが高くなります、しかし、利益を取ることは ありません。

まだ応募するのは早いので、次のステージ、つまりハーバリアでのモデル作りに向けて準備しましょう :)

 
アレクセイ・ヴャジミキン

トレーニングにCatBoostを使用していますが、コントロール(検証)サンプルでトレーニングを停止するオプションがあります。つまり、トレーニングサンプルでのエラー削減と並行して、コントロールサンプルで結果がどう変化したかをすぐにチェックし、コントロールサンプルで結果が所定の数の木を改善しない場合、トレーニングを停止して最後に改善した木すべてを切り離すことができます。そうですね、年表はこんな感じで、2014年にトレーニング、2015年から2018年までコントロールトレーニング、2018年に結果確認という感じです。なぜなら、学習中に検出されたパターンが、やがて機能しなくなる可能性があり、現実のアプリケーションに近いデータで学習する方が良い場合があるからです。これは未解決の問題です。

例えば、自分自身で気づいたこと。学習に関わるデータが多くなればなるほど、システムは「窮屈」になる、つまりなぜそうなるかというと、ある期間ではあるモデルがポジティブな結果を出し、別の期間では同じモデルがネガティブな結果を出すからです。

 
アレクセイ・ヴャジミキン

boostingについて - 同じ講師の新しい講義(pythonでcatbustがオプション)があったのですが、見つかりません。


GBMが回帰木で分類問題を解決しているのは面白いですね。

どなたかご存知ですか?他のブースト方式(パッケージ)でも同じようになるのでしょうか?

 
アレクセイ・ヴャジミキン

そして、どのような結論が導き出されるのでしょうか。つまり、学習はモデルの検証よりも少ないサンプルで行われるべきです。しかし、30%という内訳を強調しないわけにはいかない。そこでも、すべての指標による結果は悪くなく、40%、50%とかなり隣り合わせに失敗がある。サンプル量と内容のどちらが影響するのか、どう設定すればいいのかもわからない...。

60~70%が良くて、30%が良いとすると、偶然にもこの数字に当たる確率があるのです。
完全に計算を繰り返してみて、2回目も同じなら規則性があると思えばいいんです。(統計的な有意性を高めるために10回繰り返す必要があります)。
 
ファルハット・グザイロフ

例えば、自分自身で気づいたこと。学習に関わるデータが多くなればなるほど、システムは「窮屈」になる、つまりそのため、結果の確率が低くなります。なぜそうなるかというと、ある期間にあるモデルがプラスの結果を示し、同じモデルが別の期間にマイナスの結果を示すからです。その結果、システムは茫然自失となり、私が言ったように「きつく」なります。しかし、賢いシステムがより真の結果を出すという意味ではありません。比率は変わらないでしょうが、システムが現在の状況について意見を言う頻度は低くなるでしょう。

トレーディングにおけるシグナルは少ないほうがいい、より正確で、モデルは独立したアンサンブルで組み合わせることができる、そうすれば分類の精度は高くなり、完全性(1と認定される事象の数)が高まる、と考えているのです。重要なのは、優れたモデルを生成することに慣れることです。

 
エリブラリウス

興味深いことに、GBMは回帰木による分類問題を解決している。

どなたかご存知の方いらっしゃいますか?他のブースト方式(パッケージ)でも同じようになるのでしょうか?

私が知っている限りでは同じことをしている(いろいろなところで言及されている)。トレーニングそのものの特殊性から、他に方法はないのです。だからこそ、先ほど「考える木の並びが答えの重みに影響する」と言いましたが、それこそ葉のアンサンブルを考えて、ひとつのルールに変換することが合理的なのです。

 
エリブラリウス
60~70%が良くて、30%が良いということであれば、偶然にこの数字に当たる可能性があります。
完全に計算を繰り返してみて、2回目も同じであればパターンと考えてもいいでしょう。(統計的な有意性を高めるために10回繰り返す必要があります)。

また、どのようにするのですか?つまり、シードが固定されているので、新しいシードを取ることができる、ということです。

一方、1サンプルあたり200個のモデルを使用しており、これも決して少なくない。
 
非定常市場においてこのような研究をしても結論は出ない
 
マキシム・ドミトリエフスキー
非定常市場においてこのような研究をしても結論は出ない

サンプルは固定で、トレーニング用の内訳は変わりましたが、自主評価用は変わりません。

ご指摘の点について、もう少し詳しくご説明ください。

理由: