トレーディングにおける機械学習:理論、モデル、実践、アルゴトレーディング - ページ 2595

 
elibrarius#:

そうすると、できるだけ短い区間でトレーニングしなければならないことがわかります。そのため、パターンを変更した後、新しいパターンがより速く動作し始めるようになっています。

例えば、12ヶ月間トレーニングした場合、6ヶ月後のパターン変更後は、新旧のパターンが半々になります。そして、約1年後に新しいパターンでのトレーニングと取引が行われることになります。つまり、ほぼ丸一年間、時代遅れのパターンで取引され、ほとんどの場合、負けているのです。

1ヶ月トレーニングすれば、1ヶ月後にはまた正しく動作するようにパターンが学習されます。

1週間トレーニングするのが良いのでは・・・。しかし、データが十分ではありません。

短期間で行く価値は全くないですね、きっと。そして、モデルのためにデータが不足し、市場の状況にオーバーフィットする危険性があります。適応のコンセプトは良さそうだが、ラグがあるので(データが蓄積されている間に、すでに状態が変わっている可能性がある)、画期的とは言い難い。あるモデルは長期的なパターンを、別のモデルは短期的な(現在の)パターンを担当し、解決策はこれらすべてのモデルの解決策の関数である。

 
Aleksey Nikolayev#:
MOをトレーディングに活用するには、もっと興味深い問題があります。例えば、どの区間の履歴を学習に用いるかを決定するアルゴリズムです。おそらく、クロスバリデーションによって最適化されたメタパラメータによって設定することができるのでしょう。プラドを読まないといけない)。

おそらく前転した方がいい、電車の後に必ずOOSがある。SWでは、最初のパスだけがそうで、他はトランの前と後の両方のデータを使用します。

 
Replikant_mih#:

短期的に見れば、まったくなくなる価値はないでしょう。そして、モデルのためのデータが不足し、市場の状況にオーバーフィットしてしまうリスクもあるでしょう。適応というコンセプトは良さそうですが、ラグがあるので(データを蓄積する頃には、すでに状態が変わっているかもしれません)、画竜点睛とは言い難いですね。あるモデルは長期的なパターンを、別のモデルは短期的な(現在の)パターンを担当し、解はこれらすべてのモデルの解の関数である、というように、一度に複数のモデルを試すことができます。

最近、M5を5000本(約2ヶ月)使った実験によると、面白いことがありました。3000ではもうやばいです。ただし、これは特定のチップとターゲットを撮影した場合です。短いプロットで学習した後にモデルが動作するときの特徴量とターゲットが違うのかもしれません。実験してみないと...。
 
elibrarius#:
最近の5000行のM5の実験(約2ヶ月)によると、興味深いことがあります。3000ではもうやばいです。ただし、これは特定のチップ+ターゲットを撮影した場合の話です。短いプロットで学習した後にモデルが動作するときの特徴量とターゲットが違うのかもしれません。実験してみないと...。

機能の数にもよりますが、私はより多くの機能を使いたいので、通常は5000では足りません。5機能までなら、5000でもいいかもしれません。

 
elibrarius#:

そうすると、できるだけ短い区間でトレーニングしなければならないことがわかります。そのため、パターンを変更した後、新しいパターンがより速く動作し始めるようになっています。

例えば、12ヶ月間トレーニングした場合、6ヶ月後のパターン変更後は、新旧のパターンが半々になります。そして、約1年後には新しいパターンでのトレーニングや取引が行われるでしょう。つまり、ほぼ丸一年間、時代遅れのパターンで取引され、ほとんどの場合、負けているのです。

1ヶ月トレーニングすれば、1ヶ月後にはまた正しく動作するようにパターンが学習されます。

1週間トレーニングするのが良いのでは・・・。しかし、すでにデータは十分ではありません。

そうすると、学習が甘くなったり、利益が出なかったり......選別の問題なんでしょうね。短いサンプルでは,現在の分布からのサンプリングが役立つことがあります。
 
Replikant_mih#:

騒音については、そうですね。ノイズがある部分とない部分を取るという意味では考えませんでしたが。ところで、モデルトレーニングの前に、このことはどのように理解されているのでしょうか?繰り返しのような?セクション全体をトレーニングして、どこが一番パフォーマンスが高いかを見て、これらのセクションを残して、まずこれらのセクションだけをトレーニングするのですか?それは、実験的検証の前に哲学的とも言える2つ目の疑問が生まれます。モデルは、ノイズの多い領域を含むさまざまな領域をすぐに見ることができるが、ノイズの多いデータで平均的に学習するのと、よりクリーンなデータで学習するがノイズの多いデータを全く見ないのとどちらが良いのでしょう?


また、ジャイアントサイズの何がいけないのでしょうか?計算時間の増加とは別に?

そうですね、直近の履歴を異なるトレイの長さでトレーニングして、それ以前の履歴でモデルがどう動いたかを比較するように、どこかで同じタイミングで動かなくなったら、それが直近の履歴を考慮した「過去の適用可能な地平」だと思いますね。将来どうなるかは分かりませんが、ボットを停止する基準、例えば履歴より悪い取引が始まった場合などを決めることができます。

長いサンプルでは、サブサンプルに現れる一般的なパターンが消えてしまうことがあります。もし、サブサンプルからの規則性が互いに矛盾していれば、ノイズからしか学べないことになり、ほとんどの場合、成功するのですが :)
 
elibrarius#:

ヴァルキング・フォワーダーは、トラインの後に必ずOOSが出るので、おそらくその方が良いのでしょう。SWでは、最初のパスだけがそうなっていて、残りは列車の前と後の両方のデータを使うことになります。

例えばcatbustでは、特別な時系列KVがあります。しかし、その場合、データセットをシャッフルすることはできません。また、シャッフルしない場合は、同じ長さのセクションをずらすようにフィッティングする感じです。また、シャッフルした場合は、ローカルな信号に対する学習が多くなり、大雑把に言えば、トレンドの変化に左右されないということです。どちらが良いかは誰にもわからない :)
 
Maxim Dmitrievsky#:
そして、混ざらないようにすると、同じ長さのセクションを交互にはめ込んでいくような感じになります。
私もそのようにトレードしようと思っています。長さは1週間と同じになります。1週間のトレード、週末のトレーニング。そして、前方に歩くことも同じです。
 
愚直なまでに
 
elibrarius#:

おそらく、Valkingのフォワーダを使用した方が良いと思います。SWでは、最初のパスだけがそのようになり、残りはOOSの前と後の両方を末尾のデータとして使用することになります。

次の期にどうトレードするか」という質問に答えるなら、私も同意見です。もし、「歴史のこの部分にパターンがあるか」という質問に答えるのであれば、TORはかなり応用が効きます。

理由: