トレーディングにおける機械学習:理論、モデル、実践、アルゴトレーディング - ページ 2551

 
Maxim Dmitrievsky#:

CVの結果は、その後どのように活用するのが正しいのでしょうか?

モデルのハイパーパラメータ(学習木の深さや葉の中の例数、木の本数など)とデータセット(行数、特徴の組み合わせが可能)を最適化する。

これらのバリエーションをすべて実行し、モデルやデータセットのパラメータの最適なバリエーションを、前方評価の最良の合計結果によって選択します。クロスバリデーションの方が悪いと思います。ローリングフォワードは、1週間トレードして、また1週間再トレーニングして、また再トレーニングして、というように、現実に起こることをコピーしています。

最適なモデルパラメータを取得し、データセット全体で学習させる。

全データセットで学習するのは論理的ではありません。
歴史の深さとは何なのか、同じ深さでトレーニングを続けていくべきだ。M5の5万行(ほぼ1年)でN回学習させたモデルは、全順位の合計で52%を示します。同じパラメータを使用しても、履歴の深さ、つまり7万行か3万行かの違いだけで、全順位の合計で50%を下回ることになります。

葉に同じ例が含まれないからである。木は葉が多いか少ないか、など。データセットのサイズが異なる場合は、リーフの深さやサンプル数を変更する必要があると思います。

 
elibrarius#:

モデルのハイパーパラメータ(木の学習の深さや葉の中の例数、木の本数など)とデータセット(行数、特徴の組み合わせが可能)を最適化する。

これらのバリエーションをすべて実行し、モデルやデータセットのパラメータの最適なバリエーションを、前方評価の最良の合計結果によって選択します。クロスバリデーションは、私の意見では、より悪いです。ヴァルキングフォワードは、現実にどうなるかのコピーです:1週間取引して、再トレーニングし、もう1週間、また再トレーニングする、など。

データセット全体では、非論理的です。
自分が持っている歴史の中で一番深いのは何かというと、同じ深さでトレーニングを続けることです。M5の5万行(ほぼ1年)でN回学習させたモデルは、全前進の合計の52%を示すかもしれません。 同じパラメータを使用しても、履歴の深さ、つまり7万行か3万行かの違いだけで、全前進の合計の50%を下回ることになるでしょう。

葉に同じ例が含まれないからである。木は葉が多いか少ないか、など。データセットの大きさが異なる場合は、リーフの深さやサンプル数を変更する必要があると思います。

私の考えでは、cvはデータセットの質を評価するために必要なのであって、特定のモデルの頑健性を評価するために必要なのではありません。k-foldsの平均誤差が許容範囲内であれば、このデータセットでモデルを学習させれば、それも良いだろう。cv.NETで使用したモデルから平均化されたパラメータを借用することができます。
 
Maxim Dmitrievsky#:
私の意見では、cvは特定のモデルの頑健性ではなく、データセットの品質を評価するために必要なものだと思います。k-foldsの平均誤差が許容範囲であれば、このデータセットでモデルを学習させれば、それも良いだろう。cvに使用したモデルから平均化したパラメータを借用することができます。
データセットから、常に異なるチャンクを取り出します。データセット(ライン数、フィーチャー数)とモデルパラメータの両方を最適化する予定です。
 
Aleksey Nikolayev#:

試験で出たすべての観測値が、試験に対してある意味で異常値であるかどうかを確認することは、おそらく可能でしょう。

それが分かれば面白いですね!

私が言いたいのは、市場は変動的で周期的であり、理論的にはどんなモデルも、事象が繰り返されると仮定すれば(そうでなければ学ぶ意味がない)、その存在の異なる期間において高い精度を持つことになり、テストセクションでは単に別の市場、別の波が存在する可能性が高いということです。トレーニングは最も顕著なパターンで行われますが、それがそのまま安定したものになると考える権利があるのでしょうか!モデルの質は安定したパターンを記述する予測変数に依存するので、サンプルの異なる部分の結果に典型的なそれらの例で訓練するべきだと思うのです。

 
mytarmailS#:
木製模型経由でもいいんだけど...。
モデルをルールに分解し、そのルールを統計的に分析し(再現性など)、そのルールが新しいデータに現れるかどうかを確認する......。

intrees "パッケージ5行のコードと行く

葉っぱでずっとやっていたんですが、ちょっと違うんですよね。サンプルの中の非典型的な例を検出することができないんです。

 
Vladimir Perervenko#:

NoiseFiltersRパッケージ 記事を ご覧ください。

記事を見て、私が理解する限り、このパッケージは有意な結果を与えていない - 約3%の増加、しかし、それは興味深いです - あなたはその仕事の原理を説明することができますか?

 
elibrarius#:
データセットから常に異なるチャンクを取得することになる。データセット(ライン数、フィーチャー数)とモデルパラメータの両方を最適化しています。

忘れてましたが、現在1時間のローソクの目標色・種類はありますか?

 
Aleksey Nikolayev#:

ノイズの予測値はある程度はっきりしているのですが、ノイズの例題はあまりよくありません。それらがどのように定義されているのか、もっと知りたいです(使用されているパッケージ/関数の名前ではなく、理論的な観点から、もちろんRの記事への参照は常にありますが)。常にマーケットにいるように努力することは間違いであると考えられるので、分類する際に「トレードしない」クラスを設けるべきであることは明らかである。しかし、このクラスを多かれ少なかれ正式な形で正しく表現する方法は、あまり明確ではありません。

ノイズの多い例を処理する方法として、削除、再分割(マーキングの修正)、ノイズの多い例用に別のクラスを作成する、という3つのオプションが用意されています。私の経験上、サンプルの約25%は「ノイズ」です。品質向上は5%程度で、モデルやデータ作成に依存する。たまに塗っています。

予測変数の使用にはもう一つ問題があります。そして、この問題はテストと運用の両方で特定され、考慮される必要があります。添付の翻訳記事(ネットで他を探す)、ドリフターパッケージが あります。それだけではありません。しかし、重要なのは、予測因子を選択する際に、その重要性だけでなく、ドリフトも考慮する必要があるということです。高ドリフターは廃棄または変換し、低ドリフターはテストや作業の際に考慮する(補正する)。

グッドラック

ファイル:
Drift1.zip  2238 kb
 
Aleksey Vyazmikin#:

忘れましたが、現在の1時間足のローソクの色・種類をターゲットにしているのでしょうか?

30%の誤差でもローソク足の色は負けることがある。そこからどれだけの利益を得ることができるかはわかりません...色は通常、価格の遅い動き(オーバーナイト)でよく推測され、1つの見逃した強い日足ローソク足は、10の小さなオーバーナイトに値するかもしれません。ローソク足の色を当てるのは、やはり(次元がランダムなため)ランダムな出力になるのだと思います。
だから、TP、SLと分類をしたんです。もしそれらが同じなら、成功した取引の52%はすでに利益を上げていることになる。TP=2*SLの場合。そうすると、成功した取引の33%以上が利益を生むことになります。私の場合、2年間でTP=SLで52-53%の成功率というのが最高です。しかし、一般的には、TP/SLを固定したリグレッションを使おうと思っています。より正確には、回帰に基づく分類をしようと考えています。
 

数年ぶりに掲示板を見たら、歌にあるように「君がいたこと、君がいたこと、草原の鷲、颯爽としたコサック...」がそのまま残っていました。

統計学は公理から始まるが、公理である以上、議論されることはない。


"Garbage in, rubbish out"(ゴミを入れ、ゴミを出す)。


原理的に、ゴミを甘くするような数学的手法は存在しないし、ありえない。先生を阻止する予測因子がある のか、ないのか、どちらかです

また、モデルは実質的に何の役割も果たしませんし、クロスバリデーションやその他の計算集約的な倒錯もしません。


PS.

ちなみに、モデルにおける予測因子の「重要度」は、先生の予測能力とは関係ありません。

理由: