トレーディングにおける機械学習:理論、モデル、実践、アルゴトレーディング - ページ 104

 
Dr.トレーダー

Vtreatの方が良い。これは、特定の予測モデルを調整することなく、予測器が対象変数を予測するために全体的にどれだけ良いか/悪いか、すべてを統計的に評価するものです。最大スコアが1/(予測変数の数)の予測変数を使用することが推奨される。例えば、200個の予測変数がある場合、その中から1/200以下の評価を持つものだけを取り出すことができます。予測変数の推定が可能で、すべての推定値がしきい値より高い場合 - モデルをティーチングして新しいデータを予測しようとして失敗する代わりに、他の予測変数の検索を開始する方がよいでしょう。

このパッケージは予測子を1つずつ扱うので、それらの相互作用は考慮されません。また、完全に同一の予測変数や相関の高い予測変数があっても、vtreatは繰り返しのあるものを削除しないので、時々、非常にイライラさせられます。

実は相関性のある予測因子は悪なのです。

多分,このパッケージは一般的に予測変数の前処理を必要とします。例えば,スケーリング,センタリング,相関の除去......キャレットと同様です。

そうかもしれませんね?

 
サンサニッチ・フォメンコ

実は相関性のある予測因子は悪なのです。

多分,このパッケージは一般的に予測変数の前処理を必要とします.例えば,スケーリング,センタリング,相関の除去...,caretと同様です.

そうかもしれませんね?

ちなみに、データマイニングを中止した人はいません。このテーマについて、このサイトの同僚が素晴らしい記事を書いて います。残念ながら、著者はこのスレッドに参加していません。
 
Dr.トレーダー

ヒューリスティックを評価するために開発されたツールキット、素晴らしいですね。あなたが開発したモデル(委員会)訓練法がFXに適していないことが証明されましたが、次はどうしますか?


まだメソッドにポイントを置いていないんですね。トレーニングとテストで最も優れたモデルの1/3が、プラスアルファでさらに5年間の検証を経るのですから、それだけでも興味をそそられますね。みんながリークしてくれれば。

それに、私のグラフについては、もうひとつ考えていることがあります。もし、あるモデルが非常に優れていて、その値の95%が検証時に0を超えるようであれば、検証/テストの関係を忘れて、どんな学習済みモデルでも利用することができます。

それが、強力な(汎化効果の高い)モデルを探すポイントです。

 
このフォーラムに限らず、複雑な取引理論を構築しようとするようなトピックをいつも読んでいます。
遺伝的アルゴリズム、ニューラルネットワーク、作者だけが理解できる複雑な数式など。

そして、そのようなシステムは市場では通用しないことを、私はいつも目の当たりにしています。モニタリングはゼロかマイナスのどちらかになる。
でも次のスレでは2chのスレでExpert Advisor使って稼いでる人がいるんだよね。そして、しっかり稼いでいる。

問題は、それがすべて意味をなしているかということです。
なぜなら、私の経験上、システムが単純明快であればあるほど、利益が上がるからです。
 
サンサニッチ・フォメンコ

....ただし、ノイズが淘汰された後でなければなりません。そして、ノイズがないことは、異なるサンプルに対するモデルの性能の近似的な不変性によって決定される。予測誤差の絶対値ではなく、性能指標が近似的に等しいという事実が、(等質)モデルのオーバートレーニングがないことの証明と解釈できるのです。

また、お答えしたいことがあります。

ここでは、指標の平等性を見ています。オーバートレーニングの不足ということですね。しかし、選択したモデルをもう1つの大きなサンプル(遅延サンプル)でテストすることによって、オーバートレーニングが本当にないかを推定しようとしたことがありますか?ある一部分のデータで等倍にすると、そのデータに対するモデルの適合性が退化し、将来的にモデルが流出するのではありませんか?私はそんなパターンで研究をしています。

 
elasticnetについて読む。メソッドとパッケージです。線形モデルに対するハイブリッド正則化。予測相関はそこで処理されるだけです。
 
バイとセルフでモデルを分けてトレーニングしている人はいますか?
 
アレクセイ・ブルナコフ

私もお答えしたいと思います。

ここでは、指標の平等性を見ています。オーバートレーニングが足りないということですね。選択したモデルを別の大きなサンプル、つまり遅延サンプルでテストして、本当にオーバートレーニングがないかを評価しようとしたことがありますか?ある一部分のデータで等倍にすると、そのデータに対するモデルの適合性が退化し、将来的にモデルが流出するのではありませんか?私はこのパターンで研究をしています。

私は、ノイズを選別する独自のアルゴリズムを持っています。

もし、選択された予測因子でモデルを学習させれば、どのようなサンプルでもこのモデルの性能はほぼ同じになります。信頼区間についての 私の考えは、ここから「ほぼ等しい」という言葉をなくすことです。

それ以上に言いたいことがある。

練習の様子が違う。

一つは、窓際で仕事をしなければならない。そこで、ウィンドウでの作業のために、事前に選択した予測変数のセットから、キャレットからrfeで予測変数の選択を開始しました。特定のウィンドウで、誤差を5-7%減らすサブセットを得ることができました。H1で週1回やってます。このサブセットは、次の週末に変更されます。昨年からこのような生活をしています。

しかし、事前にノイズを取り除くことは必須です。やらなければ不思議と見えてくる。

 
結果が正反対の2つのモデルを作るのは、意味がないと思います
購入用と販売用でモデルを分けてトレーニングしている人は?

私は「買い」と「売り」の2つのクラスしか予測しないので、常に何らかのトレードをオープンにしておくことになります。私は1つのモデルで仕事をしていますが、正反対の結果を出す2つのモデルを作る意味はないと思います。

しかし、徐々に「買い」/「全て決済」、「取引しない」/「売る」の3つのクラスに変えていきたいと思っています。そうすれば、より複雑な戦略で取引する機会が得られるでしょう。私も何度か試しましたが、3クラスへのモデルの学習、特に逆行するモデルの後に結果をクラスに丸めるという問題がありました。
もともとの1/0/1クラスを、1モデル目(購入のみ)は1/0/0、2モデル目(販売のみ)は0/0/1に変換して2モデル作ってみる価値はあると思います。そうすると、各モデルのクラスが偏ってしまう(あるクラスを持つ例の数が他よりずっと多い)のですが、そのような条件下で機能するモデルを評価する良い指標として、Fスコアとカッパを見つけました。まだこの方向では何もしていませんが、そのような計画は十分可能だと思います。

 
SanSanych Fomenko:

実は相関性のある予測因子は悪なのです。

多分,このパッケージは一般的に予測変数の前処理を必要とします.例えば,スケーリング,センタリング,相関の除去...,caretと同様です.

そうかもしれませんね?

いいえ、vtreatは予測変数の相互作用を全く分析しないだけです、残念ながら。1つ1つ厳密に研究しているのです。グラフィカルな パッケージではないので :(
スケーリングやセンタリングで違いが出るとは思えません。また、Y-awareオプションを有効にすると、パッケージはデータ自体をスケーリングし、センタリングするようになります。

ウラジミールの興味深い記事、リンクありがとうございます。予測因子間の相互作用の解析は、まさに本題です。

理由: