トレーディングにおける機械学習:理論、モデル、実践、アルゴトレーディング - ページ 470

 
ミハイル・マルキュカイツ

しかし、本当のポイントは、これです。テスト区間で悪いスプリットがあった場合、スプリットが正しいかどうかは問題ではなく、スプリットが弱いという事実が問題なのです。そして、モデルが学習区間の50%以上働いていない場合、モデルは過剰に学習されたとみなされる...。IMHO

ところで、数列の記事の中で、いくつかの信号を連続して数え、そこを反転させる...信号の重ね合わせを提案されていたのを覚えていますか?

このようなことをファジーロジックで実装し、学習プロセスに組み込むという面白いソリューションを思いつきましたので、後日、何か投稿したいと思います :)

 
マキシム・ドミトリエフスキー

脳が壊れ始めることもある...FXのノイズの件ですが、電波じゃないですよね?FXのノイズはどこから来るのか?


FXにおける「ノイズ」の概念については、このスレッドで私がかなり広範囲に渡って議論してきました。自分でやったのか、誰かからコピーしたのか......覚えてないですし、どうでもいいですね。いずれにせよ、このスレッドで似たような記事のリンクを貼っています。

私の理解では、「ノイズ」とは、対象変数と関係のない予測変数の全部または一部であり、コーヒーのかすのようなものです。


例を挙げて説明します(先ほど書いたことの繰り返しです)。


男性と女性という2つのクラスからなるターゲットを考えてみましょう。

予測因子として、服装を取り上げましょう。

予測値はズボンとスカートの2つだけである。ある国では、この予測器は100%の予測能力を持ち、すなわちスカートは女性を、ズボンは男性を予測する。この予測器にはノイズが全くない。クラス分けエラー=0。オーバートレーニングはありません。

この例は遠回しで、予測子「服」には「ユニセックス」という名前の服が含まれる可能性があります。つまり、「ユニセックス」な服は、私たちのターゲット変数にとって、まったく予測力を持たないということです。

もし、「ズボン」「スカート」「ユニセックス」の値を持つ予測子を取れば、「ユニセックス」は分類誤差の原因となります。ユニセックスな服の割合が30%であれば、理論的にはモデル学習誤差=30%が可能ですが、このような予測器では、誤差29%ということはモデルのオーバートレーニングが1%ということになります!(笑)。


実践で使っています。そのおかげで、ランダムフォレストの 予測変数が30%以下の誤差で選択できるようになりました。こちらはオーバートレーニングモデルではありません。学習時、同一ファイル内のテストサンプル、他の外部ファイルでの誤差はほぼ同じです。

私の例の誤差を減らすとはどういうことですか?つまり、ノイズの値がその30%よりも小さくなるような予測因子を見つけるということです。成功したわけではありません。もしかしたら、誰かが成功するかもしれない。

しかし、この分析なくしては、どんなMOモデルも、コーヒー豆の上で数字を並べる知的なゲームに過ぎず、空疎な行為となります。


PS.

上記の誤差は、通常、機種の種類には依存しません。異なる足場、アダのバリエーションも試しましたが、ほぼ同じでした。しかし、nnetであるNSは、明らかに悪い結果をもたらします。

 
サンサンフォーメンコ

FXにおける「ノイズ」の概念については、このスレッドでかなり広範囲に議論してきました。自分で考案したのか、誰かから借りたのか覚えていませんし、どうでもいいことなんですけどね。いずれにせよ、このスレッドで似たような記事のリンクを貼っています。

私の理解では、「ノイズ」とは、対象変数と関係のない予測変数の全部または一部であり、コーヒーのかすのようなものです。


例を挙げて説明します(先ほど書いたことの繰り返しです)。


男性と女性という2つのクラスからなるターゲットを考えてみましょう。

予測因子として、服装を取り上げましょう。

予測値はズボンとスカートの2つだけである。ある国では、この予測器は100%の予測能力を持ち、すなわちスカートは女性を、ズボンは男性を予測する。この予測器にはノイズが全くない。クラス分けエラー=0。オーバートレーニングはありません。

この例は遠回しで、予測子「服」には「ユニセックス」という名前の服が含まれる可能性があります。つまり、「ユニセックス」な服は、私たちのターゲット変数にとって、まったく予測力を持たないということです。

もし、「ズボン」「スカート」「ユニセックス」の値を持つ予測子を取れば、「ユニセックス」は分類誤差の原因となります。ユニセックスな服の割合が30%であれば、理論的にはモデル学習誤差=30%が可能であるが、このような予測器では29%の誤差は1%のモデルの過学習を意味する。


ただ、このノイズ予測器がどの程度まで誤差を少なくできるのか、実際の条件で予測器を選ぶとしたら...情報量の少ないものをふるいにかけるだけで、それだけなのか、事前に知ることはできません。

が、一般的にはクリアしているようです )

 
マキシム・ドミトリエフスキー

...そこにあるのは、役に立たないものを選別することだけです。


これは深い誤解です。誤差最小化アルゴリズムが機能するということは、様々な方法で理解することができます。NOTノイズよりも多様性を含んだノイズが最適です。コーヒーの粉から泡を拾い上げるアルゴリズム。

 
サンサニッチ・フォメンコ

これは深い誤解です。誤差最小化アルゴリズムが機能するということは、様々な方法で理解することができます。NOTノイズよりMOREバラエティに富んだノイズが最適です。コーヒーの粉から泡を拾い上げるアルゴリズム。

Jpredictorのことです...ノイズを自動的に選別してくれます。

そのため、実際に何が起こっているのかを理解するためというよりは、実験するためのものです )

このh2Oプラットフォームは、ブーストのある森なのですが、もしかしたらご存知でしょうか? マイクロフトやxgboostと並んで、大丈夫だと言われています。

https://www.h2o.ai/

 

まだご覧になっていない方は、このスレッドを ご覧になることをお勧めします。

 
ヴィザード_。

FaとMishanは鉱夫ではありません)))
オウムのオカズにはなるけど。+ LightGBM、+ CatBoost。
GPUにpythonとかを載せて、もうちょっとマシなカットにしたい...。

多くのR-packageはGPUで問題なく動作します。

SatBoostを実行しましたか?だから興味がある。

グッドラック

 
マキシム・ドミトリエフスキー
つまり、Jpredictorは、それ自体でノイズの特徴をフィルタリングしているのです。

とにかく、このトピックは、そこで何が起こっているかを本当に理解しようとするより、実験のためのものです )

私はこのh2Oプラットフォームを試してみたい、それはちょうどブーストと森です...多分あなたは聞いたことがありますか? 人々はそれが大丈夫だと言う、mcroftの、xgboostと一緒に

https://www.h2o.ai/

Javaで書かれていて、メモリを大量に使う。類似のRパッケージと比較しても、良くも悪くもない動作です。後方互換性を持たずに継続的に改善するという、1つの欠点と1つの長所があります。

実験するのは良いのですが、仕事にはお勧めできません(IMHO)。

グッドラック

 
サンサニッチ・フォメンコ

これは深い誤解です。誤差最小化アルゴリズムが機能するということは、様々な方法で理解することができます。NOTノイズよりMOREバラエティに富んだノイズが最適です。コーヒーの粉から泡を拾い上げるアルゴリズム。

「ノイズ」と「オーバーフィット」は専門用語で、人によって定義が異なります。直感的には、「学習済み」と「オーバーフィット」の違いは理解できるのですが、それをプログラム言語に置き換えるのは難しいのです。私はこれを簡単に言うと、テスト誤差が大きくなり始め、「オーバートレーニング」(「オーバーフィッティング」とは違う)の始まりと定義しています。もし見つけたら、英語のネットでこのテーマについて興味深い議論が行われているリンクを送ります。

グッドラック

 
サンサニッチ・フォメンコ

FXにおける「ノイズ」の概念については、このスレッドでかなり広範囲に議論してきました。自分で考案したのか、誰かから借りたのか覚えていませんし、どうでもいいことなんですけどね。いずれにせよ、このスレッドで似たような記事のリンクを貼っています。

私の理解では、「ノイズ」とは、対象変数と関係のない予測変数の全部または一部であり、コーヒーのかすのようなものです。


例を挙げて説明します(先ほど書いたことの繰り返しです)。


男性と女性という2つのクラスからなるターゲットを考えてみましょう。

予測因子として、服装を取り上げましょう。

予測値はズボンとスカートの2つだけである。ある国では、この予測器は100%の予測能力を持ち、すなわちスカートは女性を、ズボンは男性を予測する。この予測器にはノイズが全くない。クラス分けエラー=0。オーバートレーニングはありません。

この例は遠回しで、予測子「服」には「ユニセックス」という名前の服が含まれる可能性があります。つまり、「ユニセックス」な服は、私たちのターゲット変数にとって、まったく予測力を持たないということです。

もし、「ズボン」「スカート」「ユニセックス」の値を持つ予測子を取れば、「ユニセックス」は分類誤差の原因となります。ユニセックスな服の割合が30%であれば、理論的にはモデル学習誤差=30%が可能ですが、このような予測器では、誤差29%ということはモデルのオーバートレーニングが1%ということになります!(笑)。


実践で使っています。そのおかげで、ランダムフォレストの予測変数が30%以下の誤差で選択できるようになりました。こちらはオーバートレーニングモデルではありません。学習時、同一ファイル内のテストサンプル、他の外部ファイルでの誤差はほぼ同じです。

私の例の誤差を減らすとはどういうことですか?つまり、ノイズの値がその30%よりも小さくなるような予測因子を見つけるということです。成功したわけではありません。もしかしたら、誰かが成功するかもしれない。

しかし、この分析なくしては、どんなMOモデルも、コーヒー豆の上で数字を並べる知的なゲームに過ぎず、空疎な行為となります。


PS.

上記の誤差は、通常、機種の種類には依存しません。異なる足場、アダのバリエーションも試しましたが、ほぼ同じでした。しかし、nnet NSは、逆に明らかに悪い結果を出しています。

無関係な例を削除し、主成分や独立成分を分離し、最終的に離散化することができます。予測変数の前処理を行いましたか?異常値を除去してほしい(森林のため、クリティカルではない)。

悲観的なようですね。

私だけでしょうか?

グッドラック