トレーディングにおける機械学習：理論、モデル、実践、アルゴトレーディング

Maxim Dmitrievsky 2017.08.25 07:19 #4691

ミハイル・マルキュカイツ

しかし、本当のポイントは、これです。テスト区間で悪いスプリットがあった場合、スプリットが正しいかどうかは問題ではなく、スプリットが弱いという事実が問題なのです。そして、モデルが学習区間の50%以上働いていない場合、モデルは過剰に学習されたとみなされる...。IMHO

ところで、数列の記事の中で、いくつかの信号を連続して数え、そこを反転させる...信号の重ね合わせを提案されていたのを覚えていますか？

このようなことをファジーロジックで実装し、学習プロセスに組み込むという面白いソリューションを思いつきましたので、後日、何か投稿したいと思います :)

СанСаныч Фоменко 2017.08.25 07:26 #4692

マキシム・ドミトリエフスキー：

脳が壊れ始めることもある...FXのノイズの件ですが、電波じゃないですよね？FXのノイズはどこから来るのか？

FXにおける「ノイズ」の概念については、このスレッドで私がかなり広範囲に渡って議論してきました。自分でやったのか、誰かからコピーしたのか......覚えてないですし、どうでもいいですね。いずれにせよ、このスレッドで似たような記事のリンクを貼っています。

私の理解では、「ノイズ」とは、対象変数と関係のない予測変数の全部または一部であり、コーヒーのかすのようなものです。

例を挙げて説明します（先ほど書いたことの繰り返しです）。

男性と女性という2つのクラスからなるターゲットを考えてみましょう。

予測因子として、服装を取り上げましょう。

予測値はズボンとスカートの2つだけである。ある国では、この予測器は100%の予測能力を持ち、すなわちスカートは女性を、ズボンは男性を予測する。この予測器にはノイズが全くない。クラス分けエラー＝0。オーバートレーニングはありません。

この例は遠回しで、予測子「服」には「ユニセックス」という名前の服が含まれる可能性があります。つまり、「ユニセックス」な服は、私たちのターゲット変数にとって、まったく予測力を持たないということです。

もし、「ズボン」「スカート」「ユニセックス」の値を持つ予測子を取れば、「ユニセックス」は分類誤差の原因となります。ユニセックスな服の割合が30％であれば、理論的にはモデル学習誤差＝30％が可能ですが、このような予測器では、誤差29％ということはモデルのオーバートレーニングが1％ということになります！（笑）。

実践で使っています。そのおかげで、ランダムフォレストの予測変数が30％以下の誤差で選択できるようになりました。こちらはオーバートレーニングモデルではありません。学習時、同一ファイル内のテストサンプル、他の外部ファイルでの誤差はほぼ同じです。

私の例の誤差を減らすとはどういうことですか？つまり、ノイズの値がその30％よりも小さくなるような予測因子を見つけるということです。成功したわけではありません。もしかしたら、誰かが成功するかもしれない。

しかし、この分析なくしては、どんなMOモデルも、コーヒー豆の上で数字を並べる知的なゲームに過ぎず、空疎な行為となります。

PS.

上記の誤差は、通常、機種の種類には依存しません。異なる足場、アダのバリエーションも試しましたが、ほぼ同じでした。しかし、nnetであるNSは、明らかに悪い結果をもたらします。

Maxim Dmitrievsky 2017.08.25 07:48 #4693

サンサンフォーメンコ。

FXにおける「ノイズ」の概念については、このスレッドでかなり広範囲に議論してきました。自分で考案したのか、誰かから借りたのか覚えていませんし、どうでもいいことなんですけどね。いずれにせよ、このスレッドで似たような記事のリンクを貼っています。

私の理解では、「ノイズ」とは、対象変数と関係のない予測変数の全部または一部であり、コーヒーのかすのようなものです。

例を挙げて説明します（先ほど書いたことの繰り返しです）。

男性と女性という2つのクラスからなるターゲットを考えてみましょう。

予測因子として、服装を取り上げましょう。

予測値はズボンとスカートの2つだけである。ある国では、この予測器は100%の予測能力を持ち、すなわちスカートは女性を、ズボンは男性を予測する。この予測器にはノイズが全くない。クラス分けエラー＝0。オーバートレーニングはありません。

この例は遠回しで、予測子「服」には「ユニセックス」という名前の服が含まれる可能性があります。つまり、「ユニセックス」な服は、私たちのターゲット変数にとって、まったく予測力を持たないということです。

もし、「ズボン」「スカート」「ユニセックス」の値を持つ予測子を取れば、「ユニセックス」は分類誤差の原因となります。ユニセックスな服の割合が30％であれば、理論的にはモデル学習誤差＝30％が可能であるが、このような予測器では29％の誤差は1％のモデルの過学習を意味する。

ただ、このノイズ予測器がどの程度まで誤差を少なくできるのか、実際の条件で予測器を選ぶとしたら...情報量の少ないものをふるいにかけるだけで、それだけなのか、事前に知ることはできません。

が、一般的にはクリアしているようです )

СанСаныч Фоменко 2017.08.25 08:09 #4694

マキシム・ドミトリエフスキー

...そこにあるのは、役に立たないものを選別することだけです。

これは深い誤解です。誤差最小化アルゴリズムが機能するということは、様々な方法で理解することができます。NOTノイズよりも多様性を含んだノイズが最適です。コーヒーの粉から泡を拾い上げるアルゴリズム。

Maxim Dmitrievsky 2017.08.25 08:17 #4695

サンサニッチ・フォメンコ

これは深い誤解です。誤差最小化アルゴリズムが機能するということは、様々な方法で理解することができます。NOTノイズよりMOREバラエティに富んだノイズが最適です。コーヒーの粉から泡を拾い上げるアルゴリズム。

Jpredictorのことです...ノイズを自動的に選別してくれます。

そのため、実際に何が起こっているのかを理解するためというよりは、実験するためのものです )

このh2Oプラットフォームは、ブーストのある森なのですが、もしかしたらご存知でしょうか？マイクロフトやxgboostと並んで、大丈夫だと言われています。

https://www.h2o.ai/

Vladimir Perervenko 2017.08.25 10:41 #4696

まだご覧になっていない方は、このスレッドをご覧になることをお勧めします。

Vladimir Perervenko 2017.08.25 10:44 #4697

ヴィザード_。

FaとMishanは鉱夫ではありません)))
オウムのオカズにはなるけど。+ LightGBM、+ CatBoost。
GPUにpythonとかを載せて、もうちょっとマシなカットにしたい...。

多くのR-packageはGPUで問題なく動作します。

SatBoostを実行しましたか？だから興味がある。

グッドラック

Vladimir Perervenko 2017.08.25 10:48 #4698

マキシム・ドミトリエフスキー
つまり、Jpredictorは、それ自体でノイズの特徴をフィルタリングしているのです。

とにかく、このトピックは、そこで何が起こっているかを本当に理解しようとするより、実験のためのものです )

私はこのh2Oプラットフォームを試してみたい、それはちょうどブーストと森です...多分あなたは聞いたことがありますか？人々はそれが大丈夫だと言う、mcroftの、xgboostと一緒に

https://www.h2o.ai/

Javaで書かれていて、メモリを大量に使う。類似のRパッケージと比較しても、良くも悪くもない動作です。後方互換性を持たずに継続的に改善するという、1つの欠点と1つの長所があります。

実験するのは良いのですが、仕事にはお勧めできません（IMHO）。

グッドラック

Vladimir Perervenko 2017.08.25 10:56 #4699

サンサニッチ・フォメンコ

これは深い誤解です。誤差最小化アルゴリズムが機能するということは、様々な方法で理解することができます。NOTノイズよりMOREバラエティに富んだノイズが最適です。コーヒーの粉から泡を拾い上げるアルゴリズム。

「ノイズ」と「オーバーフィット」は専門用語で、人によって定義が異なります。直感的には、「学習済み」と「オーバーフィット」の違いは理解できるのですが、それをプログラム言語に置き換えるのは難しいのです。私はこれを簡単に言うと、テスト誤差が大きくなり始め、「オーバートレーニング」（「オーバーフィッティング」とは違う）の始まりと定義しています。もし見つけたら、英語のネットでこのテーマについて興味深い議論が行われているリンクを送ります。

グッドラック

Vladimir Perervenko 2017.08.25 11:06 #4700

サンサニッチ・フォメンコ

FXにおける「ノイズ」の概念については、このスレッドでかなり広範囲に議論してきました。自分で考案したのか、誰かから借りたのか覚えていませんし、どうでもいいことなんですけどね。いずれにせよ、このスレッドで似たような記事のリンクを貼っています。

私の理解では、「ノイズ」とは、対象変数と関係のない予測変数の全部または一部であり、コーヒーのかすのようなものです。

例を挙げて説明します（先ほど書いたことの繰り返しです）。

男性と女性という2つのクラスからなるターゲットを考えてみましょう。

予測因子として、服装を取り上げましょう。

予測値はズボンとスカートの2つだけである。ある国では、この予測器は100%の予測能力を持ち、すなわちスカートは女性を、ズボンは男性を予測する。この予測器にはノイズが全くない。クラス分けエラー＝0。オーバートレーニングはありません。

この例は遠回しで、予測子「服」には「ユニセックス」という名前の服が含まれる可能性があります。つまり、「ユニセックス」な服は、私たちのターゲット変数にとって、まったく予測力を持たないということです。

もし、「ズボン」「スカート」「ユニセックス」の値を持つ予測子を取れば、「ユニセックス」は分類誤差の原因となります。ユニセックスな服の割合が30％であれば、理論的にはモデル学習誤差＝30％が可能ですが、このような予測器では、誤差29％ということはモデルのオーバートレーニングが1％ということになります！（笑）。

実践で使っています。そのおかげで、ランダムフォレストの予測変数が30％以下の誤差で選択できるようになりました。こちらはオーバートレーニングモデルではありません。学習時、同一ファイル内のテストサンプル、他の外部ファイルでの誤差はほぼ同じです。

私の例の誤差を減らすとはどういうことですか？つまり、ノイズの値がその30％よりも小さくなるような予測因子を見つけるということです。成功したわけではありません。もしかしたら、誰かが成功するかもしれない。

しかし、この分析なくしては、どんなMOモデルも、コーヒー豆の上で数字を並べる知的なゲームに過ぎず、空疎な行為となります。

PS.

上記の誤差は、通常、機種の種類には依存しません。異なる足場、アダのバリエーションも試しましたが、ほぼ同じでした。しかし、nnet NSは、逆に明らかに悪い結果を出しています。

無関係な例を削除し、主成分や独立成分を分離し、最終的に離散化することができます。予測変数の前処理を行いましたか？異常値を除去してほしい（森林のため、クリティカルではない）。

悲観的なようですね。

私だけでしょうか？

グッドラック

トレーディングにおける機械学習：理論、モデル、実践、アルゴトレーディング - ページ 470