トレーディングにおける機械学習:理論、モデル、実践、アルゴトレーディング - ページ 2550

 
Aleksey Nikolayev#:

一般に、一度学習した(on train)モデルは1つではなく、メタパラメータで定義されたモデルの集合が存在する。例えば、補間多項式の次数の違いや、ラッソ回帰における正則化係数の違いなどです。そして、メタパラメータの最適値を決定します(テストにより集合の中から最適なモデルを選びます)。また、試験におけるメタパラメータの最適化は、いくつかのパラメータ(メタパラメータ)によって決定することができ、その最適化のために試験を適用することができます。例えば、元のサンプルをどのような割合でtrainとtestに分けるか。

しかし、ほとんどの場合、私はあなたの考えを理解していないだけです)。

メタパラメータの選定は、1つのテストセクションで行うのではなく、クロスバリデーションやローリングフォワードによって、複数のセクションをつなぎ合わせて行うのが最適である。最近話題になって いますね。
 
elibrarius#:
メタパラメータの選択は、単一のテストプロットではなく、クロスバリデーションやローリックフォワードでつなぎ合わせた複数のプロットで行うのがベストである。最近、話題になって いますね。

私もそう思います。実は、クロスバリデーションは複雑なアレンジも可能で、独自のパラメータ(メタパラメータ)を設定することができ、さらに1つのサンプルで最適化できる(天井から取らない)ことを伝えたかっただけなのです。

 
Aleksey Nikolayev#:

私もそう思います。実は、クロスバリデーションも複雑にアレンジして、独自のパラメータ(メタパラメータ)を設定することができ、(天井から取るのではなく)別のサンプルを使って最適化することもできるということを表現したかっただけなのです。

正しく理解される - サンプルをより試験サンプルに近づけるためのあらゆるアクションを実行する。

問題は、それをどのように行うのがベストなのか、ということです。

一つの選択肢として、予測変数の列挙がよく使われますが、それらの大規模なセットでは多すぎます。そして、例えば、2つのサンプルにおける目標結果の類似性と頑健性について、文字列(予測変数のセット)を比較することができるだろうか?そうすれば、学習サンプルから異常な(例えば、希少な、あるいはサンプルにない)文字列を取り除くことができ、その結果、理論的にははるかに優れた学習が可能になります。

 
Aleksey Vyazmikin#:

正しくは、「サンプル列車をより試験サンプルに近づけるために何らかの処置を行うこと」です。

問題は、ではどうすればいいのかということです。

よく使われるオプションの1つは予測変数の列挙であるが,大規模なセットではその数が多すぎる.そして、例えば、2つのサンプルにおける目標結果の類似性と頑健性について、文字列(予測変数のセット)を比較することができるだろうか。そうすれば、学習サンプルから異常な(例えば、希少な、あるいはサンプルにない)文字列を取り除くことができ、理論的には、より良い学習ができるようになります。

Vladimirの記事で、パッケージの名前は忘れましたが、サンプルから予測できない文字列を追い出すだけでした
 
mytarmailS#:
Vladimirに記事がありました。そのパッケージの名前は忘れましたが、サンプルからは予測できない文字列がドロップされるだけでした。

面白いですね、探してみます。しかし、予測可能な文字列ではなく、トレーニング以外のサンプルでは発生しない文字列を捨てたいのです。もちろん、ただ捨てるのではなく、印をつけること、つまり識別することまでが面白いのです。

 
Aleksey Vyazmikin#:

面白いですね、調べてみます。ただ、予測できないものを捨てるのではなく、トレーニング以外のサンプルでは発生しないものを捨てるということですね。もちろん、ただ捨てるだけでなく、何らかの形で印をつけることで、識別することさえ面白い。

おそらく我々は,オブザベーションのはずれ値を除去することについて話しているのだろう.それは2つのタイプ - 応答サイズによるものと予測変数サイズによるもの(両方とも同じオブザベーションで組み合わされるかもしれない).外れの正体は前者と呼ばれ、後者は通常、別の呼び名で呼ばれる。この科学は、線形回帰のためによく発達している。おそらく、試験観測のたびに、試験に対してある意味で異常値であるかどうかをチェックできるのでしょう。

 
Aleksey Vyazmikin#:

面白いですね、調べてみます。ただ、予測できないものを捨てるのではなく、トレーニング以外のサンプルでは発生しないものを捨てるということですね。もちろん、ただ捨てるのではなく、印をつけること、つまり識別することまでが面白いのです。

木製の模型を使ったり...。
モデルをルールに分解し、そのルールを統計的に分析し(再現性は別として...)、新しいデータでそのルールが現れるかどうか確認する...。

intrees "パッケージは5行のコードで、次のようになります。
 
mytarmailS#:
Vladimirに記事がありました。パッケージの名前は忘れましたが、サンプルからは予測できない文字列がドロップされるだけでした。

NoiseFiltersRパッケージ 記事を ご覧ください。

 
elibrarius#:
メタパラメータの選択は、単一のテストプロットではなく、クロスバリデーションやローリックフォワードによってつなぎ合わせた複数のプロットで行うのがベストである。これは先日も話題に なりましたね。

また、CVの結果をどのように正しく使うか?モデルの最適なパラメータを取り出し、全データセットに教えるのか、それとも良いデータセットを選択するためだけに使うのか?

例えば、次のような表が出力されます。

        iterations      test-Logloss-mean       test-Logloss-std        train-Logloss-mean      train-Logloss-std
0       0       0.689013        0.005904        0.681549        0.007307
1       1       0.685340        0.011887        0.660894        0.001061
2       2       0.685858        0.012818        0.641069        0.004738
3       3       0.685975        0.023640        0.629656        0.000656
4       4       0.686613        0.024923        0.612977        0.002072
...     ...     ...     ...     ...     ...
95      95      0.863043        0.402531        0.123702        0.028628
96      96      0.866321        0.406193        0.122224        0.028623
97      97      0.869681        0.409679        0.120777        0.028611
98      98      0.873030        0.413121        0.119361        0.028595
99      99      0.874569        0.419064        0.117974        0.028572
 
Vladimir Perervenko#:

NoiseFiltersRパッケージ 記事を ご覧ください。

ノイズの予測値はある程度はっきりしているのですが、ノイズの例題はそうではありません。定義方法についてもっと知りたいです(使用するパッケージや関数の名前ではなく理論的に、もちろんRには常に論文へのリンクがありますが)。常にマーケットにいるように努力することは間違いであると考えられるので、分類する際に「トレードしない」クラスを設けるべきであることは明らかである。しかし、このクラスは、多かれ少なかれ形式的に正しく記述することができるのか、よくわからない。

理由: