How can one use nested cross validation for model selection? From what I read online, nested CV works as follows: There is the inner CV loop, where we may conduct a grid search (e.g. running K-fold for every available model, e.g. combination of hyperparameters/features) There is the outer CV loop, where we measure the performance of the model...
-------------------------------- повторилась n раз
------------------------------------------------------------- на полученных данных сформирован комитет
------------------------------------------------------------------------------------------------------------------------ комитет валидирован на еще одной выборке из будущего
1) randomforestアルゴリズムの著者の最初の出版物を見ると、著者は非常に真剣にrfは全くオーバートレーニングになりにくいと主張し、たくさんの例を挙げている。ランダムフォレストのパッケージ自体が、オーバートレーニングの疑いを少しでも排除するように作られているのです。
同時に、最も過学習なアルゴリズムがrandomforestである。個人的に火傷したことがあります。
2) 機械学習の出版物の大半は、セカンドファイルのアナログでテストされていない。その理由は些細なことです。このアルゴリズムは、時系列には適用されません。そして、ファイル番号1のランダム分割で十分であることが判明したのです。そしてこれは、例えば手書き文字認識などでは、確かにそうです。
1) Forrest と GBM の両方、およびその他の手法を再トレーニングする。折りたたまれたデータでは目立たず、ノイズの多いデータでは非常に目立つ。
2) ある、別の時間範囲の追加サンプルでネステッドクロスバリデーションの導入を議論している出版物がある。
2) ある、別の時間範囲の追加サンプルでネステッドクロスバリデーションの導入を議論している出版物がある。
差し支えなければ、リンク
議論の1つhttp://stats.stackexchange.com/questions/65128/nested-cross-validation-for-model-selection
同上:/go?link=https://stats.stackexchange.com/questions/103828/use-of-nested-cross-validation
ディスカッションの中に、記事へのリンクがあります。
興味深い記事をひとつ紹介します。http://www.andrewng.org/portfolio/preventing-overfitting-of-cross-validation-data/
タイトルからわかるように、クロスバリデーションの検証ファウルでモデルを評価する段階で起こるオーバートレーニングについて書かれています。したがって、クロスバリデーションに加えて、既に選択されたモデルを評価するためのサンプルも必要です。
もしkrakto(すでに書かれています)。
クロスバリデーションによって選択されたモデルは、別の時間遅延サンプルによって再検証する必要があります。
また、ネステッドクロスバリデーションとは、n回のクロスバリデーション(異なるデータで)を行った後に、n回の遅延サンプル(毎回異なるデータで)の検証を行うことを意味します。
そして、それすらも全てではありません。延期されたサンプルの最上層が再選定された場合、例えば、これらの延期されたサンプルのデータに基づくモデルの委員会は、さらに1つの延期されたサンプルで委員会検証を行う必要があります。
理想は、このプロセスです。
k-fold кроссвалидация
-------------------------------- повторилась n раз
------------------------------------------------------------- на полученных данных сформирован комитет
------------------------------------------------------------------------------------------------------------------------ комитет валидирован на еще одной выборке из будущего
を一度だけでなく何度も繰り返すことで、最上位レベルの結果を逆転させることができます。これにより、バイアスを実用上最小に抑えることができます。
しかし、そうすることで、例えばFSの期待値が何倍にもなってしまうかもしれない......。痛み
異なる時間範囲の追加サンプルに対してネステッドクロスバリデーションを導入。
私も似たようなことをしています。例えば、1年分の学習用データがあるとします。1月のデータで1つ、2月のデータで2つ目、3月のデータで3つ目というように、12個のモデルを学習させることにしています。私は、年間を通じてデータのごく一部で学習させたこれらのモデルのいずれかが良好なパフォーマンスを得るために予測因子とモデルパラメータを選択し、使用した予測因子がそれらの間で一定の相関を持っていることに多少の希望を持たせています。新しいデータに対して、このモデルのアンサンブル全体を使って意思決定を行う。
今まで試したクロスバリデーションの中で、この方法が新しいデータで一番良い結果を出してくれました。しかし、未解決の問題がたくさんあります。例えば、モデルをいくつにすべきか、つまり、12個ではなく100個をトレーニングすることは可能ですが、意味があるのでしょうか?トレードの評価も重要で、RFでもシャープでも何でもいいのですが、実験して一番いいものを見つける必要があります。
私も似たようなことをやっています。例えば、1年分のトレーニングデータがあるとします。1月用、2月用、3月用など、12種類のモデルを訓練します。私は、年間を通じてデータのごく一部で学習させたこれらのモデルのいずれかが良好なパフォーマンスを得るために予測因子とモデル・パラメータを選択し、使用した予測因子がそれらの間に安定した関係を持つことに多少の希望を持たせています。新しいデータに対して、このモデルのアンサンブル全体を使って意思決定を行う。
今まで試したクロスバリデーションの中で、この方法が新しいデータで一番良い結果を出してくれました。しかし、未解決の問題がたくさんあります。例えば、 モデルをいくつ にすべきか、つまり、12個ではなく100個を訓練することもできますが、意味があるのでしょうか?トレードの評価も重要で、RFやシャープなど何でも良いので、実験してベストなものを見つける必要があります。
私もそのようなことをしています。例えば、1年分の学習データがあるとします。1月用、2月用、3月用など、12種類のモデルを訓練します。私は、年間を通じてデータのごく一部で学習させたこれらのモデルのいずれかが良好なパフォーマンスを得るために予測因子とモデル・パラメータを選択し、使用した予測因子がそれらの間に安定した関係を持つことに多少の希望を与えています。新しいデータに対して、このモデルのアンサンブル全体を使って意思決定を行う。
今まで試したクロスバリデーションの中で、この方法が新しいデータで一番良い結果を出してくれました。しかし、未解決の問題がたくさんあります。例えば、モデルをいくつにすべきか、つまり、12個ではなく100個をトレーニングすることは可能ですが、意味があるのでしょうか?トレードの評価も重要で、RFやシャープなど何でも良いので、実験してベストなものを見つける必要があります。
議論の1つhttp://stats.stackexchange.com/questions/65128/nested-cross-validation-for-model-selection
同上:/go?link=https://stats.stackexchange.com/questions/103828/use-of-nested-cross-validation
ディスカッションの中に、記事へのリンクがあります。
興味深い記事をひとつ紹介します。http://www.andrewng.org/portfolio/preventing-overfitting-of-cross-validation-data/
タイトルからわかるように、クロスバリデーションの検証ファウルでモデルを評価する段階で起こるオーバートレーニングについて書かれています。したがって、クロスバリデーションの他に、既に選択されたモデルを推定するための別のサンプルが必要になります。