トレーディングにおける機械学習:理論、モデル、実践、アルゴトレーディング - ページ 1203

 
アレクセイ・ヴャジミキン

ありがとうございます。サンプルに予測因子と同じ値を入れてランダム化する、ですか?

一般的にアプローチは明確です、ありがとうございます、どのように実装して試してみるか考える必要があります。

残念ながら、私はそれを使いこなすことができないので、この際、あなたの口から再話を聞くことにしよう。

いや、全くランダム化しない、つまり、予測値を完全に消去して、そこにホワイトノイズを押し込むことです

で、次のチェックに行くときに元の値を押し込む。

大雑把に言うと、各予測子の代わりにホワイトノイズを1つずつ押し込んでいくのです。そのほうがわかりやすいかもしれませんね。

重要な条件:予測変数は相関してはならない。そうでなければ、エラーでちんぷんかんぷんになってしまう...。そのために、まずPCAで変換しましたが、相関行列を作り、相関の強いものをすべて取り除くことも可能です。別のメカニズムもありますが、複雑です
 
マキシム・ドミトリエフスキー

いや、左利きによってまったくランダムにする、つまり、予測値を完全に一掃して、そこにホワイトノイズを押し込むのだ

そして、次のチェックの時に元の値を押し戻します。

ノイズだけなら、分割を一切行わない。例えば、「100以上」のルールで分割されているが、0から99までのランダムを追加し、それ以上の分割は行われなくなる。 リストルールが一つでも脱落した場合に、それ以上の分割がどうなるかが重要だろう......。

 
マキシム・ドミトリエフスキー


重要な条件として、予測変数は相関してはいけません。そうでなければ、エラーでちんぷんかんぷんになってしまいます...。そのために、まずPCAで変換しましたが、相関行列を作って、強い相関のあるものをすべて取り除くことも可能です。別のメカニズムもありますが、複雑です

どのような相関関係が許容されるのでしょうか?結局、良い予測因子というのはターゲットと相関があるはずで、それはつまり、ある程度お互いに相関があるということなのですが......。

 
Aleksey Vyazmikin:

ただのノイズなら、まったく分割を壊します。例えば「100以上」というルールの分割があり、0から99までのランダムを入れると、それ以上の分割はもう活性化しませんし、シートのルールが一つ落ちたときに、それ以上の分割がどう動くかが重要でしょう......。

ので、エラーが大幅に減少し、すべてがうまくいく、重要 度は低いです。モデルには手を出すな、木がどう分かれているのか、それぞれ特徴の数が違うんだから。いつも病院の平均値に見えてしまう。

 
アレクセイ・ヴャジミキン

どのような相関関係が許容されるのでしょうか?結局、良い予測因子というのは、ターゲットと相関していなければならないので、ある程度は相関していることになるのですが......。

予測変数が1 つの線形回帰では 異端であるが,非線形モデルではターゲットと相関するものはないはずである(特に分類の場合).

どれが許容範囲なのか、難しいな...実験的に。そういう意味では、PCAを使った方が楽なのは当然です。
 
マキシム・ドミトリエフスキー

だから、エラーが激減して、すべてがうまくいく、輸入が少ない。モデルには手を出すな、木の分け方はどうするんだ、それぞれ特徴の数が違うんだから。いつも病院の平均値を見ているんですね。

それなら、その値をNULLにするか、他の値に置き換えればいいだけです。同じランダムでも、私には論理的とは思えませんが......。とにかく、もし実装できたら、2つのバリエーションを試してみようと思っています。

マキシム・ドミトリエフスキー

これは線形回帰では 異端であり、非線形モデルでは何もターゲットと相関しないはずです。

ターゲットとの相関があれば、予測器が悪いという論法はどうなんだ?

 
Aleksey Vyazmikin:

それなら、その値をNULLにするか、他の値に置き換えればいいだけです。同じランダムでも、私には論理的とは思えませんが......。とにかく、もし実装できたら、2つの選択肢を試してみようと思っています。

さて、ターゲットとの相関があれば、予測器が悪いというのは、どんな議論でしょうか。

やり方はともかく、要はフィッシュを入れ替えるという原理で、むしろ些細なことのように思えるのですが。

1つではなく、たくさんあって、その相関関係が強いので輸入 品がだいたい同じになる場合です。その結果、並べ替えの際に強い 特徴を1つ削除しても、同じ重要度を持つ類似の特徴が存在し、強い特徴が認識されないため、モデル誤差は減少しないことがわかりました。そのため、相関のある特徴を一度にランダム化するか(これは実装が難しい)、何も強く相関させないように注意する必要があります。

 
マキシム・ドミトリエフスキー

チップの並べ替えの原理がメインなので、好きなようにやればいいと思いますが、どちらかというと些細なことで

1つではなく、たくさんあって重要度がだいたい同じだと、相関が強いからです。つまり、並べ替えで強い 特徴を一つ削除しても、同じ重要度を持つ類似の特徴が存在し、強い特徴が一つも認識されないため、モデル誤差が減少しない。

このように、モデルは対称なツリーを構築するために予測子を構築すべきなのですが、再トレーニングを行わないとそれはありえないので、モデルを作るときに意味がないように思われます。

では、どのような相関関係が許容されるのでしょうか。
 
Aleksey Vyazmikin:

予測変数が対称的な木を作るようになるのは、やはりモデル次第ですね。再学習をしないと、モデルを作るときに意味がないので、ありえないことだと思います。

森林の場合はうまくいくのですが、ネコババの場合は読まないといけないので、どうなっているのか覚えていません。モデル自体の構造上、輸入 品自体が良いのかもしれませんが

何が許容範囲なのかわからない、閾値を設定して見てください。+-モデルにはほとんど変化はありません。ブーストはRFと同じようにはいかないので、最初から明確な重要性があるのかもしれませんね。

または、特徴が不均質で、相関がないことが確かであれば、このステップを試すことは忘れてください。

特に,多くの特徴量があり,モデルからノイズを取り除く必要がある場合には,これらはすべて重要なことですが,相関のすべての%を気にしなければならないほどではありません,私はそう思います。

後日、自分でもそのようなバリエーションを作って確認してみようと思います。

 
マキシム・ドミトリエフスキー

森の場合はうまくいくのですが、ネコババの場合は読まないといけないので、どうなっているのか思い出せません。モデル自体の構造上、単体で良い輸入品を持っているのかもしれませんが

何が許容範囲なのかわからない、閾値を設定して見てください。+-モデルにはほとんど変化はありません。ブーストはRFと同じようにはいかないので、最初から明確な重要性があるのかもしれませんね。

または、特徴が不均質で、相関がないことが確かであれば、このステップを試すことは忘れてください。

特に,多くの特徴量があり,モデルからノイズを取り除く必要がある場合には,これらはすべて重要なことですが,相関のすべての%を気にしなければならないほどではありません,私はそう思います。

後日、自分でもそのようなバリエーションを作って見ようと思います。

なるほど、やってみないとわからないですね。モデルペアリングが可能であることは単純な検索でわかりますが、合理的に行う必要がありますし、相関を検出することでモデルペアリング中の反復回数を減らすことができます。