トレーディングにおける機械学習:理論、モデル、実践、アルゴトレーディング - ページ 555

 
マキシム・ドミトリエフスキー

だから、この人生で何を信じていいのかわからない......すべてはダブルチェックが必要なんだ。


ベンチマークは救いです)))

様々な変換やカットが可能です。一番上が生データです。

train = rms sample with light sql. test = OOS. time = rms time in sec.


 
データセットの排出量については、市場がこの方式を 使う可能性がある。
 

この掲示板を見ていると、時々不思議に思うことがあります。すべてが静かで鈍い。そして、突然ウラジミールとかヴィザード_とか、一番怪しいポドトルとかが現れて、マスタークラスを見せ始めるんです。彼らは何者なのか?皆さん、パスポートと学歴証明書を提示してください。:))))

 
サンサニッチ・フォメンコ

ターゲット変数と関係のある予測変数のみを使用する必要があります。線形に」でも「非線形に」でも、非常に正確な表現である「関係を持つ」とは関係ないのです。

をはじめ、本文中に書かれていることはすべて明確ですが、本質的に非線形なモデルにおいて、属性とターゲットの相関はどのように関係しているのでしょうか?

回帰モデルでは必要だけど、分類では必要ないのは、ターゲットではなくクラスだから...ということを書きましたが、何を書いているのか、もっと深く調べてみてください :)

 
マキシム・ドミトリエフスキー

をはじめ、本文中に書かれていることはすべて明確ですが、本質的に非線形なモデルにおいて、属性とターゲットの相関はどのように関係しているのでしょうか?

で、回帰モデルでは必要だけど分類では必要ない理由を書きましたが、それはターゲットではなくクラスだからです...私が書いていることをもっと深く読んでください :)


深読みする必要はない。私はあなたを完全に理解しているが、あなたは私をまったく理解していない。

今回は、 オーバートレーニング(過適合)について書きます。これは、すべての分類モデルの大敵です。オーバーフィッティングしたモデルの挙動は、将来的に決定されるものではありません。

この完全悪に対抗するために、私は2つの手段を考えています。

1. 入力された予測変数のセットをノイズから取り除くこと

2.丁寧なテスト。

これはすべて私自身の計算に基づいて書いたもので、非常に大きなボリュームであることは保証します。

私は、誰かを説得する目的もないので、検索してから読みやすいpsotを形成するのは、あまりにも怠惰です。


PS.

あなたは、ノイズを予測する人たちが無害であり、有用であるとさえ主張し続けますが、あなたが最初ではなく、そのような人たちはたくさんいます。

 
サンサニッチ・フォメンコ

あなたは、ノイズ予測は無害であり、有用でさえあると主張し続けていますが、あなたが初めてではありません。


どこにそんなこと書いたんだろう。

 
マキシム・ドミトリエフスキー

どこに書いてあったっけ?

自分の投稿を読み返してみてください。

ну это и все далее по тексту понятно, но причем здесь корреляция признака с целевой в изначально нелинейной модели

а я написал зачем она (корреляция) нужна в случае регрессионной, а в классификации нет, потому что там вообще не целевая а классы



私が推測したことが判明し、私たちの意見の相違は次のようなことに基づいていると思います。

あなたは相関に反対していますが、私は予測変数と目的変数の相関について書いたことはありません。

それがトークというものです。

私はいつも、「予測変数は対象変数と関係が なければならない」と書いています。私は、相関関係、線形、非線形回帰という意味での「関係」を意味したことはありません。さらに、分類アルゴリズムが出す予測因子「重要度」のアルゴリズムも、すべて私にとっては満足のいくものではありません。


私の例を見てください。ターゲット:性別(male/female)、予測因子:服装(skirts/pants)です。

 
SanSanych Fomenko:

自分の投稿を読み返してみてください。



私が推測していたことが判明し、私たちの意見の相違は次のようなことに基づいていると思われます。

あなたは相関に反対していますが、私は予測変数と目的変数の相関について書いたことはありません。

それがトークというものです。

私はいつも、「予測変数は対象変数と関係が なければならない」と書いています。私は、相関関係、線形、非線形回帰という意味での「関係」を意味したことはありません。さらに、分類アルゴリズムが出す予測因子「重要度」のアルゴリズムも、すべて私にとっては満足のいくものではありません。


例えば、ターゲット:性別(male/female)、予測因子:服装(skirts/pants)です。


そうですね、ただ、特性とターゲットが正確に相関していること、つまり、線形関係があることが望ましいと書かれていることもありますね。

回帰 モデルでは、少なくとも1つの属性がターゲットと線形関係にあることが合理的であると書きました。

もちろん、「関係」については、私も同意見です。)

 
ヴィザード_。

ベンチマーク・サルべーション)))

様々な変換やカットが可能です。一番上は生データです。

train = r.sampling with light sq. test = OOS. time = r.time in sec.



フォワードで良い結果が出ても、その後のカードで利益が出る前兆とは限りません :)

クロスバリデーションは、すでに述べたように、最も良い方法だと思います。

 
過学習 - 重みが大きい場合(~10^18)、多重共線性の結果として発生し、不安定なA(x, w)モデルを引き起こす。


過学習に対しては、モデル学習の早期停止、重みの増加の制限(L1(Lasso)、L2正則化)、ネットワーク内の接続の制限(Dropout)、またペナルティ関数(ElacticNet、Lasso)の適用が可能である。

そして、L1正則化は、その重み係数をゼロにすることで、特徴の選択につながる。

ノイズの多い」特徴を除去することが特徴の選択である。そのための方法があるのです。これは必ずしもモデルに利益をもたらさないので、L2正則化が使われることもあります(多重共線性の問題を解決するのに役立ちます)。


SanSanych Fomenko さん、機能とターゲットの関係というのは、ちょっとおこがましいですね。なぜなら、まだ証明されていないことをどうやって断定するのか、そのためにMOモデルは作られているのですから。構築され、動作するモデルは、「まあまあ」の精度と関係があることをある程度推定してくれます。

また、ズボンとスカートの例では、研究者の調査対象地域に関する知識の乏しさを示しています。このようなモデルでは、場所、時期、居住地域の緯度と経度などに関する貴重な特徴を捨ててしまうことになるからです。


モデルを作る前に、調査対象の領域を理解する必要があります。


PS.議論をすることは良いことです。視点を磨き、テーゼに対する優れた論証を学び、共通の真理を導くものです。

理由: