トレーディングにおける機械学習：理論、モデル、実践、アルゴトレーディング

СанСаныч Фоменко 2017.05.19 08:40 #3631

ウラジミール・ペレヴェンコ

ここを見てください。

予測因子の重要性を評価する場合、情報量基準だけでは決まらない複雑な量であることを忘れてはならない。そして

私の考えでは、予測変数の重要度は、基本アルゴリズムに組み込まれた手段でも、独立した手段でも、問題解決にはならないのです。もし予測変数に土星の輪やコーヒーの粉が含まれていれば、アルゴリズムがこれらの予測変数を使用することになります。

私は、このスレッドや他のスレッドで、予測変数はターゲット変数に「関係」なければならないと何度も書いてきました。

もう一度、例を挙げます。

対象変数は男性/女性

予測因子：服装。

風俗が厳しい国では、予測変数がズボンとスカートからなる場合、重ならない2つのサブセットに分割され、それぞれがターゲット変数を一意に識別する、つまり、分類誤差はゼロになります。

ユニセックスやスコティッシュスタイルの服を予測変数に入れ始めると、重複が生じ、分類誤差が決定されます。このエラーは原理的に解消されることはありません。

これは私だけの考えではなく、このスレッドで同じような考えを持つ出版物を紹介しました。

Vladimir Perervenko 2017.05.19 11:03 #3632

サンサニッチ・フォメンコ

私の知る限り、予測器の重要度は、基本アルゴリズムに組み込まれた手段か、別の手段で決定されますが、この重要度は、実際には分類で予測器を使う頻度なので、問題は解決されないのです。もし、土星の輪やコーヒーのカスなどが予測変数に含まれていれば、そのアルゴリズムも使用されるでしょう。

私は、このスレッドや他のスレッドで、予測変数はターゲット変数に「関係」なければならないと何度も書いてきました。

もう一度、例を挙げます。

対象変数は男性/女性

予測因子：服装。

風俗が厳しい国の場合、予測変数がズボンとスカートからなる場合、重ならない2つのサブセットに分割され、それぞれがターゲット変数を一意に識別する、つまり分類誤差はゼロになる。

ユニセックスやスコティッシュスタイルの服を予測変数に入れ始めると、重複が生じ、分類誤差が決定されます。このエラーは原理的に解消されることはありません。

これは私だけの考えではなく、このスレッドでは、同様の考えを持つ出版物のリンクを紹介しています。

真実は一つ、そこに至る道はいくらでもある。

誰にでも自分の道を歩む権利があります。要は、行き止まりになってはいけないということです。

グッドラック

Алёша 2017.05.19 11:57 #3633

マキシム・ドミトリエフスキー

しかし、私は、永遠に完璧に動作するわけではなく、時折与える自己最適化デバイスをうまく作ることは可能だと考えています。

しかし、標準的なインジケーターとジグザグの出力では明らかに無理でしょう :)私にはどこかの子供の遊びのようにさえ聞こえます、あくまで例としてですが。

私もそう願っていますが、3年前に抱いていた、数十個のパラメータを設定すれば、人気のあるライブラリの分類子ができる、という幻想からはほど遠い状態なのです。特に仕事終わりの夕方には、とてもノントリビアルで遅いことが判明しました((

ZZ はターゲティングが悪い、全く同感です。

Алёша 2017.05.19 12:17 #3634

ウラジミール・ペレヴェンコ

予測因子の重要性を評価する際に、重要なことは...

...予測変数の重要度は，第1層での重みによって決定される。

エリブラリウス

この関数における重要度計算のアルゴリズム

まず、線形相関のあるPCA特徴を扱い、次に、例えばforestやXGBのようなリッチな非線形モデルを構築し、特徴（圧縮PCA）を調べ、ゲージの減少が最も少ない特徴をクラッシュさせます。

Maxim Dmitrievsky 2017.05.20 13:55 #3635

Open Rをインストールし、すべてのパッケージをインストールしたが、VS 2017はRプロジェクトの作成時にまだハングアップしている

Pythonプロジェクトは問題なく動作します

R StudioとR 3.4を削除し、Open Rだけを残して、動作するようになった )どうやら、相反するようです。

そして、R Studioの意味がない、それは同じだ

Forester 2017.05.20 20:44 #3636

トレーニングの前に、ターゲットに対する入力変数の相関を構築することは意味があるのでしょうか？そして、最も相関のないものを取り除き、計算を高速化し、学習の度合いを高めるのですか？

Maxim Dmitrievsky 2017.05.20 21:17 #3637

エリブラリウス
トレーニングの前に、入力変数とターゲットの相関関係を構築することは意味があるのでしょうか？そして、最も相関のないものを削除して、計算を高速化し、学習の度合いを高める？

実際には、相関のある入力を削除する必要があります :)ターゲットと相関のある入力があれば、それは聖杯であり、NSは必要ない)))

Uladzimir Izerski 2017.05.21 07:08 #3638

インターネット上に面白いソフトがある。人気のあるキャラクターや人物を精神的にパズル化し、コンピュータが具体的な質問をすることで、高い確率で思考を予測することができるのです。これがニューラルネットワークの本来の姿です。正しい問いかけ。そこに謎があるのです。

Дмитрий 2017.05.21 07:15 #3639

エリブラリウス
トレーニングの前に、入力変数とターゲットの相関関係を構築することは意味があるのでしょうか？そして、最も相関のないものを削除して、計算を高速化し、学習の度合いを高める？

確認すべきは、対象となる変数との相関ではなく（あるはず）、あるはずのない変数間の相関がないこと（多重共線性）である。

Forester 2017.05.21 07:24 #3640

ドミトリー

変数とターゲットの相関をチェックするのではなく（あるはず）、変数間の相関がないか、つまりないはず（多重共線性）をチェックする必要があります。

相関入力の除去はすでに行ったので、他にどう改善すればいいのか悩んでいるところです。

ですから、ターゲットとの相関があるべきだという意見には賛成です。ですから、ターゲットと最も相関のない入力、例えばKcorr<0.5や0.3の入力を追加で削除したいのです。これによって、品質に大きな影響を与えることなく、学習プロセスをスピードアップできるはずです。しかし、すべての入力を削除しなければならないという前提があります )))

使用した入力（技術指標からランダムに取り出したもの）については、今のところターゲットとの相関は見られず、学習誤差＝0.44、つまりほぼコインと同じです。まあ......バランスは悪くなってるんですけどね。

トレーディングにおける機械学習：理論、モデル、実践、アルゴトレーディング - ページ 364