トレーディングにおける機械学習:理論、モデル、実践、アルゴトレーディング - ページ 3312

 
Ivan Butko #:

何がゴミではない のか教えてください。クリーンな入力データについて話している人を見たことがない。でも、フォーラムではいつもゴミの話を聞いています。

それは何ですか?もし、あなたがゴミについて話しているのであれば、あなたはゴミを食べたことがないということだ。

方向性のある動き、ベクトルだ。

しかし、それをゴミから取り出すのは難しい。

例えば、私は自分の 指標を予測因子としてニューロニックにロードし、ゴミとゴミ収集家の兆候を識別しようとする。

 
СанСаныч Фоменко #:

私の言いたいことをはっきりさせておこう。

どんなMOアルゴリズムもエラーを減らそうとする。エラー削減はゴミに対してより効果的である。なぜなら、エラー削減のための "都合の良い "値はゴミの方がはるかに一般的だからである。その結果、ゴミに対する予測子の「重要度」は、ゴミでない場合よりも高くなることは間違いない。これが、実際のモデル・フィッティングよりもはるかに労働集約的な前処理がある理由です。

我々が考えているこの人工的な例(市場データではない)では、
U軸のキットはゴミではなく、クラスを定義するのに非常に適している。X軸は、2つのクラスがほぼ均等に混在しているため、ゴミのようです。

このツリーは、Y=0.5を通る1回の分割だけで、クラスの絶対的な純度、すなわちクラス確率=100%で、写真から1例と2例にデータを簡単に分割します。X軸上の分割をテストするとき、純度は約50%になり、アルゴリズムはY上の、よりクリーンな分割を選択します。つまり、X上のゴミのような分割が選択されるというあなたの主張は、これらの例では正しくありません。

3番目の例はより複雑です。U<0.2のリーフがアルゴリズムによって選択されます。クラスの純度=100%なので、U>0.8のリーフも選択されます。
0.2から0.8のリーフの純度は約50%です。つまり、どのX軸の分割と同じくらいゴミです。
これ以上分割しても意味がない。クラス確率が50%のリーフを使うことはないからだ。
まあ、1つの葉に1つの例があれば、その純度はもちろん100%だ。しかし、これは代表シートではない。そんなことをするのは初心者だけだ。

最初の3枚で十分だし、少なくともシートに含まれる例の総数の1~5~10%で葉を分けるのはやめてもいい。そしてこの例では、例えば90%以上の純度の葉を使用し、これが最初の2つの葉となる:U<0.2とU>0.8。


 
Renat Akhtyamov #:

...私なら、予測因子としてニューロニックにインジケーターをチャージ、ゴミやスカベンジャーの兆候を識別しようとするだろう。

そして、何があなたを止めるのですか?

 
Andrey Dik #:

何がゴミで何がゴミでないかなんて誰にもわからない。

何が何なのか正確に分かっていたら、3Kページのスレッドは存在しない。)

このような限界を超えることは「ゴミ」であるという仮定を立てるだけで、その限界もまた仮説である。ある研究者にとってはゴミでも、別の研究者にとってはゴミではないのだ。エリオットの波のようなものだ。

すべての人にサインをする必要はない。

おそらくあなたは、どの例が「ゴミ」で、どの例が「ゴミ」でないかを知らない。あなたにとって、それは仮定の概念なのだ。何が何だか分かっていれば、このスレッドに居座って、皆のために深く考えた一般論を書いたりしないはずだ。

いつになったらMoDの基本を学ぶんだ?修辞的な質問だ。

 
Vladimir Perervenko #:

全員にサインする必要はない。

おそらくあなたは、どの例が「ゴミ」で、どれがそうでないかを知らない。あなたにとって、それは仮定の概念なのだ。何が何なのか分かっていれば、このスレッドに居座って、誰に対しても深遠な一般論を書くことはないだろ う。

いつになったらMoDの基本を学ぶんだ?修辞的な質問だ。


あなたの書き込みは、何がゴミで何がゴミでないかをあなたが知っていることを示していない。
それに、そこが面白いところで、何がゴミでないかを知っているなら、MOは必要ない。

それがIOの目的であり目標である。

分かっているなら、ここで何をしているんだ?

 

物理学では、必要な信号に影響を与える信号は通常ゴミとみなされる。どのような信号も、どのような作用も、何かによって引き起こされるものであり、それは研究者が必要とする信号の正しい評価を与えるものではなく、必要のないものであるため、ゴミと呼ばれるのである。というわけで、まあ、自然界にはゴミは存在しないのである。)

ここで、価格のパターン、非効率性、あるいは他の何かを探す場合、評価のためのシグナルは、いくつかの現実の出来事、あるいはその全体が価格に与える影響である。それ以外の影響はすべてゴミとなる。

もちろん、判断の真偽を問うものではないが))))

 
Valeriy Yastremskiy #:

物理学では、必要な信号に影響を与える信号は通常ゴミとみなされる。どのような信号も、どのような行動も、何かによって引き起こされるものであり、それは研究者が必要とする信号の正しい評価を与えるものではなく、必要のないものであるため、ゴミと呼ばれるのである。というわけで、まあ、自然界にはゴミはないのである))))))

ここで、価格のパターン、非効率性、あるいは他の何かを探す場合、評価のためのシグナルは、いくつかの現実の出来事、あるいはその全体が価格に与える影響である。しかし、それ以外の影響はすべてゴミとなる。

もちろん、判断の真偽を問うものではないが))))

DSP理論に飛び込むとこうなる:

ゴミを除いた有用な信号が最初に知らされる(例えばトレンドラインやカーブ)。

then, on the next tick, the useful signal is subtracted from the total mass of signals, and the signals that are not needed, i.e. rubbish, are identified.

 
特徴のポイ捨ては、特定の対象特徴との関連で評価され、その逆もまた然りである。もし因果関係がなければ、データセット全体、あるいはその構成要素のいずれかがゴミである。そして多くの場合、それは特徴ではなく、誤ったマークアップである。

というのも、ゴミであっても、役に立つように分割することができるからだ。例えば、種類や大きさでソートする。
 
Ivan Butko #:

何がゴミではないのか教えてください。 クリーンな入力データについて話している人を見たことがない。しかし、フォーラムではいつもゴミの話を聞いている。

それは何ですか?もし、あなたがゴミについて話しているのであれば、あなたはゴミを食べたことがないということだ。

"屑 "ではないとは、教師に関連/影響された予測因子である。ここに、"屑 "と "屑でないもの "を分けるアルゴリズムでいっぱいの代理 パッケージがある。ちなみに、Rで唯一のものではありません。

例えば、教師価格の増分に対するmashkaはゴミであり、平滑化アルゴリズムもゴミである。

proxy: Distance and Similarity Measures
proxy: Distance and Similarity Measures
  • cran.r-project.org
Provides an extensible framework for the efficient calculation of auto- and cross-proximities, along with implementations of the most popular ones.
 
mytarmailS #:
前処理は正規化であって、ゴミではない。
デブリは特徴選択 であり、部分的には特徴エンジニアリングである。

サニチ、未熟な人間にゴミを与えるのはやめなさい。

モデルの一部としての特徴選択という 意味であれば、私はまったく同意できない。モデルの一部としての特徴 選択は、単なるゴミにすぎないからだ。

理由: