поскольку он сам не смог нормально формализовать и привести примеры его способ отбора признаков основан на корреляции. чтобы определиться сколько классов формально выделить как их назвать уже дело субъективного вкуса. на основании которых относить sample ы к тому или иному классу
だから、その前に確認すること。
何を確認するんだ?
もう笑えないよ。
サンシュの理論を要約すると、(彼自身、きちんと定式化して例を挙げることができなかったので):
完全に間違っている。
1.私が理解している "予測力 "について上に書いた。
2.意味が明確でない
3.通常の意味でのトレーンは存在しない。ランダムフォレスト・フィッティング。サンプルサイズ=1500本、ツリー数=150本。サンプル・サイズは,適合誤差グラフから拾われる.この170個の予測変数の標本で,さまざまな基準での予測変数の選択と前処理が 行われる.最終的に,20-30個の残りの予測変数のうち,5-10個の予測変数が最大の予測能力に基づいて選択され,モデルが適合される.得られたモデルを用いて次のバーを予測する。新しいバーが到着すると、モデル構築の全プロセスが繰り返される。
フィッティングの最大誤差は約20%ですが、かなりまれです。通常は10%程度である。
4.4.先に私のアプローチを説明した。
もう1度だけ。
でも、ターゲットはジグザグじゃないでしょう?
完全に間違っている
1.上記は "予測能力 "についての彼の理解について書いたものである。
2.意味は明確ではない
3.通常の意味でのトレインがない。ランダムフォレスト・フィッティング。サンプルサイズ = 1500本、木の本数 = 150本。標本サイズは適合誤差プロットから拾われる.この170個の予測変数のサンプルで,さまざまな基準での予測変数の選択と前処理が 行われる.最終的に,20-30個の残りの予測変数のうち,5-10個の予測変数が最大予測能力に基づいて選択され,モデルが適合される.得られたモデルを用いて次のバーを予測する。新しいバーが到着すると、モデル構築の全プロセスが繰り返される。
フィッティングの最大誤差は約20%ですが、かなりまれです。通常は10%程度である。
4.先ほど私のアプローチを説明しました。
将来の結果がまともであるという確信は、予測能力統計量から得られる:
1. sd値が十分に高いこと。
2. sd値が低い。
いつものように、sd値が10%未満の予測変数が見つかれば、予測誤差のばらつきはほぼ同じになる。
私の結論
1.予測能力」アルゴリズムのいずれかを採用する(または開発する)べきである。
2.予測能力値が1ファクターだけ異なる予測変数のリストを見つける。
3.ウィンドウを実行して統計量を得る:平均と平均からの偏差。運がよければ、そのようなリストを見つけることができる。私は見つけました。
モデルは重要ではない。私の予測変数では、RF, ada, GBM, GLMがほぼ同じ結果を与える。SVMは少し悪い。nnetでは全く良くない。
すべての成功は予測モデルとその前処理にある。あなたはここでナンセンスなことを言っている!
その方が理にかなっている。ターゲットはどこから来るのですか、クラスタリングの結果から?
私は通常のインクリメントのサインを持っている。
ターゲットは二次的なものです。ターゲットの問題は予測変数です:予測変数を特定のターゲットにマッチさせることもできますし、マッチさせないこともできます。
私は通常の増分を示すサインを持っている。
ターゲットは二の次だ。ターゲットの問題は予測変数である。特定のターゲットに予測変数を当てはめることもできるし、当てはめないこともできる。
予測能力とは情報の相関関係であり、相関関係ではない:
1.相関は、ある静止系列と別の静止系列の「類似性」であり、常に何らかの値があり、「関係なし」という値はない。相関は常に何らかの値を持つので、相関を使って先生とコーヒーの粉の関係を簡単に見つけることができる。
2.フィッシュ選択とは、モデルを構築するときにフィッシュを使用する頻度である。もし我々が教師とは何の関係もない予測変数を取っても、我々はフィッシュのランキングを得ます。
私の理解する "予測力 "の類似は,例えばcaret::classDist()であり,これは重心の各クラスについてマハラノビス 標本化距離 を定義する.あるいはwoeBinning。Rには多くのアプローチとパッケージがある。情報理論に基づいたものもある。
私は通常の増分を示すサインを持っている。
ターゲットは二の次だ。ターゲットの問題は予測因子である。予測因子を特定のターゲットにマッチさせることもできるし、マッチさせないこともできる。
増分のサインとZZのサインは利益を保証するものではない。5つの小さな増分は1つの強い増分に重なりやすいが、方向は逆である。
新しいデータではどのようなバランスラインが得られるのでしょうか?上下の変動が小さい水平線でなければいいのですが。
ウラジミールの記事でも誤差は10-20%程度だが、バランスラインは楽観を誘わない。
まだ理解できない。相関関係でも使用頻度でもない。presc.sp.はトレーニングでどのように推定されるのか、あるいは何によって推定されるのか?
同じベクトル代数、同じ特徴マッピングで多重共線性の問題が取り除かれる。
- すなわち、本質的に同じ「成分」の空間的選択/投影...。職人的な方法で多重共線性を取り除かないためには、それを考慮する方が良い(例えば、3D空間か何かに縮小し、投影で操作することで、必要であれば、因子負荷量のようなもののように、初期データにこれらの推定値を乗じることができる。
いずれにせよ、最終的な結果は平均と標準偏差の近似値であり、それに基づいて売買の意思決定を行うことに変わりはない。
- 自然界には他のモデリングは存在しない。(異なる)n次元空間における一般的な問題(異分散性、多重共線性、残差の自己相関)を解決する方法があるだけだ。
そして統計学から逃れることはできない.形質相関問題の解は明示的な形でここにある.
p.s.
UPDATED: 今でもこのツール(MD)は、クラスタリング/グルーピング/多次元分類に 使われている.多次元空間で外れ値を選択するために...変数に相関がない場合、マハラノビス距離は通常のユークリッド 距離と一致します。LDAでは 一般的にtzは私が 先に説明した ものである。
この投稿で、PCAとクラスタリングを同列に扱うつもりはありませんでした。PCAとMDの両方が、多次元空間における外れ値を取り除く可能性を与えるということを記憶していただけです。しかし、私のアップデートの本質は変わりません:これらはすべて、多重共線性の問題を考慮するためのベクトル代数による空間的問題の解法です(統計的推定値を歪めたりずらしたりしないように)。