In our previous note we demonstrated Y-Aware PCA and other y-aware approaches to dimensionality reduction in a predictive modeling context, specifically Principal Components Regression (PCR). For our examples, we selected the appropriate number of principal components by eye. In this note, we will look at ways to select the appropriate number...
Rに統合したほうがいいのでは?
そして、より多くの人が作業できるようになり、Rとのmt5ブリッジが利用できるようになるようです。
私は試したことがありませんが、技術的には、pcaモデルに含めることで、ターゲット変数を予測変数として扱うことも可能でしょう。そのため、新しいデータではその値が不明となり、pcaはその欠損値を埋めることができます。
ヘッド部品を予測してみたが、面白いものが出てこない...。
Rssaという非常に優れたパッケージがありますので、そちらも試してみてください。
いや、いいんです。各主成分に使用される予測変数は既知であるため,主成分で使用されない予測変数を安全にスクリーニングすることができる.
使われていないとはどういうことですか?PCAは線形変換である。排除できる次元は、他の次元の線形結合で得られる次元である。つまり、主成分の線形結合でどんな予測因子も得られる。 95%区間をとると、スケールの関係で良い予測因子をバカスカ失う可能性が高く、100%以下の区間はロッシーデータ圧縮にしか使われず、そうしないと常にヌル成分だけが切り捨てられることになる。
しかし、マニュアルを読むと、ニューラルネットワークによるPCAとはっきり書いてあるのですが、では、このサイトの人はどうやってこの素敵な画像をクラス別に分離したのか、まだはっきりしません。
写真は、そこが違うところなんですが...。記事自体は分類の話ではなく、クラスタリングの話です。データがあるのだから、何とかしてグループに分けなければならない。2グループ、3グループ、10グループ...と、何グループあるのかさえわからない。著者はPCAによる第1、2成分のグラフを使っているが、ここで重要なのは1つのグループのポイントがどれだけ近いかである。色はすでに比較分析されており、すでに知られているターゲット変数から割り当てられたもので、計算されたものではなく、単にテーブルから用意されたものです。点のグループが色によって正しく分布していれば、すべてがOKで、この方法はうまくいっているようなので、他のデータで試してみることができます。しかし、この記事には予測は全くなく、クラスタリングと既知の分類との比較のみです。
前回の記事の記事でも同様のグラフを描くことができます。結果は次のようなグラフになります。http://i0.wp.com/www.win-vector.com/dfiles/YAwarePCA_files/figure-html/scaledplotest-1.png ここでは素敵なクラスタリングはありません、異なる入力データです。しかし、入力データとしてテーブルアイリスを使用すると、あなたがあげた記事のグラフと似たようなものが得られます。
PCAはもともと、元の系列の次元を小さくすることを目的としていた。以上です。それを使って予測因子を選択するのは妄想です。
Rに統合したほうがいいのでは?
そして、より多くの人が作業できるようになり、Rとのmt5ブリッジが利用できるようになるようです。
Dr.Traderが古いlibVMRをRに移植しようとして既にクラッシュし、大型核マシンではメモリが足りず、小型核マシンではフルパフォーマンス(サイクル数を100倍に減らす)だったことから判断すると、同じ失敗をしようという人はいないでしょう。
だから、このような作業のためにRに移植するという話はまだしないほうがいい - この口うるさい人は引っ張らない。
Dr.Traderが古いlibVMRをRに移植しようとして既にクラッシュし、大型核マシンではメモリが足りず、小型核マシンではフルパフォーマンス(サイクル数が100倍になっていた)という事実から判断すると、同じ熊手を踏んでくれる人はまずいないのでは?
だから、こんなRで移植なんて息もつかせないほうがいい--このポンコツは遅すぎるんだ。
R "用のパッケージを作るという意味です。
"R "は70%が他の言語(C++、C、fortran、java...)で書かれたパッケージで構成されているので、処理速度は落ちないはずですが、何か見落としているのでしょうか?
有名な "h2o "パッケージはすべてjavaで書かれています。
R」のパッケージを作るという意味です。
「R」は、約70%が外国語(C++、C、fortran、javaなど)で書かれたパッケージで構成されているので、処理速度が落ちることはないはずですが、何か見落としているのでしょうか?
有名な "h2o "パッケージはすべてjavaで書かれています。
具体的にはレポートファイルで。
/**
* サンプル外のモデリングの質:
*
* TruePositives: 182
* TrueNegatives: 181
* FalsePositives: 1
* FalseNegatives: 1
* サンプル外の統計によるパターン合計: 365
* サンプル外のエラー合計: 2
* 一般化能力の感度: 99.4535519125683%
* 一般化能力の特異性: 99.45054945054946%
* 一般化能力: 98.90410136311776%
* Reshetovによる指標: 8.852456238401455
*/ .
すみません、信じられません、グラフィカル すぎます。もう一度、実験をお願いします。別のアーカイブを添付しましたが、そちらでは別の期間のデータになっています。モデルの学習はtrain.csvに、テストはtest_notarget.csvに保存してください。test_notarget.csvの予測結果に興味があるのですが、testのファイルにはtarget変数が含まれていません。しかし、もう一つパスワード付きのアーカイブがあり、そこにはテストtest.csvの結果が含まれているので、予測結果と引き換えに比較のためのパスワードを渡します。
使われていないとはどういうことですか?PCAは線形変換である。取り外し可能な寸法 -- 他の寸法の線形結合によって得られるもの。これは、どんな予測因子も主成分の線形結合で得られることを意味する。95%の区間を取ると、スケールの関係で良い予測因子をバカスカ失う可能性が高いので、100%以下の区間は、ロッシーデータ圧縮にのみ使用し、それ以外は常にゼロである成分のみを切り落とす。