トレーディングにおける機械学習：理論、モデル、実践、アルゴトレーディング

mytarmailS 2016.07.08 12:08 #361

ユーリー・レシェトフ

Rに統合したほうがいいのでは？

そして、より多くの人が作業できるようになり、Rとのmt5ブリッジが利用できるようになるようです。

mytarmailS 2016.07.08 12:16 #362

Dr.トレーダー

私は試したことがありませんが、技術的には、pcaモデルに含めることで、ターゲット変数を予測変数として扱うことも可能でしょう。そのため、新しいデータではその値が不明となり、pcaはその欠損値を埋めることができます。

ヘッド部品を予測してみたが、面白いものが出てこない...。

Rssaという非常に優れたパッケージがありますので、そちらも試してみてください。

TheXpert 2016.07.08 12:23 #363

Dr.トレーダー

いや、いいんです。各主成分に使用される予測変数は既知であるため，主成分で使用されない予測変数を安全にスクリーニングすることができる．

使われていないとはどういうことですか？PCAは線形変換である。排除できる次元は、他の次元の線形結合で得られる次元である。つまり、主成分の線形結合でどんな予測因子も得られる。 95%区間をとると、スケールの関係で良い予測因子をバカスカ失う可能性が高く、100%以下の区間はロッシーデータ圧縮にしか使われず、そうしないと常にヌル成分だけが切り捨てられることになる。

Dr. Trader 2016.07.08 12:36 #364

mytarmailS:
しかし、マニュアルを読むと、ニューラルネットワークによるPCAとはっきり書いてあるのですが、では、このサイトの人はどうやってこの素敵な画像をクラス別に分離したのか、まだはっきりしません。

写真は、そこが違うところなんですが...。記事自体は分類の話ではなく、クラスタリングの話です。データがあるのだから、何とかしてグループに分けなければならない。2グループ、3グループ、10グループ...と、何グループあるのかさえわからない。著者はPCAによる第1、2成分のグラフを使っているが、ここで重要なのは1つのグループのポイントがどれだけ近いかである。色はすでに比較分析されており、すでに知られているターゲット変数から割り当てられたもので、計算されたものではなく、単にテーブルから用意されたものです。点のグループが色によって正しく分布していれば、すべてがOKで、この方法はうまくいっているようなので、他のデータで試してみることができます。しかし、この記事には予測は全くなく、クラスタリングと既知の分類との比較のみです。

前回の記事の記事でも同様のグラフを描くことができます。結果は次のようなグラフになります。http://i0.wp.com/www.win-vector.com/dfiles/YAwarePCA_files/figure-html/scaledplotest-1.png ここでは素敵なクラスタリングはありません、異なる入力データです。しかし、入力データとしてテーブルアイリスを使用すると、あなたがあげた記事のグラフと似たようなものが得られます。

СанСаныч Фоменко 2016.07.08 12:43 #365

コンビナート です。
PCAはもともと、元の系列の次元を小さくすることを目的としていた。以上です。それを使って予測因子を選択するのは妄想です。

私がリンクした記事の内容について、きちんと反論していただけませんか。この時点でDr.Trader:はこの素材を使おうとしていたのです。かなり具体的に使うこと。結果はマイナスです。もしかしたら、あなたもご意見をいただけるかもしれませんね。

Principal Components Regression, Pt. 3: Picking the Number of Components | R-bloggers

Nina Zumel
www.r-bloggers.com

In our previous note we demonstrated Y-Aware PCA and other y-aware approaches to dimensionality reduction in a predictive modeling context, specifically Principal Components Regression (PCR). For our examples, we selected the appropriate number of principal components by eye. In this note, we will look at ways to select the appropriate number...

Yury Reshetov 2016.07.08 12:48 #366

mytarmailS:

Rに統合したほうがいいのでは？

そして、より多くの人が作業できるようになり、Rとのmt5ブリッジが利用できるようになるようです。

Dr.Traderが古いlibVMRをRに移植しようとして既にクラッシュし、大型核マシンではメモリが足りず、小型核マシンではフルパフォーマンス（サイクル数を100倍に減らす）だったことから判断すると、同じ失敗をしようという人はいないでしょう。

だから、このような作業のためにRに移植するという話はまだしないほうがいい - この口うるさい人は引っ張らない。

mytarmailS 2016.07.08 12:56 #367

ユーリー・レシェトフ

Dr.Traderが古いlibVMRをRに移植しようとして既にクラッシュし、大型核マシンではメモリが足りず、小型核マシンではフルパフォーマンス（サイクル数が100倍になっていた）という事実から判断すると、同じ熊手を踏んでくれる人はまずいないのでは？

だから、こんなRで移植なんて息もつかせないほうがいい--このポンコツは遅すぎるんだ。

R "用のパッケージを作るという意味です。

"R "は70％が他の言語（C++、C、fortran、java...）で書かれたパッケージで構成されているので、処理速度は落ちないはずですが、何か見落としているのでしょうか？

有名な "h2o "パッケージはすべてjavaで書かれています。

Yury Reshetov 2016.07.08 13:01 #368

mytarmailS:

R」のパッケージを作るという意味です。

「R」は、約70％が外国語（C++、C、fortran、javaなど）で書かれたパッケージで構成されているので、処理速度が落ちることはないはずですが、何か見落としているのでしょうか？

有名な "h2o "パッケージはすべてjavaで書かれています。

それは知らなかった。Javaでパッケージの作成方法を探してみます。

Dr. Trader 2016.07.08 13:02 #369

ユーリー・レシェトフ：

具体的にはレポートファイルで。

/**
* サンプル外のモデリングの質：
*
* TruePositives: 182
* TrueNegatives: 181
* FalsePositives: 1
* FalseNegatives: 1
* サンプル外の統計によるパターン合計： 365
* サンプル外のエラー合計： 2
* 一般化能力の感度： 99.4535519125683%
* 一般化能力の特異性： 99.45054945054946%
* 一般化能力： 98.90410136311776%
* Reshetovによる指標： 8.852456238401455
*/ ．

すみません、信じられません、グラフィカルすぎます。もう一度、実験をお願いします。別のアーカイブを添付しましたが、そちらでは別の期間のデータになっています。モデルの学習はtrain.csvに、テストはtest_notarget.csvに保存してください。test_notarget.csvの予測結果に興味があるのですが、testのファイルにはtarget変数が含まれていません。しかし、もう一つパスワード付きのアーカイブがあり、そこにはテストtest.csvの結果が含まれているので、予測結果と引き換えに比較のためのパスワードを渡します。

ファイル:

forex_test.zip 2699 kb

Dr. Trader 2016.07.08 13:13 #370

コンビナート です。

使われていないとはどういうことですか？PCAは線形変換である。取り外し可能な寸法 -- 他の寸法の線形結合によって得られるもの。これは、どんな予測因子も主成分の線形結合で得られることを意味する。95％の区間を取ると、スケールの関係で良い予測因子をバカスカ失う可能性が高いので、100％以下の区間は、ロッシーデータ圧縮にのみ使用し、それ以外は常にゼロである成分のみを切り落とす。

正確な表現ではありませんでしたが、ちゃんと伝わっていますね。ポイントは、まさに「95％の精度で十分な部品を取り、残りを捨てる」ことです。例：予測変数が10000個ある場合、10000個のコンポーネントを作成し、100%の精度を保証できることを意味します。そうすると、9,900個の部品を捨てて100個にすることができますが、精度は100％から95％へと5％しか下がりません。残りの100個のコンポーネントを分析し、その中で使われていない予測因子を削除する必要があります。5%の損失は問題ない。重要なのは、対象変数を予測することであって、元のデータを損失なく再現することではないからだ。

トレーディングにおける機械学習：理論、モデル、実践、アルゴトレーディング - ページ 37