トレーディングにおける機械学習：理論、モデル、実践、アルゴトレーディング

mytarmailS 2016.08.08 12:11 #901

予測可能なBPとそうでないBPを選択するパッケージ、私の理解が正しければ

http://www.gmge.org/2012/05/foreca-forecastable-component-analysis/

http://www.gmge.org/2015/01/may-the-forec-be-with-you-r-package-foreca-v0-2-0/

2012.05.22
Georg
www.gmge.org

Forecastable component analysis (ForeCA) is a novel dimension reduction (DR) technique to find optimally forecastable signals from multivariate time series (published at JMLR). ForeCA works similar to PCA or ICA, but instead of finding high-variance or statistically independent components, it finds forecastable linear combinations. ForeCA is...

СанСаныч Фоменко 2016.08.08 12:51 #902

ヴィザード_。
そして、すべての来訪者。z1アーカイブの中にはtrainとtestの2つのファイルがあります。Targetの場合、trainでモデルを構築し、testに適用し、結果を%(予測成功率)で投稿する。
の場合）、両サンプルとも（train = xx%, test = xx%)。手法や機種は発表する必要はなく、数字だけでいい。あらゆるデータ操作が可能
と採掘方法について説明します。

1.すべての予測因子には予測力がない - 例外なくすべてがノイズである

2.rf、ada、SVMの3つのモデルが構築された。以下はその結果です。

アールエフ

コール

randomForest(formula = TFC_Target ~ ,

data = crs$dataset[crs$sample, c(crs$input, crs$target)],

ntree = 500, mtry = 3, importance = TRUE, replace = FALSE, na.action = randomForest::na.roughfix)

ランダムフォレストの種類：分類

木の本数：500本

各スプリットで試した変数の数：3個

OOBによる推定エラー率：49.71%。

コンフュージョンマトリックス。

[0, 0] (0, 1) class.error

[0, 0] 197 163 0.4527778

(0, 1] 185 155 0.5441176

かはく

コール

ada(TFC_Target ~ ., data = crs$dataset[crs$train, c(crs$input,

crs$target)], control = rpart::rpart.control(maxdepth = 30,

cp = 0.01, minsplit = 20, xval = 10), iter = 50) 。

損失：指数法方法：離散反復：50

データの最終的なコンフュージョンマトリックス。

最終予想

真値（0,1） [0,0］

(0,1] 303 37

[0,0] 29 331

トレインエラー：0.094

アウトオブバッグエラー：0.157 iteration= 50

エスブイエム

SVMモデル（ksvmで構築）の概要。

クラス "ksvm "のサポートベクターマシンオブジェクト。

SVタイプ：C-svc(分類)

パラメータ：コストC = 1

ガウスラジアルベーシスのカーネル関数。

ハイパーパラメータ : シグマ = 0.12775132444179

サポートベクター数：662

目的関数値：-584.3646

トレーニングエラー : 0.358571

確率モデルを含む。

所要時間：0.17秒

テストセットで（ガラケーのことです、あなたのものではありません）

Ada Boost モデルの test.csv [validate]における誤差行列(個数)。

予想

実際 (0,1) [0,0] です。

[0,0] 33 40

(0,1] 35 42

Ada Boost モデルの test.csv [validate]における誤差行列 (比率)。

予想

実績 (0,1) [0,0] 誤差

[0,0] 0.22 0.27 0.55

(0,1] 0.23 0.28 0.45

全体誤差：50％、クラス平均誤差：50％。

ガラガラタイムスタンプ：2016-08-08 15:48:15ユーザー

======================================================================

test.csv [validate]におけるRandom Forestモデルの誤差行列 (カウント):

予想

実際 [0,0] (0,1)

[0,0] 44 29

(0,1] 44 33

test.csv [validate] における Random Forest モデルの誤差行列 (比率)。

予想

実績 [0,0] (0,1) 誤差

[0,0] 0.29 0.19 0.40

(0,1] 0.29 0.22 0.57

総合誤差：49％、平均クラス誤差：48％。

ガラガラタイムスタンプ：2016-08-08 15:48:15ユーザー

======================================================================

test.csv [validate]におけるSVMモデルの誤差行列(個数):

予想

実際 [0,0] (0,1)

[0,0] 41 32

(0,1] 45 32

test.csv [validate]におけるSVMモデルの誤差行列（割合）。

予想

実績 [0,0] (0,1) 誤差

[0,0] 0.27 0.21 0.44

(0,1] 0.30 0.21 0.58

全体誤差：51％、クラス平均誤差：51％。

ガラガラタイムスタンプ：2016-08-08 15:48:15ユーザー

randomforestのROC解析

上記を確認する。

結論

あなたの予測セットは絶望的です。

テストの操作ログ - アルゴリズム取引、自動売買ロボット

Vizard_ 2016.08.08 12:56 #903

Alexey Burnakov：だから、私たちは電車で最高のモデルを使って、顔が真っ青になるまでトレーニングしているんです。2～3機種くらいかな。そして、彼らの一回限りのテスト。

はい、まさに条件（トレーニングでモデルを構築し、テストで適用する）に書いてある通りです。

Dr. Trader 2016.08.08 12:58 #904

mytarmailS:

予測可能なBPとそうでないBPを選択できるパッケージです。

説明を読むと、とても良いパッケージのようです（ForeCAはRのリポジトリにもあり、githabから何もダウンロードする必要がありません）。最大の特徴は、データの「予測可能性」を評価することです。
そしてプラスこれまた重要なのが、データの次元を減らすために応用できることです。つまり、既存の予測因子から、このパッケージは驚くほど良い予測性を持って、2つの新しい予測因子を作るのです。同時にゴミなどもなくなります。主成分法を連想させるが、成分の代わりに独自のものを作ることになる。

非常に簡単なことですが、このパッケージに多くの予測因子（価格、指標、差分、ゴミなど）を含むテーブルを与えてください。ForeCAは、元のテーブルの代わりに新しいテーブルを出します。この新しいテーブルは、予測モデル（gbm、rf、nnetなど）の学習に使用される。
少し複雑な話ですが、これも核データ変換パッケージで、株式市場にバイアスがかかっています。

すべてが素晴らしい、素直で、素晴らしすぎるとさえ思える、チェックしなければならないだろう。

СанСаныч Фоменко 2016.08.08 12:59 #905

mytarmailS:

予測可能なBPとそうでないBPを選択するパッケージ、私の理解が正しければ

http://www.gmge.org/2012/05/foreca-forecastable-component-analysis/

http://www.gmge.org/2015/01/may-the-forec-be-with-you-r-package-foreca-v0-2-0/

極めて好奇心が強い。

パッケージがインストールされ、ドキュメントが利用可能です。

もしかしたら、誰かが試して結果を投稿してくれるかも？

СанСаныч Фоменко 2016.08.08 13:00 #906

Dr.トレーダー

説明を読む限り、とても良いパッケージだと思います（ForeCAはRのリポジトリにも入っているので、githabから何かをダウンロードする必要はありません）。最大の特徴は、データの「予測可能性」を評価することです。
そしてプラスこれまた重要なのが、データの次元を減らすために応用できることです。つまり、既存の予測因子から、このパッケージは驚くほど良い予測性を持って、2つの新しい予測因子を作るのです。同時にゴミなどもなくなります。主成分法を思い起こさせるが、成分の代わりにそれ自身の何かを作ることになる。

非常に簡単なことですが、このパッケージに多くの予測因子（価格、指標、差分、ゴミなど）を含むテーブルを与えてください。ForeCAは、元のテーブルの代わりに新しいテーブルを出します。この新しいテーブルは、予測モデル（gbm、rf、nnetなど）の学習に使用される。
もう少し複雑なら、これも株式市場に偏ったデータの核変換のためのパッケージです。

すべてが素晴らしい、素直で、素晴らしすぎるとさえ思える、チェックしなければならないだろう。

その場合、事前審査が必要になるのでは？

みんな、早くやれよ！

Vizard_ 2016.08.08 13:05 #907

サンサニッチ・フォメンコ

結論

あなたの予測セットは絶望的です。

OK)))ただし、条件をよく読んでください -。
"両サンプル（train = xx%, test = xx%）の結果を%（予測成功例）で表示します。手法やモデルの指定は不要で、数字だけでいい」。
さらなる結果を待っています。ミハイル・マルキュカイツはどんな結論を出すのだろう。

СанСаныч Фоменко 2016.08.08 13:21 #908

ヴィザード_。
OK)))ただし、条件をよく読んでください -。
"両サンプル（train = xx%, test = xx%）の結果を%（予測成功例）で表示します。手法やモデルの指定は不要で、数字だけでいい」。
さらなる結果を待っています。ミハイル・マルキュカイツはどんな結論を出すのだろう。

テストは不要です

モデルを学習させることができない!何もない空間はテストできない。

Mihail Marchukajtes 2016.08.08 13:32 #909

試してみるか......。ただ、見ただけですが...。

mytarmailS 2016.08.08 14:37 #910

Dr.トレーダー

説明を読ませていただきましたが、とても良いパッケージのようです（ForeCA、..........................）。

この「予測可能性」がどのように計算されているのか、ターゲットを考慮しなければ意味がないのか、理解できない

トレーディングにおける機械学習：理論、モデル、実践、アルゴトレーディング - ページ 91