トレーディングにおける機械学習:理論、モデル、実践、アルゴトレーディング - ページ 91

 

予測可能なBPとそうでないBPを選択するパッケージ、私の理解が正しければ

http://www.gmge.org/2012/05/foreca-forecastable-component-analysis/

http://www.gmge.org/2015/01/may-the-forec-be-with-you-r-package-foreca-v0-2-0/

ForeCA: Forecastable Component Analysis
  • 2012.05.22
  • Georg
  • www.gmge.org
Forecastable component analysis (ForeCA) is a novel dimension reduction (DR) technique to find optimally forecastable signals from multivariate time series (published at JMLR). ForeCA works similar to PCA or ICA, but instead of finding high-variance or statistically independent components, it finds forecastable linear combinations. ForeCA is...
 
ヴィザード_。
そして、すべての来訪者。z1アーカイブの中にはtrainとtestの2つのファイルがあります。Targetの場合、trainでモデルを構築し、testに適用し、結果を%(予測成功率)で投稿する。
の場合)、両サンプルとも(train = xx%, test = xx%)。手法や機種は発表する必要はなく、数字だけでいい。あ らゆるデータ操作が可能
と採掘方法について説明します。

1.すべての予測因子には予測力がない - 例外なくすべてがノイズである

2.rf、ada、SVMの3つのモデルが構築された。以下はその結果です。

アールエフ

コール

randomForest(formula = TFC_Target ~ ,

data = crs$dataset[crs$sample, c(crs$input, crs$target)],

ntree = 500, mtry = 3, importance = TRUE, replace = FALSE, na.action = randomForest::na.roughfix)


ランダムフォレストの種類:分類

木の本数:500本

各スプリットで試した変数の数:3個


OOBによる推定エラー率:49.71%。

コンフュージョンマトリックス。

[0, 0] (0, 1) class.error

[0, 0] 197 163 0.4527778

(0, 1] 185 155 0.5441176

かはく

コール

ada(TFC_Target ~ ., data = crs$dataset[crs$train, c(crs$input,

crs$target)], control = rpart::rpart.control(maxdepth = 30,

cp = 0.01, minsplit = 20, xval = 10), iter = 50) 。


損失:指数法 方法:離散 反復:50


データの最終的なコンフュージョンマトリックス。

最終予想

真値(0,1) [0,0]

(0,1] 303 37

[0,0] 29 331


トレインエラー:0.094


アウトオブバッグエラー:0.157 iteration= 50

エスブイエム

SVMモデル(ksvmで構築)の概要。


クラス "ksvm "のサポートベクターマシンオブジェクト。


SVタイプ:C-svc(分類)

パラメータ:コストC = 1


ガウスラジアルベーシスのカーネル関数。

ハイパーパラメータ : シグマ = 0.12775132444179


サポートベクター数:662


目的関数値:-584.3646

トレーニングエラー : 0.358571

確率モデルを含む。


所要時間:0.17秒

テストセットで(ガラケーのことです、あなたのものではありません)

Ada Boost モデルの test.csv [validate]における誤差行列(個数)。


予想

実際 (0,1) [0,0] です。

[0,0] 33 40

(0,1] 35 42


Ada Boost モデルの test.csv [validate]における誤差行列 (比率)。


予想

実績 (0,1) [0,0] 誤差

[0,0] 0.22 0.27 0.55

(0,1] 0.23 0.28 0.45


全体誤差:50%、クラス平均誤差:50%。


ガラガラタイムスタンプ:2016-08-08 15:48:15ユーザー

======================================================================

test.csv [validate]におけるRandom Forestモデルの誤差行列 (カウント):


予想

実際 [0,0] (0,1)

[0,0] 44 29

(0,1] 44 33


test.csv [validate] における Random Forest モデルの誤差行列 (比率)。


予想

実績 [0,0] (0,1) 誤差

[0,0] 0.29 0.19 0.40

(0,1] 0.29 0.22 0.57


総合誤差:49%、平均クラス誤差:48%。


ガラガラタイムスタンプ:2016-08-08 15:48:15ユーザー

======================================================================

test.csv [validate]におけるSVMモデルの誤差行列(個数):


予想

実際 [0,0] (0,1)

[0,0] 41 32

(0,1] 45 32


test.csv [validate]におけるSVMモデルの誤差行列(割合)。


予想

実績 [0,0] (0,1) 誤差

[0,0] 0.27 0.21 0.44

(0,1] 0.30 0.21 0.58


全体誤差:51%、クラス平均誤差:51%。


ガラガラタイムスタンプ:2016-08-08 15:48:15ユーザー

randomforestのROC解析

上記を確認する。

結論

あなたの予測セットは絶望的です。

 
Alexey Burnakov:だから、私たちは電車で最高のモデルを使って、顔が真っ青になるまでトレーニングしているんです。2~3機種くらいかな。そして、彼らの一回限りのテスト。
はい、まさに条件(トレーニングでモデルを構築し、テストで適用する)に書いてある通りです。
 
mytarmailS:

予測可能なBPとそうでないBPを選択できるパッケージです。

説明を読むと、とても良いパッケージのようです(ForeCAはRのリポジトリにもあり、githabから何もダウンロードする必要がありません)。最大の特徴は、データの「予測可能性」を評価することです。
そしてプラスこれまた重要なのが、データの次元を減らすために応用できることです。つまり、既存の予測因子から、このパッケージは驚くほど良い予測性を持って、2つの新しい予測因子を作るのです。同時にゴミなどもなくなります。主成分法を連想させるが、成分の代わりに独自のものを作ることになる。

非常に簡単なことですが、このパッケージに多くの予測因子(価格、指標、差分、ゴミなど)を含むテーブルを与えてください。ForeCAは、元のテーブルの代わりに新しいテーブルを出します。この新しいテーブルは、予測モデル(gbm、rf、nnetなど)の学習に使用される。
少し複雑な話ですが、これも核データ変換 パッケージで、株式市場にバイアスがかかっています。

すべてが素晴らしい、素直で、素晴らしすぎるとさえ思える、チェックしなければならないだろう。

 
mytarmailS:

予測可能なBPとそうでないBPを選択するパッケージ、私の理解が正しければ

http://www.gmge.org/2012/05/foreca-forecastable-component-analysis/

http://www.gmge.org/2015/01/may-the-forec-be-with-you-r-package-foreca-v0-2-0/

極めて好奇心が強い。

パッケージがインストールされ、ドキュメントが利用可能です。

もしかしたら、誰かが試して結果を投稿してくれるかも?

 
Dr.トレーダー

説明を読む限り、とても良いパッケージだと思います(ForeCAはRのリポジトリにも入っているので、githabから何かをダウンロードする必要はありません)。最大の特徴は、データの「予測可能性」を評価することです。
そしてプラスこれまた重要なのが、データの次元を減らすために応用できることです。つまり、既存の予測因子から、このパッケージは驚くほど良い予測性を持って、2つの新しい予測因子を作るのです。同時にゴミなどもなくなります。主成分法を思い起こさせるが、成分の代わりにそれ自身の何かを作ることになる。

非常に簡単なことですが、このパッケージに多くの予測因子(価格、指標、差分、ゴミなど)を含むテーブルを与えてください。ForeCAは、元のテーブルの代わりに新しいテーブルを出します。この新しいテーブルは、予測モデル(gbm、rf、nnetなど)の学習に使用される。
もう少し複雑なら、これも株式市場に偏ったデータの核変換のためのパッケージです。

すべてが素晴らしい、素直で、素晴らしすぎるとさえ思える、チェックしなければならないだろう。

その場合、事前審査が必要になるのでは?

みんな、早くやれよ!

 
サンサニッチ・フォメンコ

結論

あなたの予測セットは絶望的です。

OK)))ただし、条件をよく読んでください -。
"両サンプル(train = xx%, test = xx%)の結果を%(予測成功例)で表示します。手法やモデルの指定は不要で、数字だけでいい」。
さらなる結果を待っています。ミハイル・マルキュカイツはどんな結論を出すのだろう。
 
ヴィザード_。
OK)))ただし、条件をよく読んでください -。
"両サンプル(train = xx%, test = xx%)の結果を%(予測成功例)で表示します。手法やモデルの指定は不要で、数字だけでいい」。
さらなる結果を待っています。ミハイル・マルキュカイツはどんな結論を出すのだろう。

テストは不要です

モデルを学習させることができない!何もない空間はテストできない。

 
試してみるか......。ただ、見ただけですが...。
 
Dr.トレーダー

説明を読ませていただきましたが、とても良いパッケージのようです(ForeCA、..........................)。

この「予測可能性」がどのように計算されているのか、ターゲットを考慮しなければ意味がないのか、理解できない
理由: