トレーディングにおける機械学習：理論、モデル、実践、アルゴトレーディング

Dr. Trader 2017.08.24 08:35 #4681

arymのパラメータを求めるコードはこちらです。リンク先のatachaの投稿にあります。最初の投稿を少し修正し、最初のもっと失敗した例を普通のものに置き換えたのです。

  arimaModel <- auto.arima(y = ts(DT$value[trainIndexes],frequency=48),
                           seasonal.test = "ocsb",
                           trace=TRUE,
                           stepwise = FALSE,
                           max.q = 48, 
                           max.order = 48+5
                         )

auto.arima 関数は、それ自身で適切な p d q P D Q パラメータを探します。
ts(DT$value[trainIndexes],frequency=48) # データはforecastパッケージから何らかのフォーマットに変換され、主なものは頻度を指定することです。
seasonal.test = "ocsb" # googleはそれが良いと書いているが、私はよく分からない。
stepwise = FALSE #falseはより包括的な検索を可能にする。デフォルト値のtrueは、ローカルミニマムでスタックして検索が停止する可能性があることを意味する。
max.q =48 #検索におけるqの最大値デフォルト値== 5、このデータでは低め
max.order = 48+5 # 最大合計 p+q+P+Q. デフォルト値 == 5, このデータでは十分ではない

この関数は長い時間がかかりますが、最終的には私が使ったのと同じパラメータを取り出すことができ、もしかしたらもっと良いものを見つけることができるかもしれません。

この関数がすべてを見つけるのを待つのではなく、直感的に適切なパラメータを選択したのです。データにはトレンドがあるので、p＝1、P＝1です。そして、グラフは周期24と48の偏波を示すので、q＝24、Q＝48／周波数＝1
arimにperiod 336を挿入することができなくなりました。2つ目の季節性が必要で、予測パッケージはその方法を知りません。

すでに既知のパラメータp d q P D Qを持つ有馬はこのように作成される。

Arima(y = ts(DT$value[trainIndexes],frequency=48), order = c(1, 0, 24), seasonal = c(1, 0, 1))

によって支配されているため、季節性は (1,0,1) ではなく、 (1,0,48) となります。

サンサニッチ・フォメンコ

ARCHに残留するものを分析せずに有馬を論じるのは、まったくもって空論です。ARCHシミュレーションの結果、残差が定常となる系列もある。しかし、静止していることを前提に予測誤差を議論することは、深刻なことではない。この残像は極めてファセット性が高い。

そうですね。ただ、このデータは非常に周期的でシンプルなので、arimaは問題なく動きますね。同じコードにeurusd m30を貼り付けると、新しいデータでモデルが急激な価格ジャンプに陥ることはない。

СанСаныч Фоменко 2017.08.24 13:12 #4682

Dr.トレーダー

arymのパラメータを求めるコードはこちらです。リンク先のatachaの投稿にあります。最初の投稿を少し修正し、最初のもっと失敗した例を普通のものに置き換えたのです。

関数 auto.arima は，適切な p d q P D Q パラメータを自分で探す。
ts(DT$value[trainIndexes],frequency=48) # データはforecastパッケージから何らかのフォーマットに変換される、重要なのは頻度を指定すること、さもなければ季節性は利用されない
seasonal.test = "ocsb" # googleはそれが良いと書いているが、私はよく分からない。
stepwise = FALSE #falseはより包括的な検索を可能にする。デフォルト値のtrueは、ローカルミニマムでスタックして検索が停止する可能性があることを意味する。
max.q =48 #検索におけるqの最大値デフォルト値== 5、このデータでは低め
max.order = 48+5 # 最大合計 p+q+P+Q. デフォルト値 == 5, このデータでは十分ではない

この関数は長い時間がかかりますが、最終的には私が使ったのと同じパラメータを取り出すことができ、もしかしたらもっと良いものを見つけることができるかもしれません。

この関数がすべてを見つけるのを待つのではなく、直感的に適切なパラメータを選択したのです。データにはトレンドがあるので、p＝1、P＝1です。そして、グラフは周期24と48の偏波を示すので、q＝24、Q＝48／周波数＝1
arimにperiod336を挿入することができなくなりました。そのためには2番目の季節性が必要ですが、パッケージ予報ではそれができません。

すでに既知のパラメータp d q P D Qを持つ有馬はこのように作成される。

季節性は、実は(1,0,1)ではなく、(1,0,48)なのです。

そうですね。ただ、このデータは非常に周期的でシンプルなので、arimaは問題なく動きますね。同じコードでeurusd m30を貼り付けると、モデルは新しいデータで価格スパイクに入りません。

私はこの「最適な」パラメータ、つまり回帰式の係数がフィッティング後に表示されるパラメータには興味がありませんでした。

Dr. Trader 2017.08.24 14:07 #4683

summary(arimaModel)
Series: ts(DT$value[trainIndexes], frequency = period) 
ARIMA(1,0,24)(1,0,1)[48] with non-zero mean 

Coefficients:
         ar1     ma1     ma2     ma3     ma4     ma5     ma6     ma7     ma8     ma9    ma10    ma11    ma12    ma13    ma14    ma15    ma16    ma17    ma18
      0.8531  0.3469  0.3324  0.3512  0.3564  0.3176  0.2676  0.2223  0.1904  0.2015  0.2241  0.2529  0.2424  0.2383  0.2408  0.2507  0.2279  0.1701  0.1418
s.e.  0.0316  0.0350  0.0413  0.0462  0.0506  0.0542  0.0559  0.0554  0.0537  0.0514  0.0494  0.0481  0.0477  0.0469  0.0455  0.0451  0.0448  0.0439  0.0415
        ma19    ma20   ma21     ma22     ma23     ma24    sar1     sma1       mean
      0.0813  0.0525  0.028  -0.0152  -0.0226  -0.0159  0.9899  -0.4300  1816.9447
s.e.  0.0390  0.0358  0.032   0.0280   0.0224   0.0180  0.0015   0.0132   687.9652

sigma^2 estimated as 1442:  log likelihood=-23883.84
AIC=47825.68   AICc=47826.05   BIC=48012.95

Training set error measures:
                     ME     RMSE      MAE         MPE     MAPE      MASE         ACF1
Training set -0.1648644 37.86381 25.64976 -0.07217873 1.573367 0.1610166 0.0002493082

ファイル:

arimaModel.zip 140 kb

СанСаныч Фоменко 2017.08.24 14:30 #4684

Dr.トレーダー

なんか変なテーブル。

それにしても。

係数値とs.e.を比較。わずかな例外を除いて10%以上。なぜかt経由の見積もりは出てきませんが、真正面から、その10％というのは。

係数推定値に関する帰無仮説：係数が有意でないことの確率。偏差が10％を超えると、これらの係数はすべて有意ではない、つまり回帰式が成立しないことを意味します。

PS.

通常、 有意な 係数はアスタリスクで表示される。係数は有意ではないので、それ以外の数値はただの数字です。

hist(residuals(arimaModel), breaks= 100)

係数が有意でないのは、左側の尾が右側の尾より太いからである。

目視ではなく、定量的に問題を発見し、それを解決するためのツールをピックアップできるテストがあるのです。

結論

使用する時系列にARIMAモデルは適用できない。

Mihail Marchukajtes 2017.08.24 19:41 #4685

マキシム・ドミトリエフスキー

市場では、市場は定常ではないので、どのような分類器も再トレーニングされる。過学習にならないようにするには、NSを全歴史分教える必要があります。そうでなければ、常に市場サイクルが変化し、モデルが破損していることになります。唯一の賢明な方法は、取引の過程でオーバートレーニングまたは再トレーニングを行うことです :) 私たちは、15年間の歴史の中で、何の介入もなく毎月1000%の利益を着実にあげるリールを信じていません。

一般的に、私はまだそのエッジが表示されない - FXのオーバートレーニングNMは何ですか。テストサンプルで稼げなかった時でしょうか？なーるほど・・・。ダメダメ非定常性のことです。チェックの仕方がわからないと、実用的でない、現実的でない。

ここで、あなたは全く正しい、概念自体を知らないのに、どうして再教育を語ることができるのでしょうか？NSの再教育ってどういうこと？それぞれ、どう見るか投げかけてみてください、まずは私から。

1.NSは新しいデータではうまく機能しない。暗黙の了解で一貫して信号を分けているわけではなく、正しいか正しくないかは問題ではなく、重要なのは悪いものと良いものを分ける安定性なのですが......。コンスタントに排出できる（モデル反転）のですが、悪いものと良いものを分けるということそのものが表面上になっています。

2.このモデルは、学習区間の半分以下では良好な結果を示した。この手法の意味するところは、よく訓練されたモデルは訓練区間の50%以上を走行するべきだということである。

3.新しいデータのバランス曲線は、浮き沈みが激しい（ランダムモデルが特定の期間に機能し、1-2件の大型案件により収益性が生じたが、一般的には沈下している）。

そして、分類についてですが、これが私の答えです。

NOT STATIONARYは、バーが閉じると同時に、ゆっくりと流れ始め、滑らかに変化する値です。そして、バーが歴史的になればなるほど、この悪名高いSTATIONARY価値（市場全般を変化させる何らかのカオスやエーテル的な価値の象徴）が高くなるので、分類のモデルを教えれば、この価値がモデルの質に直接依存することが分かってくるのです。この非常にNOT STATIONARYの変化によると、古いモデルほどその品質レベルは低い。目的は、十分に長く使えるようなモデルを作ることで、そこから数ピップスを得ることができます :-)

Dr. Trader 2017.08.25 01:45 #4686

ミハイル・マルキュカイツ

NSの再教育とはどういうことですか？

学習用のデータ、特にFXでは通常ノイズが多く、100％の精度でモデルを学習させることで、そのノイズを望ましい結果とともに再現するように教えているのです。そして、NSが結果を正しく予測するようになり、かつ、正解をノイズと一緒に記憶するようにならない時点で、学習を止める必要があるのです。私自身の言葉で言うと科学的には、https://ru.wikipedia.org/wiki/Переобучение。

https://commons.wikimedia.org/wiki/File:Overfitting.svg

ここに良い図解があります。2モデルです。
が、このデータを100％の精度で学習した。目視では、赤と青の空間の境界の多くの点が少し横にずれている（ノイズ）ことがわかり、実際にはこの2つの空間の境界は破線ではなく、ある種の平均化された線であるはずです。
最初のモデルは再トレーニングされます。
そして、ノイズを無視した2つ目のモデル（黒線）があり、感覚的に明らかに飛行機を分割しています。

Maxim Dmitrievsky 2017.08.25 02:34 #4687

Dr.トレーダー

学習用のデータ、特にFXでは通常ノイズが多く、100％の精度でモデルを学習させることで、そのノイズを望ましい結果とともに再現するように教えているのです。そして、NSが結果を正しく予測するようになり、かつ、正解をノイズと一緒に記憶するようにならない時点で、学習を止める必要があるのです。私自身の言葉で言うと科学的には、https://ru.wikipedia.org/wiki/Переобучение。

https://commons.wikimedia.org/wiki/File:Overfitting.svg

ここにかなり良い図解があります。2パターンです。
は、このデータを100%の精度で学習しています。目視では、赤と青の空間の境界の点の多くが少し横にずれている（ノイズ）ことがわかり、実際にはこの2つの空間の境界は破線ではなく、ある種の平均化された線になるはずであることがわかる。
最初のモデルは再トレーニングされます。
そして、ノイズを無視した2つ目のモデル（黒線）があり、感覚的に明らかに飛行機を分割しています。

脳が壊れ始めることもある...FXのノイズについてですが、電波じゃないんですよね？なぜ、FXにノイズが入るのでしょうか？マイケルのモデルが月に30～50回、1日に1～2回の取引をしたとしたら、それは取引ノイズなのか何なのか？どういうわけか、この定義はここに当てはまらない :)

FXの過学習は、誤判定（時間的）パターンについてです。しかし、FXには他のパターンがないので、どんなパターンでもある程度はオーバートレーニングになる

p.s. だから、インストルメントソーティングをして、株価や指数の上昇のように、現時点で最も持続的なBPを選ぶ必要がある。

Mihail Marchukajtes 2017.08.25 06:34 #4688

すべて真実だ!!!!しかし、オーバートレーニングには数学的な説明もある......。

教師による学習では、学習セットにおけるネットワークの誤差を小さくしようとする。そして、この誤差の低減は、実数を扱えば無限大になる。しかし、テストセットでも誤差の減少がモデルの劣化につながる瞬間がある。このことから、次のような結論が導き出されるのです

理論的には、各データセットには絶対学習が存在します。これは、0.0000000000000001のモデルは再学習されず、0.000000000000009のモデルは再学習される、誤差スケール上の特定のラインであり、物理学用語で言うと「絶対ゼロ」みたいなもんです。この点より右にある誤差はすべて未学習、左にあるものはそれに応じて過学習とみなされる。これはあくまで私個人の理解であることをお断りしておきます。

これは、ある特定のデータセットに対するある種の理想的なモデルである。

AIの課題は、絶対的に学習可能なポイントにできるだけ近づき、かつそれを超えないようにすることです。IMHO

この理論では、点ではなく、完全に訓練されたモデルと過剰に訓練されたモデルの領域であると仮定しています。混在しており、十分な大きさがない。ちょっと...を想像してください......。なぜ？これは、私が観察して確認したことです。

とにかく、AIがまずやらなければならないのは、このトランジションエリアにぶつかるようにすることです。しかし、ここからが本題......。

サンプルを定常的に分割するのであれば、オーバートレーニングの境界のある特定の値になる可能性が高い（最も高い）、サンプルを毎回ランダムに分割するのであれば、OVERになる...ということです。過渡的な......。IMHO

AIがその地域に来ることが保証されていないのであれば、それは正しくできていないのです。あとは、どのモデルで止まるか!!!!

これはすべて、JPredictionを使って得たものです。

同じファイルをランダムサンプリングを考慮して学習させたところ、10種類の学習結果が得られ、最悪は75％、最高は85％の汎化率でした（今はオプティマイザの数値を取っていますが、正しいか否かは関係ありません、今は・・・例として・・・）。つまり、75から85の領域があり、そこにはニューラルネットワークというモデルのバリエーションが無限に存在すると考えることができます。平均80〜82くらいを目安に選ぶと、OOSでは弱くなるようなモデルにも出会えます。究極の多項式を決めるのは、簡単なことではないからだ。

ここにビデオがあり、35分から見てください、そこで彼は話しています...。

https://www.youtube.com/watch?v=qLBkB4sMztk

001. Вводная лекция - К.В. Воронцов

2014.12.22
www.youtube.com

Курс "Машинное обучение" является одним из основных курсов Школы, поэтому он является обязательным для всех студентов ШАД. Лектор: Константин Вячеславович Во...

Maxim Dmitrievsky 2017.08.25 06:46 #4689

ミハイル・マルキュカイツ

ここでビデオを見て、35分から見て、彼が話しているのは...。

https://www.youtube.com/watch?v=qLBkB4sMztk

ああ、こいつは前に見たことがある、もう一度見てみるよ、thx.)

数学的な意味ではなく、本当の意味で、FXのオーバートレーニングNSは全く違う意味を持ち、そのようなオーバートレーニングからは逃れられないのです :)このため、厳格な選別とトレンド機器の検索、または恒久的に再教育された適応型NSのいずれかが、どのような基準に従って、 - これは創造的な質問です。

Mihail Marchukajtes 2017.08.25 07:08 #4690

マキシム・ドミトリエフスキー

ああ、あいつは前に見たことがある、また見るよ、ありがとう)

数学的な意味は明確ですが、本当の意味、つまりFXのオーバートレーニングNSは全く別の意味を持っており、そのようなオーバートレーニングから逃れることはできません :)このため、トレンドのある楽器を厳密に選別して探すか、常設の適応型NSを再教育する必要があるのですが、どのような基準で行うか、ここはクリエイティブな問題ですね。

しかし、本当のポイントは、これです。テスト区間でのスプリットが悪い場合、スプリットが正しいかどうかは問題ではなく、スプリットが弱いという事実が問題なのです。そして、そのモデルが学習区間の50％以上働いていない場合、そのようなモデルは過剰学習とみなされる......。IMHO

トレーディングにおける機械学習：理論、モデル、実践、アルゴトレーディング - ページ 469