トレーディングにおける機械学習：理論、モデル、実践、アルゴトレーディング

Maxim Dmitrievsky 2018.05.31 08:18 #9661

イワン・ネグレシュニー

IMHOでは、まずpythonで作業する必要があり、そこでは多かれ少なかれデバッグが行われます。

ああ、DLLが32bitでmt5が64bitのようだ。

後でまた来ます。今はpythonでOKです。

СанСаныч Фоменко 2018.05.31 08:41 #9662

マキシム・ドミトリエフスキー：

自分ではできそうにないので、やはりPythonを使うしかないですね :D

あなたには、「自ら困難を作り出す卓越したスペシャリスト」の称号が与えられるべきですよ。映画だけの話：普通のヒーローは必ず逆を行く。

ここで、ご紹介したxgboostのモデルを数回クリックするだけで、ガラガラと音が鳴ります。

トレーニング用のサンプリングで入手しています。

Error matrix for the Extreme Boost model on Df1.num [**train**] (counts):

      Predicted
Actual    0    1 Error
     0 1930   90   4.5
     1   42 2152   1.9

Error matrix for the Extreme Boost model on Df1.num [**train**] (proportions):

      Predicted
Actual    0    1 Error
     0 45.8  2.1   4.5
     1  1.0 51.1   1.9

Overall error: 3.1%, Averaged class error: 3.2%

Rattle timestamp: 2018-05-31 11:21:20 user

検証用サンプルについて。

Error matrix for the Extreme Boost model on Df1.num [validate] (counts):

      Predicted
Actual   0   1 Error
     0 306 119  28.0
     1 111 367  23.2

Error matrix for the Extreme Boost model on Df1.num [validate] (proportions):

      Predicted
Actual    0    1 Error
     0 33.9 13.2  28.0
     1 12.3 40.6  23.2

Overall error: 25.5%, Averaged class error: 25.6%

Rattle timestamp: 2018-05-31 11:22:15 user

テストサンプリング用。

Error matrix for the Extreme Boost model on Df1.num [test] (counts):

      Predicted
Actual   0   1 Error
     0 314 118  27.3
     1 112 360  23.7

Error matrix for the Extreme Boost model on Df1.num [test] (proportions):

      Predicted
Actual    0    1 Error
     0 34.7 13.1  27.3
     1 12.4 39.8  23.7

Overall error: 25.5%, Averaged class error: 25.5%

Rattle timestamp: 2018-05-31 11:22:50 user

結果に満足したら、Rでコードを見ることができます。ここで課題です。

crs$ada <- xgboost(Long_Short ~ .,
  data              = crs$dataset[crs$train,c(crs$input, crs$target)],
  max_depth         = 6,
  eta               = 0.3, 
  num_parallel_tree = 1, 
  nthread           = 2, 
  nround            = 50,
  metrics           = 'error',
  objective         = 'binary:logistic')

実際、ラトルからすべてのRコードを取り出し、MT4/5 Expert Advisorからこの関数を呼び出して、テスターで結果を見ることができます。原始的なDLLで、昔から安定して動作し、たくさんの人が使っている...。

1時間以内にこれだけのことができるのです。モデルには問題がない！？

ターゲットとそれに対応するターゲット予測器、またはその逆で問題がある。しかし、この問題を解決するためには、バリアントを試すための労力が極めて少ないツールキットが必要です。

PS.

ラトルに行くと、最もシンプルなnnetですが、木（rPart）、randomForest、SVM、ロジスティック回帰glm、お好みのニューラルネットワークをワンクリックで構築することが可能です。そして、おやつには、ターゲットとその予測因子を定式化できれば、生きたモデル（法外な利益を達成したり、預金捨てを達成するために）です。

大至急。

xgboostへの愛が目覚め、ガラガラで許容できる予備計算でこの愛を養えるようになったので、ここにそのドキュメントを掲載します。

パッケージ説明 - https://cran.r-project.org/web/packages/xgboost/xgboost.pdf

Xgboostでデータセットを理解する - https://cran.r-project.org/web/packages/xgboost/vignettes/discoverYourData.html

xgboost: eXtreme Gradient Boosting - https://cran.r-project.org/web/packages/xgboost/vignettes/xgboost.pdf

そして、復習のために、Xgboostのプレゼンテーションhttps://cran.r-project.org/web/packages/xgboost/vignettes/xgboostPresentation.html。

ここで示しているレベルを考えると、Rに全く問題がないのですね。

頑張ってください。

Maxim Dmitrievsky 2018.05.31 08:48 #9663

サンサニッチ・フォメンコ

ありがとう、sanSanSanych...ただ、ラトルはxgbを搭載しているのか？

とにかく、RLタスクのために、アルゴルブ足場の代わりにこのモデルを取り付ける必要があるのです。

何も研究しなくていいから、正則化とクロスバリデーションでもっといいものを......」。Rはどうか知りませんが、例えばpythonでは、クロスバリデーションも xgbのフォールバックに 簡単にボルトで固定されます

そしてRにはRL用の適切なライブラリがなく、それらはすべてpythonにあります。つまり、pythonの上にまたRを乗せなければなりません。）

Aleksey Vyazmikin 2018.05.31 22:23 #9664

木の話なんだけど...。

ワンバーの場合はわかりませんが、N本後に発生するイベント（具体的にはトレンドトレードなど、N本後あるいは一定期間後にSL/TPでポジションを閉じる場合）を対象とし、その結果を検討・分類する場合、結果を評価するための分割表に注目するのではなく

1.N本のバーからなるウィンドウにおける分類結果の変動頻度

2.Nバーによるルールのグループ化（ルール密度）

最初のケースでは、予測対象の変化頻度を推定する指標が必要で、それが高ければ、正解率は高くても、モデルは不安定である。

第二のケースでは、強化およびこのルールのモデル内への伝播を推定するために、ウィンドウ（Nバー）ごとに1つのルールを繰り返し適用する必要があります。

そのため、足場など、結果を自己分析して修正する必要があるモデルの品質をトレーニングする際には、見積もりを変更する必要がある。

このような考えをお持ちの方は、どう思われますか？

Maxim Dmitrievsky 2018.06.01 05:03 #9665

改めて、Rは私には向かないと確信しました :) 構文はほとんどハイライトされず、コードは読めず、エラーはほとんどハイライトされません。コードそのものや言語が美的感覚に欠ける

反論はこちら

そう、pythonでは5行だったアルゴリズムを3行で学習できる、ただそれだけです。Pythonでの可読性はもっと良いだろう。MOパッケージの利点が見当たらない、全部同じだ。

Aleksey Vyazmikin 2018.06.01 06:37 #9666

マキシム・ドミトリエフスキー

改めて、Rは私には向かないと確信しました :) 構文はほとんどハイライトされず、コードは読めず、エラーはほとんどハイライトされません。コードそのものや言語が美的感覚に欠ける

反論はこちら

そう、pythonでは5行だったアルゴリズムを3行で学習できる、ただそれだけです。Pythonでの可読性はもっと良くなると思います。MOのパッケージには何のメリットも感じない、全部同じだ。

ロシア語でRプログラミングのビデオ講座を見ている真っ最中です :)言語は確かに構文と仮定、例えば、関数内のグローバル変数を宣言する機能は、特に関数が複数回呼び出された場合は、コードを歪めることができる、あなたはつまずくとエラーを探すことになりますが、それはコンパイラにされません。

現在、187メガバイトのcsvファイルは、ツリーで動作するために1.5Gバイトとしてメモリ上に展開されます（一方、Rattleではフォレストの構築に7.5Gバイト）。マルチスレッドは、共有メモリで動作できない別々のプロセスとして起動され、6プロセッサコアの代わりに4つだけロードでき、8Gバイトの空きメモリで制限されているため、私は本当に怒っています。

この場合、pythonはどのように処理するのでしょうか？

Maxim Dmitrievsky 2018.06.01 06:45 #9667

アレクセイ・ヴャジミキン

ロシア語でRでのプログラミングのビデオ講座を見ている真っ最中です :)言語は確かに構文と仮定の面で最も困難であり、例えば、関数のグローバル変数を宣言する可能性は、特に関数が複数回呼び出された場合、あなたはつまずくとエラーを探しますが、それはコンパイラにされません、コードの大きな混乱を作ることができます。

現在、187メガバイトのcsvファイルは、ツリーで動作するために1.5Gバイトとしてメモリ上に展開されます（一方、Rattleではフォレストの構築に7.5Gバイト）。マルチスレッドは、共有メモリで動作できない別々のプロセスとして起動され、6プロセッサコアの代わりに4つだけロードでき、8Gバイトの空きメモリで制限されているため、私は本当に怒っています。

この場合、pythonはどうなっているのでしょうか？

そんな大きなファイルは使ったことがないので、メモリは見ていません :)しかし、Rの初期のバージョンでは、メモリとそのクリアに問題があったと聞いています

Pythonは、あらゆる点でより高度な言語である。

Rのプロット可視化もおかしいし、pythonに比べたら悲惨だし、Rstudio IDEも森の怪物だし、2018年のサポートはどうなっているのか理解できない。

私は100行のコードを書いて混乱したことがあります、すべてが光のない構文で1つの読めない混乱にぼやけました :) だからもしあなたがバズを得たいなら、vscodeやjupyter notebooksでpythonを使うことです

更新された 木や森そのものは、セットの大きさや木の本数や深さによって、多くのメモリを消費します。例えば、50本の木からなる20の森と1000の例のセットからなる私の委員会は、~40mbを要する

СанСаныч Фоменко 2018.06.01 07:59 #9668

Rについて、わからない、できない、やらないを無意味に書く。

1.Rのデバッグの速度と容易さは、コンパイラとインタプリタの利点を持つ言語と比較して驚くべきものです。この点については、ハイライトするものがないため、非常に限定的であり、コードはほとんどすぐに実行可能です。極めて大容量のコード。ネタバレ」なコードを書くのは、Rそのものやパッケージからの機能に対する知識不足が原因である可能性が高いです。そして、もし本当にそのようになったのなら、良いモーヴェトンは関数に分割することを求めます、OOPが存在します。

2.すべての言語でのグローバル変数の使用には注意が必要です。なぜなら，関数のパラメータや戻り値は "オブジェクト "であってもよく，Rでは何でもよいからです．その他、変数名が付くスペースをコントロールすることができます。

2.グラフィックは世界最高水準で、最も単純なプロットから漫画まであり、原始的なものから統計用の特殊なブランクまで、数レベルのグラフィックが用意されています。

3.Pythonと比較するのは不可能です。両者の普及率はほぼ同じですが、pythonにはサイト開発者を中心とした「外来」ユーザーが多く、一方Rは統計のシステムで、我々のネイティブなもの、手口が統計に含まれるので二重にネイティブなものなのです。私たち向けのパッケージというと、他の専門的なパッケージ（SAS...）と比較する必要がありますが、有料なんですよね。

4.Rは統計学におけるアルゴリズムの標準です。最近の出版物には必ずと言っていいほどRコードが含まれています。

最後です。Rはマイクロソフトの一部であり、pythonはsubdelugeです。ここの近くのスレッドでは、プログラミングに非常に熟練した人々が配布元について同意することができませんでした。私にとっては、それが評決なのです。

プログラミングでは、便利なもの、機能的なものよりも便利なものを選ぶことが非常に多いのですが、極端に疑問のあるものを選んで水増しすることはNGです。

Maxim Dmitrievsky 2018.06.01 08:17 #9669

サンサニッチ・フォメンコ

SanSanych、そこでのディストリビューションの唯一のソースは、pythonのウェブサイトです :)

統計や機械学習の拡張に IPython や anaconda を使用します。ロシア語コミュニティ「opendatascience」やYandexの動画を見ることができます。Rのことを全く知らないのです。では、何をもって規格とするのか。pythonを試してみて、自分なりの意見を形成し、比較してみてください。それに、おっしゃるようにpythonを知っていれば、統計だけでなく、必要に応じて他のこともできるようになります。

また、インタプリタ型言語ですが、完璧にハイライトされ、スクリプトを実行した後だけでなく、その場で構文をチェックし、さらにコードフォールディング、メモ帳など、多くのグッズを備えています。

Aleksey Vyazmikin 2018.06.01 08:19 #9670

マキシム・ドミトリエフスキー

そんな大きなファイルを使ったことがないので、メモリは見ていません :)しかし、Rの初期のバージョンでは、メモリとそのクリアに問題があったと聞いています

Pythonは、さまざまな用途に使われるため、あらゆる面でより成熟した言語と言えます。

あとRのプロット可視化のおかしさも理解できない、pythonに比べたら悲惨、Rstudio IDEも森の怪物、2018年のサポートはどうなっているのだろう

100行のコードを書いては混乱し、すべてが光の当たらない構文で一つの読めない混乱になった :) 要するに、もしあなたがバズを得たいなら、vscodeやjupyter notebooksでpythonを使うことだ。

アップした 木や森そのものは、セットの大きさや木の本数、深さによって、多くのメモリを消費します。例えば、50本の木からなる20の森と1000の例のセットからなる私の委員会は、~40mbを要する

今のところ感じているのは、Rはかっこいい電卓だということです。言語学が苦手な私にとって、ロシア語のヘルプがないことは致命的です。

視覚化 - 私には、大きなサイズの木はうまく視覚化できないのですが、PDFに変換することで解決しました。

トレーディングにおける機械学習：理論、モデル、実践、アルゴトレーディング - ページ 967