トレーディングにおける機械学習:理論、モデル、実践、アルゴトレーディング - ページ 31

 
アレクセイ・ブルナコフ

ユーリ、あなたのデータで最初のトライアルを。

方法 loss_function cv_folds bag_frac model_params AUC_cv accuracy_train accuracy_validate
ジーエムビー ベルヌーイ 4 0.4 0.015_|_7_|_70_|_600 0.429659 0.590361 0.50501
ジーエムビー ベルヌーイ 4 0.6 0.02_|_5_|_110_|_600 0.485727 0.586345 0.51503

学習用の2種類のパラメータ値セット。注目すべきは、クロスバリデーションでAUCがプラマイゼロ以下になっていることである。

全体としては、51.5%のテスト精度が最高であることが判明しました。

6割をどう回避するのかもわからない。

その予測因子一式は捨てるべきだ。

もし、愚かにもすべてのステップ増分といくつかのオシレーターを100以上の予測因子と5000以上のオブザベーション、すなわちH1として、そのようなセットから10-15予測因子を選ぶことができ、40%以下の予測誤差しか与えませんが、最も重要なことはREFERREDモデルを与えないということです。

 
サンサニッチ・フォメンコ

この予測変数のセットは捨てるべきだ。

もし我々が愚かにも、5000以上のオブザベーションを持つ100の予測変数の上に、いくつかの振動子を持つすべてのものの増分を取るなら、すなわちH1、そのようなセットから、予測誤差を40%未満にするばかりでなく、最も重要なことは、REPROVEDモデルを与えない10-15の予測因子を選ぶことができます。

ユーリがどのような機能を搭載したかは、まだわかりません。どれも必要なものばかりだという。
 

一般的に、51.5%以上の分類精度を得たことはありません。したがって、それ以外の指標もランダムな推測に近いものになる。

テストの回答バランスは、ほぼ完璧に半々です。

Yuriさん、啓示を楽しみにしています。

 
test.csvの予測精度は50%程度で、すべてが無駄になっています。もし、あなたのモデルが本当に優れているのであれば、良い予測因子を使って80%以上の正しい予測を達成することができると思います。
 
アレクセイ・ブルナコフ

一般的に、51.5%以上の分類精度を得たことはありません。従って、それ以外の指標もランダムな推測に近いものになる。

テストのバランス回答は、ほぼ完全に半々です。

情報提供ありがとうございました。もし誰ももっと良い結果を得られなかったら、そして私自身がWekaでこのデータセットを動かしてみて、そこでも残念な結果だったら、libVMRのバージョンを更新する時が来たのでしょう。このようなサンプルで6割の正解率は、新バージョンを適用すれば、限界ではありません。
アレクセイ・ブルナコフ

ユーリ、啓示を待っていますよ。

私は何も隠していません。旧バージョンの結果については、すでに上記で紹介しましたが、すべての情報はオープンアクセスになっています。

二値分類器の構築方法の説明: https://sites.google.com/site/libvmr/

コメント付きJavaソースコード: https://sourceforge.net/p/libvmr/code/HEAD/tree/trunk/

ビルド: https://sourceforge.net/projects/libvmr/files/

Векторная машина Решетова
  • sites.google.com
Теория и практика алгоритмов машинного обучения обладающих обобщающей способностью
 
由利 ありがとうございます。

ひとつだけわからないことがあるんです。線形分離可能な集合であれば、通常のSVM方式をとればいいのでは?あなたのはどうですか?
 
Alexey Burnakov:
Yuriさん、ありがとうございます。

ひとつだけわからないことがあるんです。線形分離可能な集合であれば、通常のSVM方式をとればいいのでは?あなたのはどうですか?

この集合が線形分離可能であれば、分離超平面の候補の数は無限である。このような場合、適切な超平面を特定するための何らかの基準を見つけなければならない。このような基準は、Vapnik V. N., Chervonenkis A. Y. The theory of pattern recognitionという本の中で、参照ベクトルの方法について 定式化されています。モスクワ: ナウカ, 1974.より正確には、本書ではさまざまな基準が検討されている。

SVMとVMRはともに参照ベクトル法である。

  • SVMは経験則に基づくデータから依存関係を再構築する手法である。この基準は、空間が線形分離可能であれば、参照超平面間の最大距離である。 Vapnik V. N. 経験的データからの依存性再構成を参照。モスクワ:ナウカ社、1979年。
  • VMRは、強い依存関係を特定し、弱い依存関係を除去(削減)する手法である。その基準は、線形分離可能性に依存しない参照超平面間の距離の最小値である。つまり、VMRは依存関係を回復しない(学習サンプルに欠けていることが分かっているものをモデルに追加しない)、言うまでもなく、いくつかの暗黙の依存関係はモデルに入らない(ふるい落とされる)のである。具体的には、VMRは一部の特徴量を減らすことでハイパースペースを縮小する。

どの方式が良いのか悪いのかは、長い間議論されることでしょう。しかし、一般化可能性を取り、確認することで、すべてがうまくいくのです。

 
ユーリー・レシェトフ

この集合が線形分離可能であれば、分離超平面の候補の数は無限である。このような場合、適切な超平面を特定するための何らかの基準を見つけることが必要である。このような基準は、Vapnik V. N., Chervonenkis A. Y. The theory of pattern recognitionという本の中で、参照ベクトルの方法について定式化されています。モスクワ: ナウカ, 1974.より正確には、本書ではさまざまな基準が検討されている。

SVMとVMRはともに参照ベクトル法である。

  • SVMは経験則に基づくデータから依存関係を再構築する手法である。この基準は、空間が線形分離可能であれば、参照超平面間の最大距離である。 Vapnik V. N. 経験的データからの依存性再構成を参照。モスクワ:ナウカ社、1979年。
  • VMRは強い依存関係を特定し、弱い依存関係を取り除く(減らす)手法である。基準としては、線形分離可能性に関係なく、参照超平面間の距離の最小値を用いる。つまり、VMRは依存関係を回復しない(学習サンプルに欠けていることが分かっているものをモデルに追加しない)、言うまでもなく、いくつかの暗黙の依存関係はモデルに入らない(ふるい落とされる)のである。具体的には、VMRは一部の特徴量を減らすことでハイパースペースを縮小する。

どの方式が良いのか悪いのかは、長い間議論されることでしょう。しかし、一般化能力を取って確認することは可能であり、そうすれば、すべてがその場所に立つことになります。

問題は発生したときに解決すべきであり、馬(予測因子)より車(モデル)を優先させるのは絶対に無駄な行為です。ましてや、何が装着されているのか、装着されているのかどうかもわからないカートを比較するのは、なおさらです。

どのようなタイプのモデルでも適用する前に、予測変数のリストをノイズから取り除き、ターゲット変数に「関連する」予測変数のみを残すことが必要です。そうしないと、土星の輪やコーヒーのカスなど、数百年前から広く実用化されている予測因子に基づいてモデルを構築することになりかねないのだ。

上記のDr.Traderは、予測変数のセットからノイズを除去する作業を行おうとしました。

結果はマイナスです。

ネガティブな結果になったのは、予測変数の数が非常に多いのにオブザベーションの数が少ないからだと思います。しかし、これはANYモデルを適用する前に掘り下げるべき方向性である。

 
ユーリー・レシェトフ

この集合が線形分離可能であれば、分離超平面の候補の数は無限である。このような場合、適切な超平面を特定するための何らかの基準を見つけることが必要である。このような基準は、Vapnik V. N., Chervonenkis A. Y. The theory of pattern recognitionという本の中で、参照ベクトルの方法について定式化されています。モスクワ: ナウカ, 1974.より正確には、本書ではさまざまな基準が検討されている。

SVMとVMRはともに参照ベクトル法である。

  • SVMは経験則に基づくデータから依存関係を再構築する手法である。この基準は、空間が線形分離可能であれば、参照超平面間の最大距離である。 Vapnik V. N. 経験的データからの依存性再構成を参照。モスクワ:ナウカ社、1979年。
  • VMRは強い依存関係を特定し、弱い依存関係を除去(削減)する手法である。基準としては、線形分離可能性に関係なく、参照超平面間の距離の最小値を用いる。つまり、VMRは依存関係を回復しない(学習サンプルに欠けていることが分かっているものをモデルに追加しない)、言うまでもなく、いくつかの暗黙の依存関係はモデルに入らない(ふるい落とされる)のである。具体的には、VMRは一部の特徴量を減らすことでハイパースペースを縮小する。

どの方式が良いのか悪いのかは、長い間議論されることでしょう。しかし、一般化能力を取って確認することは可能であり、そうすれば、すべてがその場所に立つことになります。

由利さん、ありがとうございます。考えてみます。

質問があります。予測因子はどのように選択したのですか?
 



残念ながら、RでSharpeなどを計算することはできません。49個のランダムなサンプルを重ね合わせても、トレードのシーケンスは再構築されないからです。


Rには必要なものがすべて揃っています。fTrading::sharpeRatioを参照。

あと、PerformanceAnaliticsも見ておいて損はないでしょう。

グッドラック