トレーディングにおける機械学習：理論、モデル、実践、アルゴトレーディング

Yury Reshetov 2016.11.01 15:24 #1871

新しいjPrediction 11 リリースをリリースしました。

細かい不具合を1つ修正しました（CSVのカンマが数字の場合、フルストップに置き換わらない）。モデルのための有意予測因子選択アルゴリズムの改良。

私のホームページ（プロフィールに記載）、メインページの最初の投稿からダウンロードできます。

Alexey Burnakov 2016.11.01 16:20 #1872

あと、予測因子の選択についても書きたかったのですが・・・。

メインの実験とは別に、ある為替資産についても少し分析をしています。

そこには通常のボリュームがあり、それも特徴に加えました。

そして、通常の線形モデル（OLS回帰）[Target ~ Predictor]を各予測変数に別々に適用し、異なる出力（11個）に適用しました。

計算されたf-stat.モデル。こんな写真が撮れました。

そして、ここで驚きなのが、ボリュームに関連する予測変数のブロックはすべて不要であることが判明したことです。また、価格差の自己相関に基づく予測値も必要ありませんでした。

また、出力変数のラグが大きくなるほど、有意性が悪くなることも明らかである。

そして、Fクリティカル（0.01水準）でノイズをすべて除去した。

こんな感じになりました。

これは、残念ながら起こりうる相互作用は考慮に入れていないのですが...。

しかし、ある入力に対しては、線形モデルの有意性は悪くはない。

Dr. Trader 2016.11.01 23:18 #1873

アレクセイ・ブルナコフ

私は、予測因子の重要性をひとつひとつ分析しないようにしています。ここのスレッドに良い例がありました。

2つの予測変数があります。どちらが視覚的に非常に作業しやすいか 2つを同時に分析すると、2番目のターゲットがモデルによって発見できる明確なクラスタを形成していることがわかります。もし、これらの予測因子を一つずつ使っていくと、それぞれの予測因子が無駄になってしまいます。

絵は純粋に仮説です。しかし、FXに関しては、いくつかの兆候から、良い予測変数が何らかの形で類似のクラスタを形成していると判断することができます。

Mihail Marchukajtes 2016.11.02 04:55 #1874

またしてもレシェトフが皆さんを圧倒してしまいましたね。バージョン11はまさに奇跡。以前は、バージョン10では、より多くの入力を使用して予測変数は、汎化能力を増加させないこと、および再トレーニングを持っていたが、今モデルで増加予測変数は、全体としてモデルの汎化能力を増加させると、まあ、このようなモデルの仕事は長く、良い続く、だから由良に賛辞、しかし他の人がおしゃべりと車輪を再発明し続けることができます。頑張ってください!!!!

Yury Reshetov 2016.11.02 08:21 #1875

ミハイル・マルキュカイツ

...

以前は、バージョン10では、jPredictionがより多くの入力を使っても汎化能力が上がらず、再トレーニングが必要でしたが、今は、モデル内の予測変数が増えると、一般的にモデルの汎化能力が上がり、そのようなモデルの作業が長続きして良いですね...」と。

ご感想ありがとうございました。

手持ちのサンプルでバージョン11を試したところ、同様の結論に達しました。この仮説的な結論を、独自の研究（再現実験）で確認する必要があったのだ。やはり、目的は人それぞれです。そのため、問題によっては、分類器が逆の結果を出す可能性がありました。しかも、新バージョンでは有意な予測因子の選択にかかる時間が大幅に増え、誰もが納得できるものではありませんでした。

モデルの学習時間については、品質（汎化性）を落とさずに短縮できる可能性があり、これはもうテクニックの問題ですね。この方向でjPredictionを改善する価値があるのか、それとも方向性が間違っていたのでロールバックすべきなのか、理解するのに間に合うように建設的なフィードバックを得ることが主なことです。そうでなければ、無駄な機能に時間と労力を割かなければならなかったでしょう。

Yury Reshetov 2016.11.02 09:11 #1876

ヴィザード_。

...

私が使っているデータでは92.3%(os)です。

...

心からおめでとうございます。(嘘でなければ）。

そして、それがどこかで公開されていないことを悔やんでいる。

パブリックドメインであることを議論しても、jPredictionに関するあなたの「主張」を証明することも反証することもできないので、無意味です。

СанСаныч Фоменко 2016.11.02 09:28 #1877

NSの愛好家にとって特に興味深いテーマだと思う記事を見つけました。

私が面白いと思ったのは、記事の最後の方で、サンプル内 予測誤差とサンプル外 予測誤差を比較しているのですが、この誤差の相関関係で比較しているのです。私の専門用語では、相関が高ければ（記事では0.8）、モデルは過剰に訓練されていないことを意味します。

Predictability in Network Models

Jonas Haslbeck - r
www.r-bloggers.com

Network models have become a popular way to abstract complex systems and gain insights into relational patterns among observed variables in almost any area of science. The majority of these applications focuses on analyzing the structure of the network. However, if the network is not directly observed (Alice and Bob are friends) but estimated...

Alexey Burnakov 2016.11.02 10:44 #1878

Dr.トレーダー

私は、予測因子の重要性をひとつひとつ分析しないようにしています。ここのスレッドに良い例がありました。

2つの予測変数があります。どちらが視覚的に非常に作業しやすいか 2つを同時に分析すると、2番目のターゲットがモデルによって発見できる明確なクラスタを形成していることがわかります。これらの予測器を一つずつ使っていては、それぞれの予測に無駄が生じます。

絵は純粋に仮説です。しかし、FXに関しては、いくつかの兆候から、そこにある良い予測変数が何らかの形で類似のクラスタを形成していると判断することができ、ただ、2つではなく、30個の予測変数が必要です。

一般的に言えば、これはすべて真実である。相互作用には、限界入力の情報量の和を超える付加的な情報量が存在する。

決定木、乞食、ブースティングのモデル相互作用が簡単にできる。つまり、ユーザー側が余計な手間をかけることなく。線形モデルには様々な問題がある。OLS回帰では、予測変数の出現順序を考慮し...予測変数の欲張りな交互加算は原理的にはうまくいくのですが、欲張ると偏ったモデルになります。森や木も同じです。

しかし、何十もの予測因子を含めることには慎重でなければなりませんね。30の変数とやりとりしている自分を想像できますか？木であれば、最低でも30本の深さが必要です。野放図な再トレーニングをせずにシミュレーションするには、膨大なデータが必要です...。

実際には、インタラクションの深さは3〜5ですでに十分です。

СанСаныч Фоменко 2016.11.02 11:02 #1879

Alexey Burnakov：

一般的に言えば、これはすべて真実である。相互作用については、限界入力の情報量の和を超える付加的な情報量が存在する。

決定木、乞食、ブースティングのモデル相互作用が簡単にできる。つまり、ユーザーの手間を一切かけずに。線形モデルには様々な問題がある。OLS回帰では、予測変数の出現順序を考慮し...予測変数の欲張りな交互加算は原理的にはうまくいくのですが、欲張ると偏ったモデルになります。森や木も同じです。

しかし、何十もの予測因子を含めることには慎重でなければなりませんね。30の変数とやりとりしている自分を想像できますか？木であれば、最低でも30本の深さが必要です。野放図な再トレーニングをせずにシミュレーションするには、膨大なデータが必要です...。

実際には、インタラクションの深さは3〜5ですでに十分です。

私にとって、予測変数の相互作用というのは、極めて怪しいものです。そこには、たくさんの課題がある......。

また、OLSで交互作用があるとすれば、単純に考えてもあり得ないことである。もし、あなたがOLSを適用できる条件をすべて紙に丁寧に書き出してみてください。そして、紙に書かれたものと、金融時報の現実をすべて比較する。

PS.

データマイニングの本をほとんど読めば、相関のある予測因子を除去する手順が必ず記述されています。

mytarmailS 2016.11.02 11:18 #1880

サンサニッチ・フォメンコ

データマイニングの本をほとんど読めば、相関のある予測因子を除去する手順が必ず記述されています。

データマイニングに関するほとんどすべての本を手に取り、読んだ内容を市場に適用してみると、うまくいかないことがわかる......。既成概念にとらわれないことかな？

トレーディングにおける機械学習：理論、モデル、実践、アルゴトレーディング - ページ 188