トレーディングにおける機械学習：理論、モデル、実践、アルゴトレーディング

Andrey Dik 2016.08.25 22:58 #1231

アレクセイ・ブルナコフ
多変量解析の出口を説明するものです。自分で実装してみました。フィットする確率が上がる。

増えるのでしょうか？不思議ですね。私の場合、それが減ってしまいます。

いつものように、どうやら悪魔は細部に宿るようだ。

Dr. Trader 2016.08.25 23:25 #1232

サンサニッチ・フォメンコ

主な問題は過学習で、将来のサンプルで既存の木がクラスを正しく予測できないか、むしろどんどん予測精度が落ちていくことである。これがこのスレッドで扱われている問題で、つまり、結果として得られる木が将来発生し、将来のサンプルでの分類誤差が学習サンプルとほぼ同じになることを証明しようとしているのです。

暗黙の了解ではあるが、むしろそれを加えることでより明確になる。

通常、モデルの過学習は、モデルが学習例を非常に正確に記憶する効果がある。学習は、モデルが予測変数の目標値依存性という一般的なルールを導き出すことから始まるが、学習が進めば進むほど、モデル内のこれらのルールは厳しくなり、最終的には完全に例を記憶してしまい、新しいデータに対する予測は全くできない状態になる。これはクロスバリデーションによって処理され、モデルがある程度汎化されたルールを学習したが、まだ具体例を学習していない段階で学習を停止することで、新しいデータに対してより良い予測性能を得ることができる。

これは、例えば画像認識や音声認識など、時間と共に依存関係が一定になるようなデータで効果を発揮する。しかし、FXは、発見された依存関係の多くが時間経過とともに持続しないという点で異なります。問題は、学習例を記憶することなく学習するだけでなく、発見したパターンを何とかして未来に残そうとすることである。

課題はより完全です：予測変数とターゲット変数の間の関係が一定で、新しいデータでも存在することを保証する、ターゲット変数に関する予測変数の推定方法を開発することです。

どの目標値（バーの色、反転、トレンド）を使うか、どの予測値（価格、指標、指数）を使うか、といったニュアンスです。予測値の集合と目標値に対する予測能力、そしてその予測能力の時間的な変化を評価できれば、予測値と目標値の組み合わせで、最適な推定値を見つけることもできる。
そうすれば、どんなモデルでも訓練することができ、（おそらく再トレーニングの制御も可能で、例えば神経科学には重要です）そして、そこには聖杯があるのです。

СанСаныч Фоменко 2016.08.26 07:07 #1233

Dr.トレーダー

一般に、モデルの過学習は、モデルが学習例を非常に正確に記憶するという効果がある。学習は、モデルが予測変数の目標値依存性という一般的なルールを導き出すことから始まるが、学習が進めば進むほど、モデル内のこれらのルールは厳しくなり、最終的には完全に例を記憶してしまい、新しいデータに対する予測は全くできない状態になる。

アレクセイの立場が全く分からないので、ここでは二人だけのようです。

あとは、市場に長くいる人たちの経験です。彼らは成功したトレーダーだと思います。私は文献から、長年ヒューリスティックを使って成功している人たちを知っていますが、結果は悲惨な単調さ、つまりデポの喪失だけでした。どんな発見的な方法でも、再学習の問題には答えられない。だからこそ、1日、1カ月、1年...と終わりが来るのだ。しかし、いつも予期せず、極めて早すぎる。

PS.

科学の主題はいくつかの基本的な法則の抽出であり、そこから多くの特殊性を説明することができるという意味で、過学習は科学の基本的な問題である。

例えば、ニュートンの法則。

紙を一枚取ってみてください。床に落ちるに違いありません。その紙切れをくしゃくしゃにする - それは落ちるに違いないが、より速く。ニュートンは、すべてのものは同じ加速度で落ちると言っています。どうですか？そうやって、特殊な、つまり非常に多くの、大まかな現実を捨てて、普遍的な法則を手に入れ、もしそれがうまくいかなければ、これらの逸脱は常に説明できるのです。

これが科学というものだ。

そこで、商を "粗く "し、モデルとして提示することで、将来のすべての商を想定できるようにするのです。

オーバートレーニングに悩むのは、トレードの基本的な問題です。

mytarmailS 2016.08.26 07:08 #1234

Dr.トレーダー

これは、例えば画像認識や音声認識など、時間と共に依存関係が一定になるようなデータではうまくいく。しかし、FXは、発見された依存関係の多くが時間経過とともに持続しないという点で異なります。問題は、学習例を記憶させずに学習を実現することだけでなく、発見したパターンを何とかして未来に残そうとすることである。

少し話がそれますが、ちょっとした情報を・・・。

人が単語を言うとき、特に音声認識では問題があります - アルゴリズムに供給される単語のスペクトルパターン "HMM "や "RNN"・・・。しかし、トラブルは、他の人が同じ単語を言った場合、彼は少なくとも別の速度でそれを言うだろう、それらのパターンは同じですが、時間をかけてストレッチされ、今アナログ - 33ろうそくと88ろうそくの同じ頭と肩のパターン幅、幅が異なるが、パターンが同じです....。

音声認識アルゴリズムの問題点を解決するために開発されたのが、ダイナミックタイムワープ "DTW "です。このアルゴリズムの課題は、長さが異なる2つの類似したベクトルを見つけることである。このように、異なる人が同じ単語を言った場合、この単語のスペクトルパターンは、まず「DTW」、次に「MO」アルゴリズムを通過し、単語をうまく認識することができる。まだ使っていないので何とも言えないが、やってみないと分からないと思う。市場にパターンがないと言うのであれば、当然このアルゴリズムは機能しないが、まだ自分の世界観で決めてはいない．

Rパッケージ："DTW", "dtwclust"

СанСаныч Фоменко 2016.08.26 07:09 #1235

アレクセイ・ブルナコフ
トレードを終了する多変量解析の説明です。自分でも実装してみました。られる可能性が高まります。

アンドレイ・ディク

その方法は以下の通りである（以下はすべてMLと古典的TSの両方に等しく適用される）。

ポイントは、不確実性を排除すること、つまり、一方では学習と最適化におけるフィッティングを排除し、他方ではシステムに対する「ソフト」な要求を明確に策定することである。エントリー時のTPとSLも不確定要素なので、緊急終了時のみに使用します（商品のボラティリティに依存し、経験的に選択するので、100％のトレードでストップが発動することはできるだけ少なく、理想的には絶対にありません）。エントリーからエグジットまで、トレード全体を予測 する。スプレッドと手数料を除いた利益が出た結果を取引成功とします（スプレッドと手数料がカバーされているかどうかを確認した上でシステム運用を決定します）。エントリーシグナルを受信するとすぐにエントリーし、その後一定のバー数（経験的に決定され、予測因子と機器に依存します）待機します。- 取引を終了し、それが負けている場合、我々はもう1つのバーを待ちます。最小値と最大値の2つのパラメータを使用することもありますし（最大数のバーの後に取引が終了しない場合、それはいずれにせよ終了します）、最小数のバーを1つだけ使用することもあります。

多くの人が驚くだろうが、MLを使った各種システムはもちろん、ワンドでのTSなど、一見絶望的なシステムでも動き出すことが多いのだ。コツは、自分自身とマシンにTCの鉄則を求めないこと、相場の動きを完全に記述しようとせず、それらの非常に「ソフト」なルールをMLに与えることです。さらに、重いテールという市場の悪い遺産を取り除き（より正確には、テールは問題にならなくなり）、BPの定常性の欠如も問題にならなくなりました--市場の形は、その内部特性を変えることなく垂直方向にも水平方向にも拡大できることがわかっているからです（これは、emleonersにとっては非常に難しいことです）。

4thフォーラム、確かSwinosaursのスレッドで、全TSの2種類（境界が明確なものと不定なもの）について書いたのですが、そこでアイデアが完結しませんでした。今はすべてがより鮮明に見えるというか...。

一般的に、私はトレーディングシステムを開発する際に、自分のルールに従っています。ロジックを変更することで、すべての可能なバリエーションのうち、成功するパラメーターのバリエーションが増えるなら、それは良い変更です（トレーディングに悪いバリエーションを選ぶ確率は、どのようにパラメーターを変更しても減少し、プラス側になるでしょう）。この手法により、私のTSではこのシェアを拡大することができました。

あなたのおっしゃることは、すべてARIMAモデルの最適化に当てはまるような気がします。最適化の際、モデルを構築するバーの本数を選択します

mytarmailS 2016.08.26 07:16 #1236

Alexey Burnakov:SanSanych Fomenko:

二言で答えて100行の対談を引用する野暮な癖はなんなんだ？このフォーラムは120ページもあるので、不要な引用を削除すれば、60ページくらいは有用な文章が残りますが......。読んでくれる人、これから読む人を大切に する

mytarmailS 2016.08.26 07:55 #1237

アンドレイ・ディク

その方法は以下の通りである（以下はすべてMLでも古典的なTSでも同様に適用される）．

アルゴリズムとして、何をどのように行うのか、ポイントごとに説明してもらえますか。

Andrey Dik 2016.08.26 08:06 #1238

サンサニッチ・フォメンコ
おっしゃる通り、すべてARIMAモデルの最適化に当てはまるような気がします。最適化の際に、モデルを構築するバーの本数を選択します。

バーの固定値ではなく、"今から今まで "の可能な値。

Andrey Dik 2016.08.26 08:19 #1239

mytarmailS:

何をどうすればいいのか、アルゴリズムのようにポイントごとに説明してもらえますか。

価格の数値の時間的な伸びについては、おっしゃるとおりです。それが、縦と横のストレッチ／スケーリングです。しかし、図形全体だけでなく、その中にある個々の燭台の伸び具合も違っている。これはさらなる問題で、DTWのような事前・事後処理の手法が十分に適用できるかどうか疑問です。これらは、何か未知の方法で歪んだ市場の形です。

より正確には、現在のバーに買いシグナルがあり、先のバーの最少数を数え、取引が利益になるかどうかをチェックし、そうであれば - それを閉じ、そうでなければ - 先のバー1つを数え、それを再度チェックします。そして、この方法で最大数のバーに到達し、最終的に閉じます。これは、学習のメカニズムです。

一般に、市場データの機械学習は次のようなものである。図形の組み合わせ、円、四角、三角、台形、さまざまな大きさや形状の図形を機械に見せる。機械は、三角形や四角形、円形（大げさ）など、何らかの形で反応しなければならない。答えをパターンに当てはめて、ファッ!- 答えの形がテンプレートと合っていない！？そして、その学習過程で、なぜかクソみたいにマッチングしてしまう......。ここでは、そういう問題を解決しているのです。そして、「大丈夫です、パターンを少し伸ばせば、学習データ以外でも正解になりますよ」と言うのです。

システムの基本的な「魚」であり、すでにそれ自体で動いているのです。しかし、TSにSL Breakevenのようなツールを追加して取引に使用することは誰も禁じてはいません。システムは変わらないが、その分、相場が我々の方向に動いたときに、「計画」以上の余分な利益を得て、一定期間の統計的な値動きと比較してカバーした距離に応じて、トラリピするか、ポジションの一部決済を開始するか、など。