トレーディングにおける機械学習：理論、モデル、実践、アルゴトレーディング

Dr. Trader 2016.07.17 17:36 #421

コンビナート です。
サンユーの道を歩むと、ただでさえ低い1％の確率が著しく下がるという意見はどうでしょう。

各指標には付加情報があり、1％だけでなく、すべて有用な情報です。RSIの場合、「0.99以上で買い、0.01未満で売る」という戦略はなく、残念な例となりました。

例えば、ある指標をもとにExpert Advisorを作成し、そのパラメータを最適化することで、より良い結果を得ることができます。しかし、そのようなEAは将来必ず失敗します。EAが失敗しないためには、何十ものインジケータが必要で、（もっと少ないかもしれませんが、私にとってはそれほど簡単ではありません）インジケータの値は、異なる条件の複雑なロジックでテストされることになります。例えば、MA(20)>MA(16)なら、RSI>0.3なら買い、MA(20)<MA(16)なら、RSIではなく、ストキャスティックに注目します。ロジックはこんな感じですが、さらに複雑で華麗なものになるはずです。ランダムフォレストモデルはそのようなロジックを構築することができ、非常に優れていると思います。

すべての指標値は、モデルを構築する上で重要である。これらの数値は、他の指標の値から、判断や売買のしきい値やその成立条件をモデル自身が決定することになる。

TheXpert 2016.07.17 18:00 #422

Dr.トレーダー

各指標には何らかの付加情報が含まれており、1％だけでなく、そのすべてが有用です。

オッカムのカミソリの原理をご存知でしょうか？

Dr. Trader 2016.07.17 18:26 #423

ある指標がある範囲の値を持っているとしたら、その範囲内のどの値も何かを語り、それ自身の付加的な意味を持つことになる。単純にインジケーターの上限と下限の1％を取って、その中だけで取引すると決めるのはお勧めしません。もちろん、試してみることはできますが、採算が合わないことが判明しますし、ストラテジーに多くの条件を追加するために、他のインジケータが必要になります。つまり、他の多くの指標と一緒にRSIの値の全範囲で取引することもできます。あるいは、もっとたくさんの指標を使って、RSIの値のある範囲でのみ取引することもできます。2つ目の方法で有利になるとは思えません。

しかし、当初は何十種類もの指標があり、そのすべてが100種類ものラグやパラメータを持ち、そのうちのいくつかを排除する必要がある場合、ここでオッカムのカミソリが威力を発揮するのである。このため，9000近い予測変数のうち100個しか持っていません（異なるラグ（シフト）を持つ十数個の指標）。そして、これらの残りの予測因子は、少なくとも60％の精度を有している。

TheXpert 2016.07.17 18:43 #424

Dr.トレーダー

ノイズの多い予測因子ほど、その中に類似の有用なデータが存在する可能性が高い。

サンエク自慢の欠如しているアプリオリの再学習

СанСаныч Фоменко 2016.07.17 19:19 #425

コンビナート：

ノイズ予測因子が多ければ多いほど、その中に類似の有用なデータが存在する可能性が高くなります。

サンエクがあれほど自慢していた「過学習ア・プリオリ」の不在

ノイズ予測器については、どちらかというと不正確でした。

ここで自慢したいのは、ノイズ予測器を選別するアルゴリズムを持っていることです。しかし、私にとっては100％ノイジーな 予測因子と100％ノイジーでない 予測因子はないという意味で、それは完全には正確ではありません。私が見てきたすべての予測器（数百、さまざまな人による10セット以上）は、部分的にノイズがあったりなかったりするものでした。いつもです。他は見ていない。以下、数字で説明します。

さて、私たちは何のために戦うのでしょうか？

私のアルゴリズムによると、純粋にノイズの多い予測器を使った場合、正しいクラス予測の確率は約50%になります（コインではじく）。そして、純粋なノイズ予測因子で訓練すると、ほとんどの場合、非常に良い結果が得られ、サンプル外時間をとると、その50％が得られるというキャッチフレーズです。

各予測子には、抽象的な「ノイズ性」の値を持たせています。0から1の間の値であれば、ノイズが多く、全く絶望的です。1～2なら可能だが、使わないほうがいい。3より私の尺度で行くべき。6より上は見たことがない。

そこで、私の「うるささ3以上」という指標を持つ予測変数が選択されたとします。モデルを構築すると、予測変数のセットを変えても25〜35％の誤差が出ました。すべての種類のサンプリング（トレーニング、テスト、検証-すべてランダムミックス、サンプル外-厳密にバーが届いた順）でほぼ同じ、例えば32-30-33-35％。同じ予測変数のセットで、例えば半分の誤差に改善する方法はない。つまり、モデル誤差の大きさは、特定の予測変数のセットによって決定される。もし、誤差の大きさが気に入らないのであれば、他の予測変数のセットが必要であり、それは違う誤差を与えるかもしれません。

もちろん、この誤差は大きいのですが、私にとって重要なのは、トレーニング時とテスト時の誤差がほぼ同じであることです。しかし、私にとって最も重要な結論は、与えられた予測変数のセットがモデルのオーバートレーニングを発生させないという ことです。これは、ランダムスキャフォールディング、ada、SVMの異なるバリエーションでテストされています。他の機種は試していない。

Alexey Burnakov 2016.07.17 22:49 #426

コンビナート：

ノイズ予測因子が多ければ多いほど、その中に類似の有用なデータが存在する可能性が高くなります。

サンエクの自慢する「過学習」（アプリオリ）の欠如

アンドレイこれは明確に認められていることです。すべての結論は、検証の上で導き出されたものです。純粋なノイズ予測器が何千もの推測された独立した観測値を生成する確率は非常に小さく、無視できるほどです .結論は、私が持っている正しいstatテストでも検証されています。

ノイズから予測因子を選択するのは有効

mytarmailS 2016.07.18 14:12 #427

Vladimir Perervenko：2 名。rminerにはlforecast 関数があります- 1-ahead予測を入力として反復して多段階の予測を 行います。多段階予測というと、もちろんリグレッションのことですよね？

わからない))時系列を入力とする回帰法ではなく、予測変数からなる行列を入力とする多変量予測法が必要です。

iforecast "という関数を見てみると、回帰用の時系列を入力として取るのですが、同じではないのでしょうか、それとも私が何か勘違いしているのでしょうか？

mytarmailS 2016.07.18 14:23 #428

Dr.トレーダー

各指標には付加情報があり、1％だけでなく、すべて有用な情報です。RSIの場合、「0.99以上で買い、0.01未満で売る」という戦略はなく、不幸な例と言えます。

冗談だろう？大げさ（物事を極限まで単純化する）って書いたのに、2回も書いてしまった:)それとも、システムの135のルールで実例をあげたほうがいいのでしょうか？とはいえ、私が説明したいことは、1つのルールで十分すぎるほど説明されています。

mytarmailS 2016.07.18 14:58 #429

選考の話題を続けるために

質問：ある値の範囲（10個）を持つ予測変数（多数のうちの1つ）があります。

予測器をこれらの範囲 X1,X2...X10 に分割する。

予測式における各範囲の重要度を計算しよう。

重要性の表が得られます（サブ予測変数に分割された予測変数であることを思い出してください）。

Х1 = 0,5%

Х2 = 0,01%

Х3 = 0,003%

Х4 = 0,0033%

Х5 = 0,0013%

Х6 = 0,0039%

Х7 = 0,0030%

Х8 = - 0,0000%

Х9 = - 0,0001%

Х10 = - 0,00002%

他のレンジはマイナスかマイナスから半歩引いたところにあり、新しいデータでこれらのレンジX2...X7が良い方向に向かうかどうかは非常に疑わしい...。

質問:

X1...X7の正の範囲を全て残すのが良いのか、それとも疑いのない範囲、つまりX1だけを残すのが良いのか？

もう一度言いますが、あくまで1つの予測因子を選択したに過ぎず、200の予測因子を純化すれば？どのデータに対して、新しいデータを認識しやすくなるのか、あるいは、認識しにくくなるのか。

誰が考えているのか？

Machine learning in trading:

Alexey Burnakov 2016.07.18 16:31 #430

mytarmailS:

選考の話題を続けるために

質問：ある値の範囲（10個）を持つ予測変数（多数のうちの1つ）があります。

予測器をこれらの範囲 X1,X2...X10 に分割する。

予測式における各範囲の重要度を計算しよう。

重要性の表が得られます（サブ予測変数に分割された予測変数であることを思い出してください）。

Х1 = 0,5%

Х2 = 0,01%

Х3 = 0,003%

Х4 = 0,0033%

Х5 = 0,0013%

Х6 = 0,0039%

Х7 = 0,0030%

Х8 = - 0,0000%

Х9 = - 0,0001%

Х10 = - 0,00002%

他のレンジはマイナスかマイナスから半歩引いたところにあり、新しいデータでこれらのレンジX2...X7が良い方向に向かうかどうかは非常に疑わしい...。

質問:

X1...X7の正の範囲を全て残すのが良いのか、それとも疑いのない範囲、つまりX1だけを残すのが良いのか？

もう一度言いますが、あくまで1つの予測因子を選択したに過ぎず、200の予測因子を純化すれば？どのデータに対して、新しいデータを認識しやすくなるのか、あるいは、認識しにくくなるのか。

誰が考えているのか？

A 試してみてはいかがでしょうか。分布のテールを削除することも、それが役立つこともある。

トレーディングにおける機械学習：理論、モデル、実践、アルゴトレーディング - ページ 43