トレーディングにおける機械学習：理論、モデル、実践、アルゴトレーディング

Dr. Trader 2016.08.06 01:54 #891

私は、これらの記事に書かれているものを含め、さまざまな自称検証方法を試してみた。私の結論は以下の通りである：

FXでは、ターゲット変数と予測変数の間に厳密な依存関係はなく、FXは新しいデータを計算するために見つけて適用できる公式ではない。
つまり、ある多次元空間（次元は予測変数の数に等しい）があり、その中にいくつかの点（既知のターゲット変数）がある。モデルは、空間内の点（「買い」クラスと「売り」クラス）を分離する超平面をこの空間に構築する。この超平面を構成する方法は無限にある（単純なケースでは、1枚の紙に4つの点を描き、その間に曲線を描いて、曲線の右側に2点、左側に2点があるようにする）。曲線の引き方は無限にある）。したがって，構築されたモデルが予測変数での目的変数の正しい従属性を反映しているという保証はない．検証は，モデルの適切性をチェックするために使用されます - いくつかのポイントは，トレーニング中に使用されず，モデルが対処したかどうか，これらのテストポイントで正しい結果を示すかどうかを簡単に見つけることができます．

モデルが正しく検証を通過できなかった場合、多くの理由が考えられます。例えば、
- モデルが存在しない依存関係を発見した。これはトレーニング例のみに存在します。
- トレーニングデータには、テストデータには存在しない依存関係がありました。例えば、テスト用の全データが時間的に遅れて取得され、FXシンボルの挙動が変化した場合
- モデル自体が失敗したシードで初期化される。同じデータで学習させたモデルを、何度も学習させようとした結果、検証時に異なる結果を出すことがよくある。

特定のケースで悪い結果が出た原因はわからない。私たちにできることは、モデルの平均的な精度を推定することだけです - モデルを何十回も構築し、検証時に推定を行います。
。私が考える有効な方法は、データを50%/50%の割合でランダムに分割し（時間ごとではなく、すべてが均等に混ざるように、例えばトレーニングは1,2,5,7行目、検証は3,4,6,8行目）、最初の部分でモデルをトレーニングし、次に2番目の部分で検証を行い、精度でモデルを評価する。これを50回繰り返す（データを2つのランダムな部分に分割し直し、トレーニング、検証を行う）。そして、トレーニング・データの平均精度と検証データの平均精度を計算する。トレーニングサンプルの平均精度が90%、検証サンプルの平均精度が80%だったとしよう。フロントテストでの精度はさらに低くなるので、この経験則を使う：差（90%-80%=10%）を計算し、検証結果（80%-10%=70%）から引く。その結果、フロントテストでのこのようなモデルの平均精度は約70％になることがわかった。そして、この推定精度を70％から上げるために、モデルのパラメータと予測因子を遺伝的に調整する（これは見た目よりもずっと難しく、50％を超えるのは難しい）。

しかし、私はこの結果が保証のない単なる平均値であるという事実が好きではありません。実際の取引精度は60％から80％、あるいは50％から90％である。どうあがいても最良のモデルを見つけることはできない。おそらく唯一の解決策は、発見された最高のパラメーターと予測因子で何十ものモデルを構築し、その結果を大多数の人が見るところ（モデルの議会）に持っていくことでしょう。

これは、スレッドの冒頭でサンサニッチが言ったことと密接に関連している。彼がアドバイスしたように、最後のコントロール・サンプルの既知のデータの最後の部分を取り除いてもよい。これらのデータを訓練と検証に使用せず、モデルの訓練が終了するまで別個に保存しておきます。そして、完成したモデル、つまりコングレスをこのデータでテストします。良い点は、新しい時間加重データでモデルがどのように機能するかを示すことができることです。デメリットは、トレーニングと検証に使えるデータが少なくなり、取引開始時にモデルが少し古くなってしまうことだ。ここで少しニュアンスが違うのですが、もしこれらのコントロール・データでの結果が気に入らず、このサイトで良い結果を示すモデルを選択し始めたとしたら、検証のためにこれらのデータを使い始め、それに従って、モデルはそれらを念頭に置いて選択され、したがって、将来への小さな展望があり、コントロールとこの操作全体が意味を失い、この場合、コントロール・サンプルを全く作らない方が簡単でした。

Alexey Burnakov 2016.08.06 08:12 #892

Dr.トレーダー

これらの記事で紹介されているものを含め、様々な自作検証方法を試してみました。私の結論は次の通りです。

FXでは、対象変数と予測変数の間に厳密な関係はなく、FXは、新しいデータを計算するために見つけて適用できる公式ではありません。モデルにできることは、何らかのパターンを見つけて、その結果を外挿し、新しいデータで取引することです。
つまり、ある多次元空間（次元は予測変数の数に等しい）があり、そこに複数の点（既知のターゲット変数）が配置されている。モデルはこの空間に超平面を構築し、空間内の点（「買い」クラスと「売り」クラス）を分離させる。この超平面の作り方は無限です（簡単な例では、シート上に4点を描き、その間に曲線を引いて、曲線の右側に2点、左側に2点があるようにします）。曲線の描き方は無限大です）。したがって、構築されたモデルが予測変数の正しい依存性を反映しているという保証はない。モデルの妥当性を確認するために、検証を行います。いくつかのポイントはトレーニングに使用されておらず、これらのテストポイントにおいて正しい結果を示すかどうか、モデルが失敗したかどうかを簡単に調べることができます。

モデルが検証に失敗した場合、様々な理由が考えられます。
- 学習用サンプルにのみ存在する、存在しない依存関係を発見した。
- は、テストデータには存在しない依存関係がトレーニングデータには存在する。例えば、テスト用の全データを後日取得し、FXシンボルの挙動が変化した場合
- モデル自体が失敗したシードで初期化された場合。同じデータで学習させたモデルを何度も再学習させると、検証の結果が異なるということがよくある

特定のケースで悪い結果が出た原因は不明です。私たちにできることは、モデルが平均的にどの程度優れているかを推定することです。何十回もモデルを構築し、検証の上で推定するのです。トレーニング/バリデーションのデータはその都度分割し直す必要があります。
私が考える有効な方法は、データを50％/50％の割合でランダムに分割し（時間ではなく、すべてが均等に混ざり合うように、例えば1,2,5,7行目がトレーニング、3,4,6,8が検証）、最初の部分でモデルをトレーニングし、2番目の部分で検証を行い、モデルの評価は精度で行うという方法です。これを50回繰り返す（データをランダムに2分割し、トレーニング、バリデーションを行う）。そして、学習データでの平均精度と、検証データでの平均精度を算出する。例えば、学習サンプルの平均精度が90％、検証サンプルの平均精度が80％だったとします。フロントテストの精度はさらに下がるので、差分（90％-80％＝10％）を計算し、検証結果（80％-10％＝70％）から差し引くという経験則を利用しています。このようなモデルをフロントテストにかけると、平均して約70％の精度になることがわかりました。さらに、この推定値を70％から上げるために、モデルのパラメータや予測因子を遺伝的に調整します（見た目よりずっと難しく、50％を超えることすら難しい）。

しかし、この結果はあくまで平均値であり、何の保証もないのが嫌なのです。トレードの本当の精度は、60％から80％、あるいは運の悪さによっては50％から90％というところでしょう。どうあがいても、どう見てもベストモデルを釣り上げるのは不可能だ。おそらく唯一の解決策は、最適なパラメータと予測因子を用いて何十ものモデルを構築し、その結果を多くの人が見るところ（モデルの会議）に持っていくことでしょう。

これは、このスレッドの冒頭でSanSanychが言ったことと密接に関連している。また、彼のアドバイスに従って、最後のコントロールサンプルの既知のデータの最後の部分を削除することができます。このデータはトレーニングや検証に使用せず、モデルのトレーニングが終了するまで別途保管しておくだけにしてください。そして、完成したモデル（議会）をこのデータでテストする。プラスは、新しい時間のデータでモデルがどのように動作するかを示すことです。マイナス面は、学習と検証のために残されたデータが少なくなり、取引開始時にモデルが少し古くなることです。ここで少しニュアンスが変わりますが、ベンチマークデータでの結果が気に入らず、この領域で良い結果が出るモデルを選び始めた場合、つまりこのデータを検証用に使い始めた場合、それぞれそれらを考慮したモデルが選ばれるため、若干未来を見据えた運用になってしまい、この運用全体が無意味になり、この場合はベンチマーク選定を全くしないほうが楽でした。

正しく理解した!©

しかし、ひとつだけ重要なニュアンスがあります。クロスバリデーションとトップレイヤーのネストされたCVでは、時間を区切って観測する必要があります。そうですね，少なくともトップレイヤーでは，トレーニングやボトムCVと重ならない日付から，まばらなサンプルを取ります。

結果は悪くても、より真実味があるはずです。

CVとネストされたCVの結果に相関がある場合（correlation）。そして、そのモデルがデータにフィットする。

СанСаныч Фоменко 2016.08.06 11:07 #893

ヴィザード_。
まだです)))
7が調べました。カットは半年前のバージョンより良くはない、または私が見たとき、正確に覚えていないです。ウィンドウズとファイロの統計では書き込みが違う。インプットの重要性を選択する
という疑問があり、RFとあと2つほどを正面から比較し、非常にどうでもいいことを優先している可能性がある。窓から）一番いいカットを撮ってもダメなんです。
このデータでは、少なくとも92%は取れています。Pieceは（そのままでは）まだ実用的な用途にはほとんど使えない。開発の努力とアイデアの飛翔に拍手。

もちろん、すべてイミフです。今はとりあえず)))

レシェトフのようなレベルの人間が相手なら、安心して要求できる。

1. 類縁体のレビュー

2.これらの類似品で克服されるはずの欠点の指摘

3.これらの欠陥を解消する仕組みの提示（具体的な内容は市場経済学で隠せばいい）

4.アナログと自社開発の比較。この比較により、既存の試作機の上記のような欠点がすべて解消されていることが証明されるはずです。そして、アナログより悪くない道具を手に入れることができる。

レシェトフレベルの人間がやらないなら、そりゃあね。レシェトフの開発努力と思考の飛翔は賞賛に値する。

mytarmailS 2016.08.06 11:29 #894

サンサニッチ・フォメンコ

なら、安心して要求できる。

))))))

Mihail Marchukajtes 2016.08.06 16:08 #895

ヴィザード_。
まだです)))
7 見ました。半年前のバージョンより良くなっていない、または私が見たとき、正確に覚えていないです。ウィンドウズとファイロの統計では書き込みが違う。インプットの重要性を選択する
という疑問があり、RFとあと2つほどを正面から比較し、非常にどうでもいいことを優先している可能性がある。窓から）一番いいカットを撮ってもダメなんです。
このデータでは、少なくとも92%は取れています。Pieceは（そのままでは）まだ実用的な用途にはほとんど使えない。開発努力と空想の飛行に拍手。

もちろん、すべてイミフです。今すぐバイバイ)))

窓の中の結果は、2つのモデルの委員会である。予測式を2つ保存したファイルを見ると、この2つのモデルの委員会の結果がウィンドウに表示されています。

Mihail Marchukajtes 2016.08.06 18:21 #896

ヴィザード_。
なるほど.メモ帳は圧縮されているので、捻じ曲げてはいないのですが)))比較のためにウィンドウから取ってみました。
役に立つ人がいるかもしれないのに、使い勝手が悪いので即削除しました・・・。

全体として、この作品を批判してはいけないと思うのです。まず、入力データに含まれる汎化情報が出力に対してどの程度の割合で含まれているかという非常に重要な問いに答えている。そして第二に、私が提案したことをユーリが聞けば、多くの疑問を解決する爆弾を手に入れることができるのです。私は残念ながら、このモデルが今後どのように機能するかを確認するために、私のデータに対して100%でモデルを教えることができませんでした（イメージ的には、汎化能力を高めるようなデータに対する操作を行わずに）。しかし、委員会による100%の汎化ができたところで、各モデルが同じ100%であること、つまり入力データが出力を完全に記述していることを確認する必要があります。では、見てみましょうか...。一方、オプティマイザーの操作性の悪さについての結論は時期尚早である。もうひとつは、各自がIDEALの出力にモデルを作ろうとしていることです。それは、不可能ではないにしても、非常に難しいことです。さて、IDEALではなく、多少の誤差はあっても出力されたらどうでしょう......。そこが面白いのですが......。例えば、100pipsの利益を出したシグナルだけでなく、-30pips以上の利益を出したシグナルにもマークを付けるとします。この前提を理解した上で、30pipsのシグナルを取るだけで十分であり、100%の一般化レベルを持つモデルを構築できれば、問題は解決するのです。

Mihail Marchukajtes 2016.08.06 18:25 #897

一般に分類モデルを構築するためには、記録の順番はあまり重要ではなく、モデルがそれを100％学習することが重要で、同じイベントに対する近未来の市場の反応が同じであることが重要である。つまり、矛盾するデータがないことを言うのです。予後予測モデルについては、レコードの順番が重要である。これが、分類と予測の違いの一つです......。

Mihail Marchukajtes 2016.08.06 18:47 #898

これなら大丈夫かな...。だから、そういうものの処理能力は、数倍とは言わないまでも、一桁高いということは理解しているのですが......。

https://hi-tech.mail.ru/news/compact-quantum-computer/?frommail=1

Vizard_ 2016.08.08 12:52 #899

サンサニッチ・フォメンコ

ミハイル・マルキュカイツ

そして、すべての来訪者。z1アーカイブにはtrainとtestの2つのファイルがあります。Targetの場合、trainでモデルを構築し、testに適用し、結果を%(予測成功率)で投稿する。
の場合）、両サンプルとも（train = xx%, test = xx%)。手法や機種は発表する必要はなく、数字だけでいい。あらゆるデータ操作が可能
と採掘方法について説明します。

ファイル:

z1.zip 43 kb

Alexey Burnakov 2016.08.08 13:51 #900

ヴィザード_。
そして、すべての来訪者。z1アーカイブの中にはtrainとtestの2つのファイルがあります。ターゲットに対して、trainでモデルを構築し、testに適用し、結果を%(予測成功率)で掲載する。
の場合）、両サンプルとも（train = xx%, test = xx%)。手法や機種は発表する必要はなく、数字だけでいい。あらゆるデータ操作が可能
と採掘方法について説明します。

ありがとうございました。試してみます。

学習済みモデルが評価されるまで、テストに目を向けないことに同意しよう。以前にもやったことがあるんです。

つまり、電車の中で最高のモデルを顔が真っ青になるまでトレーニングするのです。2～3機種くらいかな。そして、その1回目のテスト。

トレーディングにおける機械学習：理論、モデル、実践、アルゴトレーディング - ページ 90