トレーディングにおける機械学習：理論、モデル、実践、アルゴトレーディング

Maxim Dmitrievsky 2018.11.25 19:23 #11721

ユーリイ・アサウレンコ

どのように本を読むのですか？ケツの下に敷くのか？

とても人気がありますね。問題には、解決策があるか、ないかのどちらかです。そうでなければ、解決できないのです。あれば、解けないことはない。そして、NSは関係ない。

そこで、上で提案した本を読んでみてください。1の量には必ず最適解があり、それがどれだけ満足のいくものかは二の次だ。

Aleksey Vyazmikin 2018.11.26 16:21 #11722

約束通り、2値分類モデルを選択するための様々な指標をテストした結果を報告します。テストには17の指標が含まれる：Logloss; BalancedErrorRate; LogLikelihoodOfPrediction; WKappa; Kappa; BrierScore; ZeroOneLoss; Accuracy; BalancedAccuracy; MCC; Precision; Recall; F1; AUC; HingeLoss; HammingLoss; CrossEntropy、デフォルトは Loglossである。方法は簡単で、トレーニング、テスト、ファイナルチェックで同じサンプルに同じ設定でCatBoostを実行し、数値はトレーニングに参加しないファイナルチェック用のファイルから取得されます。各指標に対して、1から8までの異なるサイズの8本の木が形成され、集合から良い値を選択する能力を平均化するとともに、木のサイズを変更する意味を判断する目的にも使用された。トレーニングには4つのターゲットが使用され、トレンドの動きに対するターゲットによってストラテジーがより異なっている。各指標の結果は、以下の表にまとめました。

いくつかの指標は互いに完全に一致していることが判明し、それらをグループにまとめた。指標グループの識別子は緑色で表示されている

以下は、各指標の最大値と最小値をハイライト表示し、サンプル全体のピーク値を色分けした要約表です。

次に、ターゲットのすべてのバリエーションに対する普遍的な指標である最大平均額を特定するバリエーションとして、各指標の平均利益の要約表を示す。

先ほど書いたように、このデータに対して並行して計算式をテストし、得られたデータから最適な指標を選択するために、「%All*1%」とし、テストに参加した指標ごとにこのような表にまとめました。

このようなアプローチにより、下表に示すように、各指標のSelection Factorスコアの合計を基にランキングを作成することができました。

興味深いのは、最初のランキングで人気だった「プレシジョン」が最下位だったことで、汎用性が高いのではなく、最初のターゲットに対して非常に良いパフォーマンスを発揮していることがうかがえる。

また、各指標の表から、この要因がどの選択肢を選んだかを考え、その合計で順位を見ることも可能である。

要約すると、結果を要約表に集計し、場所のスコアを合計することが可能です。その指標が最も低い人が良いのかもしれません。

このことから、Loglossはモデル選択のための最適な指標ではなく、むしろ平均的な指標であると結論付けることができる。同時に、異なるTSでは、異なる学習済みモデルの選択方法が必要となる可能性がある。例えば、ターゲット(columns_100)によってよりバランスのとれたサンプルでは、Precisionは完璧ですが、例えば20%(columns_200)でターゲット「1」よりも少ないようなバランスの悪いサンプルでは、うまくいかず、ここでは、このタスクに完全に対処しているHingeLossを使うことが妥当と言えます。一番バランスがとれていたのは、リコールインジケーターでしょうか。地面を探るのに使えると思います。Accuracyのような指標は、一方では最もバランスの取れたターゲットで最良の選択肢を見つけることができたが、他方ではすべての木の選択肢の平均をうまくカリングできず、結果としてバランスの悪いサンプルを見つけることやモデルのチューニングにはあまり適していないことが判明した。

Evgeniy Chumakov 2018.11.26 16:49 #11723

Alexander_K2 です。

このトレンドは、私が文字通り「膝をついて」見つけたコバルトブルーの レンチで、簡単に、そして優しくトイレに流されます。

何が出てきたんでしょうね。

Maxim Dmitrievsky 2018.11.26 19:32 #11724

アレクセイ・ヴャジミキン

素晴らしいテスト、ありがとうございました。

TraineTestのエラーの差分に関する情報はありますか？ただ、そこにあるAccuracyやloglossのうち、最も人気のあるものを取ればいいのです。

例えば次のようなものです。

2018.11.27 02:26:37.780 Core 2  2018.11.23 23:59:59   RlMonteCarlo TRAIN LOSS
2018.11.27 02:26:37.780 Core 2  2018.11.23 23:59:59   0.19023
2018.11.27 02:26:37.780 Core 2  2018.11.23 23:59:59   RlMonteCarlo TEST LOSS
2018.11.27 02:26:37.780 Core 2  2018.11.23 23:59:59   0.43959

右トレース左テスト。

モデルの一般化能力と、オーバーフィットに対処するための特技に興味があります。早速、ツールを使いこなしているようですね。やっと実質的な会話ができるようになった :))

Aleksey Vyazmikin 2018.11.26 20:24 #11725

マキシム・ドミトリエフスキー

素晴らしいテスト、ありがとうございました。

は、エラーtrainetestの差分に関する任意の情報がありますか？ちょうどそこに1つの精度やloglossを取る、最も一般的なものです。

例えば次のようなものです。

right track left test:

モデルの一般化能力と、オーバーフィットに対処するための特技に興味があります。早速、ツールを使いこなしているようですね。やっと実質的な話ができた :))

Catbustでは、学習に使用するテストサンプル、各モデルの学習をテストし、学習の過程で得られた、テストデータ上で安定していることが証明された最適なモデルを選択するための第2サンプル、そして、選択したモデルで学習終了後にマークする試験サンプルの3つのサンプルを使用します。実際には訓練用サンプルで非常によく学習できるので、試験用サンプルでの結果を訓練用サンプルと比較しても意味がないが、試験用サンプルでのテストは意味がある。しかし、すべてExcelで手書きで処理したため、テストサンプルの結果まで確認するには力不足でした。このようなデータは、もちろんモデルを評価するために必要であり、考慮に入れて分析する必要がありますが、そのプロセスはまだ自動化されておらず（処理のためのセットアップを準備するスクリプトを書き始めただけで、分析にはほど遠い）、数字について話すことはできません。

オーバートレーニングの対策は、特別に良い読みがあった場合にトレーニングを中止する方法を除いては、特に気づいていないのですが...。アルゴリズム自体にはランダム性があり、それをオフにすることもできます。また、ツリーの分岐に最適な予測因子を選択しないことも可能で、過学習を防ぐのに役立つはずです。

というのも、このモデルはとにかく貪欲な木の原理を持っていて、それが原因でより良い結果が得られないことがあるからです。

Maxim Dmitrievsky 2018.11.26 20:29 #11726

アレクセイ・ヴャジミキン

Catbustは3つのサンプルを使用します。1つは学習の対象となるテスト、2つ目は各モデルの学習をテストし、学習過程で得られた、テストデータ上で安定していると証明された最適なモデルを選択するためのもの、3つ目は選択したモデルが学習済みであることを示す検査サンプルです。実際には訓練用サンプルで非常によく学習できるので、試験用サンプルでの結果を訓練用サンプルと比較しても意味がないが、試験用サンプルでのテストは意味がある。しかし、すべてExcelで手書きで処理したため、テストサンプルの結果まで確認するには力不足でした。このようなデータは、もちろんモデルを評価するために必要であり、考慮に入れて分析する必要がありますが、そのプロセスはまだ自動化されておらず（処理のためのセットアップを準備するスクリプトを書き始めただけで、分析にはほど遠い）、数字について話すことはできません。

オーバートレーニングの対策は、特別に良い読みがあった場合にトレーニングを中止する方法を除いては、特に気づいていないのですが...。アルゴリズム自体にはランダム性があり、それをオフにすることもできます。また、ツリーの分岐に最適な予測因子を選択しないことも可能で、過学習を防ぐのに役立つはずです。

このモデルはまだ貪欲なツリー構築の原理を持っていて、それが原因でより良い結果が得られないことがあるので、予測因子を部分的に投入して様子を見たいと考えています。

それこそ、TCの開発よりも時間がかかる永遠の統合は迷惑な話です。Pythonにも取り組みたいのですが、まだ時間がありません。

Aleksey Vyazmikin 2018.11.26 20:35 #11727

マキシム・ドミトリエフスキー

それこそTCの開発より時間のかかる永遠の統合がうっとうしい。pythonもやってみたいけど、まだ時間がないんだよね。

pythonで作業していないので、MT5で使いたい、ketbustはコンソール版があるのが良い。

Maxim Dmitrievsky 2018.11.26 20:40 #11728

アレクセイ・ヴャジミキン

私はpythonは使いませんが、ketbustにはコンソール版があるので、このバージョンをMT5に対応させたいと思っています。

コンソール用を使用してもよいが、使い心地が悪い

Aleksey Vyazmikin 2018.11.26 20:41 #11729

マキシム・ドミトリエフスキー

据え置き型はほとんどの人が持っていて、使いづらい。

知らなかった、他に持っている人いる？

MT5にはスクリプトがあり、パラメータの設定や列挙を行うことができます。

キャットバストはグラフィカルなファームと連動することができるので、そこにも注目しました。

Maxim Dmitrievsky 2018.11.26 20:50 #11730

アレクセイ・ヴャジミキン

知らなかった、具体的に誰が持っているのか？

MT5にはスクリプトが用意されているので、そこで設定やパラメータの列挙を行うことができます。

キャットバストは、grpfファームとの連携に長けており、そこにも注目しました。

すべてのライブラリにmboがあり、これはプロにあるリブだけです。

低レベルの言語でのMOに抵抗があり、時間がかかる、特に研究用

トレーディングにおける機械学習：理論、モデル、実践、アルゴトレーディング - ページ 1173