トレーディングにおける機械学習：理論、モデル、実践、アルゴトレーディング

YURY_PROFIT 2021.07.16 19:00 #24231

transcendreamer:

実は、立証責任は検察側にあるので、製品が規格外であること（クレーム通りでないこと）を証明するのはあなた次第なのです

まあそれは、論理と常識に訴えているだけなのですが🧐。

まああなたも被告ではないのですが)))もっと専門家らしく）それなら、専門家の意見を聞いてくれ

transcendreamer 2021.07.16 19:04 #24232

YURY_PROFIT：

まあ、あなたも被告人ではないのですが)))もっと専門家らしく）それなら、専門家の意見を聞いてくれ

証拠を求める😉あなたは検察官だから。

あるいは、すでにそこで100万円を稼いだが、それだけでは物足りないということかもしれない。

Evgeni Gavrilovi 2021.07.16 19:04 #24233

イゴール・マカヌ：

ユーザーもいれば、製品・商品・サービスの生産者もいる。

自分で車を作ったのではなく、自動車メーカーから既成の車を買ったのですね。

SZZ: 科学的にやればいいんだよ・・・ピタゴラスの定理を聞いたことがあるか？お前のは？）

ユーモアはプロフィールのリソースにあり、ここでは「3つの要素が一緒になった、でたらめなカメラマン、でたらめなモデル、でたらめなコスプレ」を読みます。

それよりマーケットが製品の新しいバージョンを掲載することを許可しているかのように、一部の製品作者が新しいヒストリカルデータでEAを再最適化することは気にしないでください...。"一般的には、要素が一緒に来た" - ここでは、方法によって、 "要素 "の一つ - イモ、低顧客の訓練は、いくつかの製品をチェックする品質が可能ですが、それはどこでもそうです - 上記の車の購入者を含む - いわゆるマーケティング

どこでバカを見たんだ？その投稿は、第一に知的作業を意味し、第二に「not learned to use」であることを意味します。

出版物を批判するには、著者とone levelになる必要があります。ピタゴラスと比較するような馬鹿げた話もあった。そのポイントは何でしょうか？

より適切な例は、次のようなものでしょう。量子コンピュータを購入したが、詳しい説明書を読んでも使い方がわからない。

根本的に何が違うのか、ご理解いただけたでしょうか。

Vladimir Karputov 2021.07.16 19:10 #24234

チリの熱い男たち-たまたま支店が混ざったのか？

Maxim Dmitrievsky 2021.07.16 19:24 #24235

レベルは、あるトピック（リンク）の認識などですぐにわかる。2～3人は本題、あとはいつものようにふわっとさせるだけ

Maxim Kuznetsov 2021.07.16 19:27 #24236

mytarmailS:

ゲーム "と "オープン"、"バイ "の根本的な違いは何でしょうか。

何もないと思います、通常の分類では...。

他のロボットの起動・停止は、自分の売買より簡単なはずなのに...。

市場のノイズが少なく（制御されたロボットによってノイズがフィルタリングされる）、解が見つけやすい - 不変量が少ないため

Maxim Dmitrievsky 2021.07.16 19:40 #24237

マキシム・クズネツォフ：

他のロボットの起動/停止を行うことができます。

市場のノイズが少なく（ノイズは制御されたロボットによってフィルタリングされる）、解が見つけやすい - 不変量が少ないため

スタート/ストップは他のサインで制御され、ノイズが発生することに違いはありません。

mytarmailS 2021.07.16 20:21 #24238

マキシム・クズネツォフ：

他のロボットの起動/停止を行うことができます。

市場のノイズが少なく（ノイズは制御されたロボットによってフィルタリングされる）、解を見つけるのが簡単 - 不変量が少ないため。

ふむふむ

まだ半信半疑です。ネットは別のものでフィルタリングしていますが、一部のTSゲームをフィルタリングして大丈夫なのでしょうか？

Aleksey Vyazmikin 2021.07.16 22:35 #24239

そこで、先ほど発表した第一段階の研究を行い、実際にどのような結果が出たのか、考えてみましょう。一目でわかるように書いて考える、最後まで結果がわからない、情報量が多い、それをどうきちんと分析するかも問題です。

2014年から2021年前半までのサンプル(60% train, 20% test, 20% exam), 5336 predictors, 全てのパラメータを固定 - 6 depth tree と random-seed 100 set, 学習率 0,03, 1000 iterations (trees) with automatic stopping in case of no improvement after new 100 trees on control sample, その他の設定は重要ではなく、可変パラメータは量子化の種類と量子境界の数である。量子化境界の数は8から512まで、量子化タイプは6種類で、量子化テーブルは別ファイルに保存されています。

すべてのモデルを学習させ、42のモデルを「Balans_Exam」列で並べた表を得る - 独立した選択。

スクリーンショットは中心値を隠した表ですが、最初のベスト5とワースト5が表示され、サンプル全体の指標の平均値が算出されています。

最終的に2つのモデルが選択され、薄緑でハイライトされます。これらは量子化される数がそれぞれ8と128で、量子化のタイプがMedianとUniformAndQuantilesで異なっています。

そして、テスト内のサンプルを8分割して、各部分が6ヶ月になるようにし、1番目と2番目の固定量子表で別々にモデルを学習し、それぞれについて、プロジェクトと呼びましょう、学習には5つのオプションを使用し、パラメータはランダムシード - ステップ8で8から800までの100オプション。

テストサブサンプルに対して、停止制御を行わずに1000本の木を訓練する。
100回反復しても改善されない場合、テストサブサンプルの制御を停止して、サブサンプルに1000本の木を訓練する。
サブサンプルテストで停止制御を行わず、100本の木をトレーニングする。
テストサブサンプルにストップコントロールのない50本の木をトレーニングします。
サブサンプルテストで停止制御を行わずに5本の木を訓練する。

トレーニングが完了した後、得られたモデルは、CatBoost予測因子に関する統計情報を得るために、以下のオプションで分析されました。

PredictionValuesChange。
LossFunctionChange。
InternalFeatureImportance（インターナルフィーチャーインポータンス）。

そして、サンプルの1/8ごとに別々に結果を平均化し、各セグメントの予測変数の有意スコアの平均で並べた全体の表にまとめ、各セグメントの有意な予測変数の存在を個別にチェックし、そのスコアで並べた表も使用しました。この手順は、各プロジェクトとモデル内の各統計値に対して行われた。

以下は、variant 5の学習とvariant 1のモデル解析の表からの抜粋です。

そして、n個の第一予測変数に当てはまらない予測変数を学習から除外する設定を行いました。条件を満たす予測変数が少ない場合は、設定ファイルは作成されませんでした。設定は統計バリアントごと、プロジェクトごとに行いました。学習に使用する予測変数の数には、以下の制限を設けた。5/25/50/100/300/500/1000/2000/3000.こうして、設定のセットを手に入れました。

次に、サンプルで量子表の設定を固定したトレーニングを実施 - 60% 試験 - 20% 最大1000本でトレーニングを停止、トレーニングはすべての設定と量子表の2つのバージョン、ランダムシードで 100モデル- 8から800まで8刻みでオプションで実施しました。さらに、予測変数の除外は行わず、ランダムシードによる列挙を行った2つの量子テーブルについて、8から800までの100種類の変種を8ステップで学習させた。

以下は、Median 8-boundary split adjustment- 最初と最後の5つのベストチョイスを含む表です。

以下は、UniformAndQuantiles法で設定された128個の境界線-最初と最後の5つのベストチョイスの表です。

最初に導き出される結論は、モデルには可能性があり、それは使用する予測変数に依存し、その使用はランダムシードによって影響されるということである。そして、声に出して考えてみると、設定・手法の選択の狙いは、ベストな結果ではなく、プロフィットなどの指標の平均的な結果であるべきではないでしょうか。トレーニング外のサンプル（ Balans_Exam列）の財務結果の平均値は、最初のバリエーションでは2222.39、2番目のバリエーションでは1999.13であることを指摘したい。

次に、モデルの平均的な指標値を、その学習時の設定の内訳とともに表にします。

以下は、予測変数の除外を担当するさまざまな設定について、Medianメソッドに従って8つの境界に分解した表です- 最初のトップ10のバリエーションは平均値です。

以下は、予測変数の除外を担当するさまざまな設定について、UniformAndQuantilesメソッドを使用して128の境界を示した表です -最初のトップ10の選択肢は平均値です。

File_Name "カラムの内容を解読するには、次の表を使用することをお勧めします。

観察される組み合わせの数を減らしながら、段階的に解析してみよう。

下の表は、2つの量子表のうち、どの「プロジェクト」が上位10位に入っているかを計算したものです。

そして、ここで我々は両方のテーブルで最初のプロジェクト（Exp_000）と第五（Exp_004）の良い代表があることがわかります、どちらが良いか、どちらから放棄することは明らかではありませんが、彼らは両方ともトップ10に入ったという事実が考える理由です。おそらく、あなたは全体のテーブル上の任意の係数で統計を取る必要があります - 私は知らない - オプションを提案する。ただし、Variant Exp_004は、ツリーが5本しかないので、セットアップファイル作成のためのデータ準備に最も時間がかからないという点では、理にかなっていると言えるでしょう。初期トレーニングの木の本数の選択について、最終的な結論を出すのはまだ早いのではないでしょうか？

2つの量子テーブルの十の下の表では、予測変数の分析の種類とモデルで使用される予測変数の限界数を見てみましょう。

表から、最初の分析方法でより多くの回答が得られたこと、また、モデルで使用する予測変数の数の設定のほとんどが50個を超えないことがわかります。

ここで、最初の定量表である CB_Svod_Exp_000_x_000000002 と、2番目の CB_Svod_Exp_004_x_000000002 について、設定が多数派であることが判明したプロジェクトのサンプルを用いて、モデル自体の結果を見てみることを提案します。

以下は、予測変数の選択設定CB_Svod_Exp_000_x_0000002 - 最初のベスト5とワースト5のバリアント - を8つの境界に設定するMedian法の表である。

以下は、予測変数の選択設定の UniformAndQuantiles 法による 128境界分割の表です CB_Svod_Exp_004_x_000000002 - 最初のベスト5とワースト5のバリアントです。

1行目は最初の定量表のデータ、2行目はランダムシード後のデータ、3行目は予測変数の選択手順で選択した結果である。

1.8 境界メディアン表

2.UniformAndQuantiles メソッドに従って128の境界が設定されたテーブル

2つの表から得られる推定値は、トレーニングサンプルとテストサンプルの結果が減少し、独立サンプルの性能が向上している。言い換えれば、予測変数の特性を改善し、その数を減らすことによって、フィッティングの効果が減少しているのである。

どのような暫定的な結論が導き出せるか。

1.CatBoostのサンプルを供給するだけでも可能ですが、予測因子を操作することで、財務結果を含むモデルを大幅に改善することができます。

2.良い結果を得るためには，常にサンプルで利用可能な多くの予測変数を使用する必要はない - 平均から推定する良い結果を得るためには，全予測変数を1%だけ使用すれば十分であることがわかった．

このアイデアを発展させるには、他のサンプルで実験を行い、その結果が繰り返されるようであれば、組み合わせの数を減らすことを考えれば、有望な結果が得られると思います。テストや試験のサンプルを見ずに、より良い平均値を見つけることができるブラインド手法を開発することで、学習用のサンプルを40％増やし、安定した反応を示す予測因子の検出も追加することを目指しています。

推定時に予測因子のフィルタリングを追加し、得られた財務的結果を考慮して、その有用性・効率性の調整因子を追加するという考え方もある。

私がなぜ財務を見るのか - ポイントは、市場でさまざまなイベントが発生する可能性があり、モデルがより高いリターンを持つイベントを優先的に選択できる場合、モデルの推定統計指標とグラフ自体を見ながら、私はモデルのこのアプローチを気に入っています。

この記事を読んで興味を持っていただけたなら幸いです。コメントをお待ちしています

私はすべてのテーブルを持つファイルを添付しています - 誰が興味を持って、誰が考えたい。

ファイル:

CB_Svod_Si_Q.zip 697 kb

PythonやRの知識が不要なYandexのCatBoost機械学習アルゴリズムエキスパートアドバイザの自己最適化：進化的遺伝的アルゴリズム第三世代ニューラルネットワーク：深層ネットワーク

Maxim Dmitrievsky 2021.07.17 00:47 #24240

そして、5-15刻みで、ちょうどいい感じです。

あるいは、まず相関関係ですべての予測因子をふるい落とし（数秒の時間）、残りの5～15を取る（そんなにたくさん取れるなら）。

それが、エコノメトリックスによる時間の節約です。

トレーディングにおける機械学習：理論、モデル、実践、アルゴトレーディング - ページ 2424