トレーディングにおける機械学習：理論、モデル、実践、アルゴトレーディング

Maxim Dmitrievsky 2020.12.01 17:54 #22071

Valeriy Yastremskiy：

セミについてwikiで紹介したリンクです。マークは、安定した部分のエッジだと理解しています。

ZZが行かないのは、セクションの違いなく採点が進むだけで、学習は同じように進みますし、ZZを採点してしまうと、特徴の違う例が多すぎて、学習の成果が上がらないような気がするからです。

ラベルは既知のtarget{class}です。それ以外のデータは、それらがなく、特徴的な形をしているだけです。

このラベルには、何らかの意味があるはずです。例えば、猫やワニであるとの表示

うちの場合は、猫の居場所がわからないんです。つまり、どんなパターンがあるのか、どう違うのかが分からないから、余計に難しいんです。

だから、最初のマーキングを強引にやって、変種を調べればいいんです。

Valeriy Yastremskiy 2020.12.01 17:56 #22072

マキシム・ドミトリエフスキー：

は、あくまで既知のターゲット/クラスです。それらを除いた残りのデータ

正しい検索の方向性を設定するようなものです))

マキシム・ドミトリエフスキー：

このラベルには、何らかの意味が込められているはずです。例えば、猫やワニと書かれたラベル。

この場合、猫の居場所はわからない。つまり、どのようなパターンで、どのように違うのかがわからないから、余計に難しいのです。

最初のマークを強調して変種を調べればいい

完全なブルートフォースは、不完全なブルートフォースよりも常に優れています。完全な正しいマークアップでないという指摘は、昔からありました。そして、次元の呪いは、探索の方向を正しくすることで初めて解決される。バリアントを通過するのに適したエリアを見つける/特定することです。

iwelimorn 2020.12.01 19:50 #22073

GMMの小サンプル許容度の考え方を拡張してみました。6ヶ月の訓練、5年のテスト。タグを一定の大きさのn個のパーツに分割し、それぞれのパーツに独自のGMMモデルを作り、それぞれから1000サンプルを生成し、それを積み重ねてcatabustを訓練しました。機能を選択すると、このようになります。

Iteration:  0 R^2:  0.9209352881222573
Iteration:  1 R^2:  0.9379233716807497
Iteration:  2 R^2:  0.94604683760217
Iteration:  3 R^2:  0.9316240202095838
Iteration:  4 R^2:  0.8813998843225924
Iteration:  5 R^2:  0.8820262895230507
Iteration:  6 R^2:  0.9068275822699385
Iteration:  7 R^2:  0.9335383124164518
Iteration:  8 R^2:  0.8960336270368543
Iteration:  9 R^2:  0.8879176417296292
Iteration:  10 R^2:  0.9143324457906077
Iteration:  11 R^2:  0.9468819523130443
Iteration:  12 R^2:  0.9058317279184074
Iteration:  13 R^2:  0.9169237743824633
Iteration:  14 R^2:  0.9004312808918618
Iteration:  15 R^2:  0.8914705535825033
Iteration:  16 R^2:  0.9303813779412192
Iteration:  17 R^2:  0.9207720444742649
Iteration:  18 R^2:  0.9508313124156939
Iteration:  19 R^2:  0.9365410846386889
Iteration:  20 R^2:  0.9227862991881809
Iteration:  21 R^2:  0.9052003797596105
Iteration:  22 R^2:  0.8975861474045481
Iteration:  23 R^2:  0.9431936051970786
Iteration:  24 R^2:  0.9147205226323929
Iteration:  25 R^2:  0.9476544304761072
Iteration:  26 R^2:  0.9333016398932669
Iteration:  27 R^2:  0.9076751168791403
Iteration:  28 R^2:  0.8697156778100353
Iteration:  29 R^2:  0.8845935705960335
Iteration:  30 R^2:  0.9159489461919911
Iteration:  31 R^2:  0.9232528133285296
Iteration:  32 R^2:  0.9465969161207943
Iteration:  33 R^2:  0.923873107775384
Iteration:  34 R^2:  0.887118901781171
Iteration:  35 R^2:  0.9077338861211618
Iteration:  36 R^2:  0.9174686253027636
Iteration:  37 R^2:  0.9293399179092457
Iteration:  38 R^2:  0.8978226916069179
Iteration:  39 R^2:  0.927290878522851
Iteration:  40 R^2:  0.9030239602884128
Iteration:  41 R^2:  0.9621423075912642
Iteration:  42 R^2:  0.9311707303177966
Iteration:  43 R^2:  0.8710910233452236
Iteration:  44 R^2:  0.9103469394662375
Iteration:  45 R^2:  0.8919753688513302
Iteration:  46 R^2:  0.948991254496016
Iteration:  47 R^2:  0.9052353780393834
Iteration:  48 R^2:  0.9512288525623317
Iteration:  49 R^2:  0.9208453469280165
Iteration:  50 R^2:  0.893737366120048
Iteration:  51 R^2:  0.928125477787328
Iteration:  52 R^2:  0.8942972434275139
Iteration:  53 R^2:  0.9199962696797981
Iteration:  54 R^2:  0.915636353356246
Iteration:  55 R^2:  0.8985519043156066
Iteration:  56 R^2:  0.9347755921190894
Iteration:  57 R^2:  0.9584552730083282
Iteration:  58 R^2:  0.9032314235396457
Iteration:  59 R^2:  0.9054094988875886
Iteration:  60 R^2:  0.9297272696445005
Iteration:  61 R^2:  0.9115802884108607
Iteration:  62 R^2:  0.9413266801702871
Iteration:  63 R^2:  0.8828780223711544
Iteration:  64 R^2:  0.8824525390982221
Iteration:  65 R^2:  0.9053951498492597
Iteration:  66 R^2:  0.8714355206255209
Iteration:  67 R^2:  0.918076158247141
Iteration:  68 R^2:  0.8364078585625844
Iteration:  69 R^2:  0.9105699936970394
Iteration:  70 R^2:  0.8964063526272564
Iteration:  71 R^2:  0.9167952116250836
Iteration:  72 R^2:  0.8755502709003292
Iteration:  73 R^2:  0.9386759877643626
Iteration:  74 R^2:  0.9111343213701268
Iteration:  75 R^2:  0.9316337347065893
Iteration:  76 R^2:  0.9491318658912862
Iteration:  77 R^2:  0.8793801507135458
Iteration:  78 R^2:  0.88457680290715
Iteration:  79 R^2:  0.9320128938747305
Iteration:  80 R^2:  0.8718850318456811
Iteration:  81 R^2:  0.9435554177361902
Iteration:  82 R^2:  0.9203305196370429
Iteration:  83 R^2:  0.9260245682457562
Iteration:  84 R^2:  0.9049805884830662
Iteration:  85 R^2:  0.9623136916438867
Iteration:  86 R^2:  0.9489381651270304
Iteration:  87 R^2:  0.9185761083088367
Iteration:  88 R^2:  0.9300874485193825
Iteration:  89 R^2:  0.9270368671164058
Iteration:  90 R^2:  0.89171822598241
Iteration:  91 R^2:  0.9442365127017215
Iteration:  92 R^2:  0.9147433442119735
Iteration:  93 R^2:  0.9466461518946063
Iteration:  94 R^2:  0.8985030583949476
Iteration:  95 R^2:  0.9227935867673295
Iteration:  96 R^2:  0.9270658994573892
Iteration:  97 R^2:  0.8861414609105617
Iteration:  98 R^2:  0.9069299245110212
Iteration:  99 R^2:  0.9381808829667341

第2バージョン、同じタグで、同じパーティションで、プリミックスを行っています。

X = X.sample(frac=1.0)

Iteration:  0 R^2:  -0.9147922986362467
Iteration:  1 R^2:  -0.8891349235839455
Iteration:  2 R^2:  -0.7756433696750841
Iteration:  3 R^2:  -0.9294701419803408
Iteration:  4 R^2:  -0.8675029639731144
Iteration:  5 R^2:  -0.9333665101462129
Iteration:  6 R^2:  -0.7215820820380785
Iteration:  7 R^2:  -0.835634878720925
Iteration:  8 R^2:  -0.8982572730634232
Iteration:  9 R^2:  -0.8433406526089088
Iteration:  10 R^2:  -0.8905214289474265
Iteration:  11 R^2:  -0.9523382605378116
Iteration:  12 R^2:  -0.9353234698827787
Iteration:  13 R^2:  -0.9255519745316118
Iteration:  14 R^2:  -0.8961044791463404
Iteration:  15 R^2:  -0.8720720502698673
Iteration:  16 R^2:  -0.7673961693909795
Iteration:  17 R^2:  -0.9178099795704201
Iteration:  18 R^2:  -0.8028458725344336
Iteration:  19 R^2:  -0.9171290688719891
Iteration:  20 R^2:  -0.8315941217013689
Iteration:  21 R^2:  -0.5070548765483025
Iteration:  22 R^2:  -0.8116346823881794
Iteration:  23 R^2:  -0.8640716653285909
Iteration:  24 R^2:  -0.8410638452155568
Iteration:  25 R^2:  -0.8840402609492392
Iteration:  26 R^2:  -0.8499245238176002
Iteration:  27 R^2:  -0.8778289064553249
Iteration:  28 R^2:  -0.9268702558814643
Iteration:  29 R^2:  -0.8925221189558847
Iteration:  30 R^2:  -0.9657842200006661
Iteration:  31 R^2:  -0.77464827311577
Iteration:  32 R^2:  -0.6464089792356508
Iteration:  33 R^2:  -0.7362468345293623
Iteration:  34 R^2:  -0.8359119411978162
Iteration:  35 R^2:  -0.8953980020172865
Iteration:  36 R^2:  -0.9643167791133879
Iteration:  37 R^2:  -0.9200720117785897
Iteration:  38 R^2:  -0.4930038499649341
Iteration:  39 R^2:  -0.8563412086058743
Iteration:  40 R^2:  -0.7534658472329049
Iteration:  41 R^2:  -0.9058712268796619
Iteration:  42 R^2:  -0.8404352444846342
Iteration:  43 R^2:  -0.8956393865296916
Iteration:  44 R^2:  -0.7697676598374891
Iteration:  45 R^2:  -0.827402321523272
Iteration:  46 R^2:  -0.7733648036339182
Iteration:  47 R^2:  -0.9094911321363413
Iteration:  48 R^2:  -0.8112209852571995
Iteration:  49 R^2:  -0.9272815570481083
Iteration:  50 R^2:  -0.9516373600713565
Iteration:  51 R^2:  -0.923161311310859
Iteration:  52 R^2:  -0.9454357553057322
Iteration:  53 R^2:  -0.8874717694423527
Iteration:  54 R^2:  -0.9442569831498039
Iteration:  55 R^2:  -0.8509749828624672
Iteration:  56 R^2:  -0.8880233388858068
Iteration:  57 R^2:  -0.829081492806442
Iteration:  58 R^2:  -0.8104288788378895
Iteration:  59 R^2:  -0.9461212586368714
Iteration:  60 R^2:  -0.9638585005999462
Iteration:  61 R^2:  -0.9331377065042211
Iteration:  62 R^2:  -0.9273729445871957
Iteration:  63 R^2:  -0.9087582575118714
Iteration:  64 R^2:  -0.9413841949907823
Iteration:  65 R^2:  -0.9322001763523151
Iteration:  66 R^2:  -0.7762699813649556
Iteration:  67 R^2:  -0.8157764341998059
Iteration:  68 R^2:  -0.8553516949784419
Iteration:  69 R^2:  -0.8892466719564891
Iteration:  70 R^2:  -0.927962172458
Iteration:  71 R^2:  -0.9155014169139781
Iteration:  72 R^2:  -0.813270189921209
Iteration:  73 R^2:  -0.8906455890506758
Iteration:  74 R^2:  -0.8515052662862699
Iteration:  75 R^2:  -0.7464436838057231
Iteration:  76 R^2:  -0.9265461731236329
Iteration:  77 R^2:  -0.9097917153476209
Iteration:  78 R^2:  -0.9320352532410676
Iteration:  79 R^2:  -0.9136167627146698
Iteration:  80 R^2:  -0.9058376874038158
Iteration:  81 R^2:  -0.9218661728537026
Iteration:  82 R^2:  -0.8761532667040411
Iteration:  83 R^2:  -0.8613901314137971
Iteration:  84 R^2:  -0.9549329316806329
Iteration:  85 R^2:  -0.9369577646891263
Iteration:  86 R^2:  -0.9088532629673239
Iteration:  87 R^2:  -0.913690880309502
Iteration:  88 R^2:  -0.9380433297279352
Iteration:  89 R^2:  -0.9022452839070761
Iteration:  90 R^2:  -0.8628005914827953
Iteration:  91 R^2:  -0.6997900178668703
Iteration:  92 R^2:  -0.9236900047877985
Iteration:  93 R^2:  -0.7743753260702735
Iteration:  94 R^2:  -0.8915162635095815
Iteration:  95 R^2:  -0.9238512868243697
Iteration:  96 R^2:  -0.7885755415193383
Iteration:  97 R^2:  -0.8691156336449682
Iteration:  98 R^2:  -0.8358956414656111
Iteration:  99 R^2:  -0.9681215417714616

どちらも1つの固定ターゲットを使用しました。ご希望であれば、この実験を再現することができます。私はこのような現象を解釈するのが苦手なのですが、もしかしたら何か説明があるのかもしれません。

Maxim Dmitrievsky 2020.12.01 20:32 #22074

welimorn:

GMMの小サンプル許容度の考え方を拡張してみました。6ヶ月の訓練、5年のテスト。タグを一定の大きさのn個のパーツに分割し、それぞれのパーツに独自のGMMモデルを作り、それぞれから1000サンプルを生成し、それを積み重ねてcatabustを訓練しました。機能を選択すると、このようになります。

第2バージョン、同じタグで、同じパーティションで、プリミックスを行っています。

どちらも1つの固定ターゲットを使用しました。ご希望であれば、この実験を再現することができます。私はこのような現象の解釈には強くないのですが、もしかしたら説明がつくかもしれません。

このミキシングはgmmの前なのか、ブーストの前なのか？トレーニング/テストのクラスバランスを確認する必要があります。ゼロはトレーンに、ワンはテストに行ったのかもしれませんね。また、買いマークと売りマークで別々にクラスタリングしてみるのもよいでしょう。

Aleksei Stepanenko 2020.12.01 20:50 #22075

みんなごめんね、質問があるんだ。

グリッドにおけるウェイト比の数と、トレーニングされているトレードの数を教えてください。

これらの量の関係を把握し、オーバートレーニングの依存性を推測したい。ありがとうございます。

iwelimorn 2020.12.02 04:59 #22076

Maxim Dmitrievsky:
このミキシングはgmmの前ですか、それともboostの前ですか？トレーニング/テストのクラスバランスを確認する必要があります。ゼロはトレーンに、ワンはテストに行ったのかもしれませんね。また、買いマークと売りマークで別々にクラスタリングしてみるのもよいでしょう。

GMMを作成する前にミキシングを行う。

それ以前は、条件によってラベルを落とすようにしています。

dataset['labels'].loc[dataset['labels'].diff(1) == 0] = np.nan


dataset = dataset.dropna()

これにより、クラスのバランスは常に1/1になり、若干の変動があります。

count labels 0 before GMM: 57
count labels 1 before GMM: 58

今回は115枚のタグを混合し、4分割しました。その後、それらを基に4つのGMMを作成した。それぞれから1000個のラベルが抽出され、1つのデータフレームに統合された。次のステップでは、テストトラックとトリプルトラックに分割されます。

サンプルクラスのバランスは、理想とは少し違っていました。しかし、電車とテストのサンプルは、ほぼ同じ比率であった

count labels train before train_test_split  lab0/lab1 2006/1994
count labels train before CatBoost lab0/lab1  972/1028
count labels test before CatBoost lab0/lab1  1034/966
Iteration:  0 R^2:  -0.09193595558595069

count labels train before train_test_split  lab0/lab1 1956/2044
count labels train before CatBoost lab0/lab1  968/1032
count labels test before CatBoost lab0/lab1  988/1012
Iteration:  1 R^2:  0.2187933983460144

count labels train before train_test_split  lab0/lab1 1937/2063
count labels train before CatBoost lab0/lab1  968/1032
count labels test before CatBoost lab0/lab1  969/1031
Iteration:  2 R^2:  0.07935341972355503

count labels train before train_test_split  lab0/lab1 2004/1996
count labels train before CatBoost lab0/lab1  1006/994
count labels test before CatBoost lab0/lab1  998/1002
Iteration:  3 R^2:  0.5243959241368454

count labels train before train_test_split  lab0/lab1 2002/1998
count labels train before CatBoost lab0/lab1  999/1001
count labels test before CatBoost lab0/lab1  1003/997
Iteration:  4 R^2:  -0.11495440249539668

count labels train before train_test_split  lab0/lab1 2034/1966
count labels train before CatBoost lab0/lab1  1016/984
count labels test before CatBoost lab0/lab1  1018/982
Iteration:  5 R^2:  -0.2007764868672567

...

以下は、同じ115個のタグを4分割し、ミキシングを行わない場合のシミュレーション結果です。もちろん、クラスのバランスは少し良くなっていますが、結果に大きな影響を与えるとは思えません。

count labels train before train_test_split  lab0/lab1 2012/1988
count labels train before CatBoost lab0/lab1  1008/992
count labels test before CatBoost lab0/lab1  1004/996
Iteration:  0 R^2:  0.6604621522811843

count labels train before train_test_split  lab0/lab1 1978/2022
count labels train before CatBoost lab0/lab1  1003/997
count labels test before CatBoost lab0/lab1  975/1025
Iteration:  1 R^2:  0.9280130097632814

count labels train before train_test_split  lab0/lab1 2024/1976
count labels train before CatBoost lab0/lab1  1031/969
count labels test before CatBoost lab0/lab1  993/1007
Iteration:  2 R^2:  0.8262169779783981

count labels train before train_test_split  lab0/lab1 1980/2020
count labels train before CatBoost lab0/lab1  1010/990
count labels test before CatBoost lab0/lab1  970/1030
Iteration:  3 R^2:  0.9348696093090818

count labels train before train_test_split  lab0/lab1 2030/1970
count labels train before CatBoost lab0/lab1  1016/984
count labels test before CatBoost lab0/lab1  1014/986
Iteration:  4 R^2:  0.5284975351783288

count labels train before train_test_split  lab0/lab1 2042/1958
count labels train before CatBoost lab0/lab1  1024/976
count labels test before CatBoost lab0/lab1  1018/982
Iteration:  5 R^2:  0.9246045699747673

...

バカげていると思われるかもしれませんが、GMMモデルがシリーズの異なる部分で見出す時間的な相関のようなものがあるのだと思います。列をシャッフルして順序を崩すと消えます。

クラスタリングを別にすることは考えていませんでした、今夜試してみます。

Aleksey Vyazmikin 2020.12.02 08:07 #22077

医学とMoD。

Сбербанк запустил сервис постановки диагноза с помощью нейросетей

2020.12.02
РБК
www.rbc.ru

Сбербанк запустил сервис, в котором диагноз по описанным пациентами симптомам будет ставить искусственный интеллект. Цифровая медицина — перспективное направление, но эксперты пока видят очень много рисков в «лечении» нейросетями Входящие в группу Сбербанка компании — «СберЗдоровье», «СберМед ИИ» и «Лаборатория по искусственному интеллекту» —...

Maxim Dmitrievsky 2020.12.02 08:27 #22078

welimorn:

攪拌はGMMを作成する前に行う。

その前に、条件によってラベルを落とします。

これにより、クラスのバランスは常に1/1になり、若干の変動があります。

今回は115枚のタグをシャッフルし、4分割して使用しました。その後、それらを基に4つのGMMを作成した。それぞれから1000個のラベルが抽出され、1つのデータフレームに統合された。次のステップでは、テストトラックとトリプルトラックに分割されます。

サンプルクラスのバランスは、理想とは少し違っていました。しかし、電車とテストのサンプルは、ほぼ同じ比率であった

以下は、同じ115個のタグを4分割し、ミキシングを行わない場合のシミュレーション結果です。もちろん、クラスのバランスは少し良くなっていますが、結果に大きな影響を与えるとは思えません。

バカげていると思われるかもしれませんが、GMMモデルがシリーズの異なる部分で見出す時間的な相関のようなものがあるのだと思います。列をシャッフルして順序を崩すと消えます。

クラスタリングの分離は思いつきませんでした、今夜試してみます。

描いてみないと、よくわからない...。まあ、両者で分布が違うのは事実なんですけどね。それに、すでに連載を削除していますね。また、サンプリング後の新しい点は、不明瞭な場所にあることがほとんどである。すなわち、引用が独立していないため、一連の情報が失われているのです、はい。

あるいは、簡単な例（見積もりではない）を挙げて、比較してみてください。

Александр Алексеевич 2020.12.02 09:55 #22079

マキシム・ドミトリエフスキー：

描かないと、よくわからない...。まあ、両者で分布が違うのは事実なんですけどね。さらに、すでにシリーズを削除していますね。また、サンプリング後の新しい点は、不明確な場所にあることがほとんどです。すなわち、引用が独立していないため、一連の情報が失われているのです、はい。

あるいは、簡単な例（見積もりではない）を挙げて、比較してみてください。

マキシムさん、こんにちは。ここに来るのは久しぶりです...。扱ってみましたが、疑問点がたくさんあります)))MARKUPはスプレッドなんですね？マークアップは、現在値と現在値＋乱数の単純比較で、記号＞や＜によって、マークアップ1や0を入れるんですよね？試しに、markup=0.0と設定しましたか？ (トレイの場合MARKUP=0.00001 だと思います))) ですよね？

Maxim Dmitrievsky 2020.12.02 10:07 #22080

Alexander Alekseyevich:

マキシムさん、どうも、ここに来るのは久しぶりです...。理解しようとすると、いろいろと疑問が出てきます)))MARKUPはスプレッドなんですね？マークアップは、現在値と現在値＋乱数の単純比較で、記号＞や＜によって、マークアップ1や0を入れるんですよね？テストの場合は、markup=0.0? (トレイの場合は、markup=0.00001))としますよね？

こんにちは。はい、その通りです。テスターでも同じマークアップが使用されています。記事については、記事の中で聞いたほうがいいかもしれません。一箇所にまとめること。

フィードバックを分析し、改善点を見出す。

トレーディングにおける機械学習：理論、モデル、実践、アルゴトレーディング - ページ 2208