トレーディングにおける機械学習:理論、モデル、実践、アルゴトレーディング - ページ 3335

 
Maxim Dmitrievsky #:
メイントレインを5-10個のサブトレインに分割し、それぞれをトレイルとシャフトに分割する。それぞれをcvタイプ別に訓練し、次にメイントレイン全体を予測する。すべてのモデルの元のラベルと予測されたラベルを比較する。当てはまらなかったものはブラックリストに入れる。そして、各サンプルの平均アスピレーションを計算することで、最終モデルをトレーニングする際に、すべての悪いサンプルを削除します。オプションとして、3番目のクラス 。

3行のコードで、結果は...まあ、比較するものはありませんが...まあ、ある程度のレベルです。

ここでのゴートはcvであり、つまり、複数のモデル(それぞれ異なる履歴で訓練されたもの)を使って、どのサンプルが悪く、どのサンプルが良いかを統計的に決定する。これは傾向スコアと呼ばれるもので、各サンプルがトレーニングで果たす役割の傾向です。

もちろん、ラベルは非常にゴミである可能性が あり、このアプローチではほとんどすべてを取り除くことができる。そこで私は、当初は取引のランダム・サンプリングを使って、さまざまなマークアップのバリエーションを追加した。チャートのマークアップ方法について考えたくない、あるいはどのように考えたらよいのかわからないということを考えると。

TCを独自に検索するコゾル要素を持つAMOは、おおよそこのようになるはずだ。

ラベル(教師,ターゲット変数)は,定義上,ゴミではありえない. 引用は,予測変数の外部にある考慮事項からマークアップされる.いったんラベルが決定されると、発見されたラベルの集合に関連する予測変数の問題があります。あるラベルの集合は美しいが、それに対する予測子が見つからず、別のラベルの集合を探さなければならないという問題が起こりやすい。例えば、マークはZZの反転である。美しいマークだ。そして、そのようなラベルの予測子を見つけるにはどうしたらいいでしょうか?

予測子によってラベルのフィルタリングを始めるとすぐに - これはスーパーフィッティングであり、マーケットを含め、あなたがここで示すすべてのものは - 自然なステップバイステップ・モードで外部の新しいファイルでは動作しません。

 
mytarmailS #:
そう、興味深い。

私はあなたに別のサンプルテスト - 7467、試験 - 7177が、全く活性化されていない葉の数が少なくないことを知らせる - 私は一度にそれらをカウントしませんでした。

0

これは、テストサンプルの値によってクラスを変更した葉の分布である。

1

そしてこれが試験。

そしてこれがクラス分けで、3つあり、3つ目は"-1"-活性化なし。


訓練サンプルの場合。


試験サンプル


試験サンプルの場合。

一般的に、葉の重みはもはやクラス・ロジックに対応していないことがわかります - 下記はテスト・サンプルのグラフです - 明確なベクトルがありません。


一般的に、このトレーニング方法は、何かを近似しますが、予測変数の品質を保証しません。

一般的に、上のグラフ上の明確な「棒」は、活性化の場所と頻度によって非常によく似た葉であることは認める。


mytarmailS#:

しかし、問題は、そのような兆候は壊滅的に少なく、スクリーニングの方法は、パワーの面で乱暴に高価であり、一般的に、この方法は、教師なしで訓練することによって実装され、この方法でのみ私はフィッティングを回避することができました。

知らないことを議論するのは難しい。だから、私はあなたの成功を喜ぶことしかできない。もし私にそのような方法があれば、それを使うでしょう :)

私の方法は、今のところ、そのような定性的な結果は得られないが、十分に類似している。

 
Maxim Dmitrievsky #:
その中で量的化はどのような役割を果たしたのだろうか?10点満点で

思考プロセスを完全に切り分けるのは難しい。

様々な面で問題があるので、より少ない労力で、より多くの結果で改善できるものを探す。定期的に「データ」から「学習プロセス」にジャンプして実験する。

本来のアイデアは相関関係を推定することだが、既成の方法を見つけられなかったので、私なりに改良している。葉が似ていると推定が歪むと思う。

Maxim Dmitrievsky#:
私はスターフィールドを過ぎ、まもなく特異点が始まった。私は多元宇宙に入り、自分のコピーに出会った。今、私はさまざまなバージョンの宇宙を駆け巡っている。そして逃げ場がない。新しい意味を見つけなければならない。

脳や神経ネットワークが合理性の限界に達したとき、シンギュラリティが始まる。

面白いアイデアだね。このゲーム、いつか後でプレイしてみようかな......僕はゲームをクリエイティビティとして扱っていて、今のゲームはグラフィック的に古くなるのがずっと遅いんだ。

古いHD7950 グラフィックカードで『ゴッド・オブ・ウォー』(2018)を10歳未満で動かし(純粋に計算のためだけの別のコンピューターに放り込んだ)、グラフィックを最小にして、ただ絵に衝撃を受けた。しかし、主な関心は、父と息子の関係の精巧さである - このトピックが提起されるコンピュータ業界で類似例を見つけることは困難である。

Maxim Dmitrievsky#:
メイントラックを5~10本のサブトレインに分け、それぞれをトラックとシャフトに分ける。それぞれでcv型を学習し、次にメイントラック全体を予測する。すべてのモデルの元のラベルと予測されたラベルを比較する。当てはまらなかったものはブラックリストに入れる。そして、各サンプルの平均吸引を計算することで、最終モデルをトレーニングするときに、すべての悪い例を削除します。オプションとして、3rdクラス(
)を介して、2番目のモデルに白サンプルと黒サンプルを分離するように教えることができます。

3行のコードで、結果は...まあ、比較するものはありませんが...まあ、ある程度のレベルです。

ここでのゴートはcvであり、つまり、異なる履歴で学習させた複数のモデルを用いて、どのサンプルが悪く、どのサンプルが良いかを統計的に決定する。これは傾向スコアと呼ばれるもので、各サンプルがトレーニングで果たす役割の傾向です。

もちろん、ラベルは非常に屑である可能性があり、このアプローチではほとんどすべてを取り除くことができる。そのため、私は当初、取引のランダム・サンプリングを使ってさまざまなマークアップのバリエーションを追加した。チャートのマークアップ方法について考えたくない、あるいはどのように考えたらよいのかわからないということを考えると、このような方法を使うことになる。

TCを独自に検索するコゾル要素を持つAMOは、おおよそこのようになるはずだ。

しかし、ここではモデルを通してデータも扱う。何か違いがお分かりになりますか?

 
Aleksey Vyazmikin #:

しかし、それはモデルを通してデータを扱うことでもある。何か違いはありますか?

それは自動的なもので、何も考えなくてもいいし、(重要なことは)何もしなくてもいいんだ。)
 
Maxim Dmitrievsky #:
まあ、自動運転のように、何も考えず、(それが重要なのだが)何かをする必要はない :)

CatBoostの学習方法における過度のランダム性を考慮すると、アプローチ自体を評価するのは難しい。彼らはツリーを構築するときに文字列に干渉し、彼らはバチャミでデータを供給し、まあ、それはすべての禁止されていない場合...

私はブランチで上に書いたように、類推によって、新しいデータ上でクラスを変更するシートが何枚あるかを評価することは興味深いです。これは、アプローチ/モデルの品質のメトリックになる可能性があります。

 
Aleksey Vyazmikin #:

CatBoostの訓練方法自体の過剰なランダム性を考慮すると、アプローチ自体を評価するのは難しい。ツリーを構築する際に文字列に干渉したり、バッカムでデータを与えたり、まあ禁止されていなければ......。

上の枝に書いたように、新しいデータで何枚クラスが変わるかを類推して評価するのは面白い。これは、アプローチ/モデルの質を測る指標になるかもしれない。

理想的には、このランダム性はデータセットのランダム性ほど悪くない。
 
Maxim Dmitrievsky #:
理想的には、このランダム性はデータセットのランダム性ほど悪くない。

ランダム性から偶然に美しいモデルを得ることは可能である - それが問題なのだが、不可能であれば問題にはならないだろう。

モデルを訓練することは問題ではない。問題は、新しいデータに対してより正しく機能する可能性のあるモデルを選ぶことなのだ。

この可能性を高めることができる面白いアプローチなのだ。そして、モデルの有効性を評価するためには、分類精度の統計値だけでなく、何か別の指標、例えば葉っぱを個別に評価するような指標が必要だ。予測因子の指標が変化することは明らかである。だからこそ、葉はノイズが多く、実際のクラスを「変化」させる。良いラベルと安定した予測変数が必要で、それらの組み合わせがモデル内で稀な値を持つリーフを作ってはいけません。

生産では、モデルで使用される予測変数の値の分布の変化をモニターし、その変化が有意かつ広範囲である場合にモデルを停止させることがすでに要求されています。しかし、このアプローチでは統計量の蓄積が必要であり、それは我々にとっては損失の蓄積に等しく、これは良いことではありません。モデルを除外するにはもっと速い方法が必要だが、純粋にドローダウンに基づくのではなく、合理的な方法が必要だ。

多くの問題があり、それらを解決しない限り、運用のためにモデルに資金を提供したくはない。

 
Aleksey Vyazmikin #:

そう、バイナリーはより複雑だ。しかし、配給がここでどのように役立つのか、私には理解できない。

0と1の2進数符号はすでに正規化されており、残りも正規化されているはずだ。

 
Forester #:

0と1の2値特徴はすでに正規化されており、他の特徴も同様に正規化する必要がある。

あなたの考えは理解できましたか?

しかし、同じ32セグメントで一律に数量化する場合、セグメント "1 "は0、セグメント "32 "は1と考えることができます。そして、それは他のどの数字でも同じです。何が根本的に違うのか、私には理解できない。

 
Aleksey Vyazmikin #:

あなたの思考回路は理解できただろうか?

しかし、同じ32セグメントを一律に数量化する場合、セグメント「1」は「0」であり、セグメント「32」は「1」であると考えることができる。そして、それは他の数字でも同じです。何が根本的に違うのか、私には理解できない。


32に縮小するのであれば、2進数の0と1を0と32に引き伸ばせばいい(その他、例えば5量子で0...5から0...32まで)。すべてを比例させるために。あるいは、古典的にすべてを1つの超立方体に圧縮する(正規化が必要なニューラルネットワークの場合)。本質は同じで、どちらの方法でも同じスケールになる。

理由: