トレーディングにおける機械学習:理論、モデル、実践、アルゴトレーディング - ページ 897

 
アレクセイ・ヴャジミキン

アウトオブバッグの評価

 
マキシム・ドミトリエフスキー

OOB(アウトオブバッグ)推定

この方法についてはこちらhttps://habr.com/company/ods/blog/324402/ を読みましたが、推定が変更されるデータのパターン検索にどのような影響を与えるのかわかりませんでした。私の言い方が悪いのかもしれませんが、簡単な例として、あるサンプルにこんなパターンがあったとします。

"

1+2=3

...

1+2=3,5

...

1+2=3,8

...

1+2=3,5

...

1+2=3

"

"..."- は、ルールが変更されるまでの期間が確定しているわけではありません。理想的にはルール変更のパターンがあるとしても。あるルールがnサンプル行で変更され、その後n*x個のルールが元の状態に戻る、という規則性をどうやって見つけるのだろうか。また、ルール変更の性質が単なる時間間隔ではなく、データがサンプルに含まれる他の状況の影響であるにもかかわらず、その影響の規則性がイベントの順序(つまり、各行にデータをファイリングする順序)によってしか推定できない場合はどうでしょうか。フォレストは異なる手法で塊を引っ張っているが、水平方向(予測変数の集合)の規則性だけでなく、垂直方向(過去n回に対する予測変数の変化)も見ることができるのはなぜか?

 
アレクセイ・ヴャジミキン

答えは夕方以降に...急にピザとブロンドが食べたくなったので

 
マキシム・ドミトリエフスキー

今夜はピザとブロンドが食べたくなったので、また後日回答します。

春 - 突然のことなので説明がつくかもしれません :)

回答を待ちたいと思います。私のくだらないであろう質問に時間を割いていただき、ありがとうございました。

 
アレクセイ・ヴャジミキン

春 - 突然のことかもしれませんが :)

私のくだらない質問に時間を割いていただき、ありがとうございました。

逆に、論理的な良い質問ですね、最近自分でも聞いてみました。

 
アレクセイ・ヴャジミキン

"..."- は、ルールが変更されるまでの期間が確定しているわけではありません。理想的にはルール変更のパターンがあるとしても。あるルールがnサンプル行で変更され、その後n*x行でルールが初期状態に戻るという規則性を、足場はどのようにして見つけることができるのでしょうか?また、ルール変更の性質が単なる時間間隔ではなく、データがサンプルに含まれる他の状況の影響であるにもかかわらず、その影響の規則性がイベントの順序(つまり、各行にデータをファイリングする順序)によってしか推定できない場合はどうでしょうか。フォレストはさまざまな手法で塊を引っ張ってくるが、水平方向(予測変数の集合)のパターンだけでなく、垂直方向(予測変数の過去n回に対する変化)も見るにはどうしたらいいのか?

まあ正確にはパターンを変えたわけではないのですが。より粗い近似値といったところでしょうか。サンプルが十分に大きければ、例えば、ランダムなサブセットで足場を学習させ、そこからチャンクを引き出して、そうして、ob(残りのチャンク)でモデルを検証し、誤差を比較します。もし、誤差が±であれば、足場が過剰に訓練されていないことになるので、将来的に正しい予測ができる可能性が高くなります。oobのエラーが満足のいくものでない場合、例えばトレーニングサブセットを減らし(モデルにノイズを加える)、バリデーションサブセットを増やすなど、少し設定を弄ってみるのもよいでしょう。そうすることで,モデルはすでに学習サンプルをより悪く近似し,誤差は大きくなりますが,新しいデータではまったく同じ誤差になる可能性があります.つまり,両方のサブサンプルでモデルが安定することになります.また、サブサンプル自体がランダムに選ばれるため、トレーニングサブサンプルの多くの未知数をカバーすることができます。もちろん、万能ではありませんが、単純なツリーとは対照的に、より柔軟な作業が可能になります。NSアンサンブルも同様です。

 
マキシム・ドミトリエフスキー

まあ正確にはパターンを変えたわけではないのですが。より粗い近似値といったところでしょうか。例えば、サンプルが十分に大きい場合、足場はランダムなサブセットで訓練され、そこからチャンクを引き出します、そうして、ob(残りのチャンク)でモデルが検証され、誤差が比較されます。もし、誤差が±であれば、足場が過剰に訓練されていないことになるので、将来的に正しい予測ができる可能性が高くなります。oobのエラーが満足のいくものでない場合、例えばトレーニングサブセットを減らし(モデルにノイズを加える)、バリデーションサブセットを増やすなど、少し設定を弄ってみるのも良いでしょう。そうすることで,モデルはすでに学習サンプルをより悪く近似し,誤差は大きくなりますが,新しいデータではまったく同じ誤差になる可能性があります.つまり,モデルは両方のサブサンプルで安定することになります.また、サブサンプル自体がランダムに選ばれるため、トレーニングサブサンプルの多くの未知数をカバーすることができます。もちろん、万能ではありませんが、単純なツリーとは対照的に、より柔軟な作業が可能になります。NSのアンサンブルと同じです。

まあ、大雑把に言うと、原始的には、条件付き独立木のサンプルで、単純にルールをチェックし、交差誤差のために、オーバートレーニングを買って出て、同じように、因果関係が確立できない時間的規則性をすべてカットする(規則性が保たれているサンプルでチェックすれば、たまたまこの因果関係が確立できる)、ということなのだろうと思ったわけです。

また、サンプルをスライスして、より小さな塊でトレーニングし(1年を12ヶ月に切って2-3年かかるとします)、ツリーの場合、それぞれのツリーから重みのあるルールをすべて集めて、24のサンプルと照合すれば(サンプルがx%以下のルールは捨てる)、異なるルールでも期間によってうまくいくということがわからないでしょうか。そうすると、タイミング(決算報告)の関係で、金融市場には必ずあるはずの循環性の仮定ができる。

例えば、予測因子を推定するための予備的な方法として、多くの人が相関分析について書いていますが、表を見ても、相関は小さいが、ツリーは構築した後にこの要素に価値を与えるということが理解できません。なぜ、このようなことが起こるのでしょうか。


我々は "arr_TimeH "という名前の予測子を取り、それについて考えるならば、我々は別の時間に市場の異なる動作を期待できることは明らかである、例えば午前10時の為替の開口部に強い動きがあるでしょう、取引の不在の瞬間から情報(蓄積されたイベント)が処理され、他の回で状況が異なる場合があり、同じ計画のニュースは、強い市場の動きが非常に可能性があり、その後リリースすることがあります一方で動きが頻繁に前の日に対して変化し、あまり振幅であることができる夜のセッション、だから時間は明らかに影響を与えた。ですから、データの前処理を含め、すでに確立された伝統を信用するのではなく、MOの手法をトレードに使うべきだと思います。


P.S.Photoshopで表を描き、色を見せるために任意でチェックを入れたのですが、チェックボックスの色と有意差スケールの色が一致しているのを見て、ショックを受けました - rise to tone!どうしてそうなるのか?もしかしたら、人間も同じように直感的に、つまり自分では気づかないシステムを使って取引しているのかもしれませんね。

 
アレクセイ・ヴャジミキン

例えば、予測因子を評価する予備的な方法として相関分析を書く人が多いのですが、表を見ても「相関は小さいが、ツリーを構築した後にこの要素に意味を持たせる」ということが理解できないんですね。なぜ、このようなことが起こるのでしょうか。

おそらく、あなたの時間予測(月、週、日、時間...)の組み合わせによると、ツリーは単に特定の買い/売りバーに行くのでしょう。

この属性の値動きとの相関はほぼゼロになるが、ビッグバーの時間を記憶し、それを使って履歴で利益を得るトレードをするようなものである。

 
イワン・ネグレシュニー

時間予測(月、週、日、時間...)の組み合わせによって、ツリーは特定のBUY/SELLバーに行くだけかもしれません。

この属性の値動きとの相関はほぼゼロになるが、Time barを記憶して履歴のトレードに使うようなものである。

おそらくそうでしょうが、予測変数は曜日と時間の2つしかなく、つまり、このような属性で5*14=70のグループを得ることができ、一方、サンプルには403933行があり、つまり5770行がこのグループに該当し、一方、ターゲット33000行、つまり471行がそれぞれのグループに該当しているのです。また、他の予測因子があることも考慮すると、すでに多くのグループが存在することになります。リンゴを輪切りにして、印をつけ、ある形質が他のものより多いものを記録するようなものです。しかし、輪切りが多いので、ある形質しかない輪切りが出てきます。そこで、与えられたサンプルサイズに対して、いくつの予測変数があるべきかという疑問が生まれます。リンゴのスライスはどのくらいの大きさにすればよいのでしょうか?

それは、取引セッションの 開始時間、取引セッションの期間、ニュース(経済・統計、これらはほとんど同じ曜日と時間に発表される)という時系列の要因に影響されています。

 
アレクセイ・ヴャジミキン

そうかもしれませんが、予測変数は曜日と時間の2つだけなので、この基準で5*14=70のグループが得られ、サンプルは403933行なので、グループは5770行、一方ターゲットは33000行なので、各グループに471行のターゲットが得られることになります。また、他の予測因子があることも考慮すると、すでに多くのグループが存在することになります。リンゴを輪切りにして、印をつけ、ある形質が他のものより多いものを記録するようなものです。しかし、輪切りが多いので、ある形質しかない輪切りも出てくるでしょう。そこで、与えられたサンプルサイズに対して、いくつの予測変数があるべきかという疑問が生まれます。リンゴのスライスはどのくらいの大きさにすればよいのでしょうか?

しかし、それ自体にはパターンがあり、それは時系列的な要因、つまり取引セッションの 開始、取引セッションの期間、ニュース(経済・統計、これらはほとんどが同じ時間、同じ曜日に発表される)に影響されるものである。

マキシム・ドミトリエフスキー、この問題をどう解決するのか?

一般的には、どのような選択肢があるのでしょうか?リンゴの欠片は異なる場合があります。
アンサンブルの各nsには、いくつかのコンテキストを追加し、これらのコンテキストをいくつかの制御nsに使用する?
コンテキストとは、例えば、基本的な定義や概念、予測因子、さらにいくつかのデータへのリンクのことです...

理由: