トレーディングにおける機械学習:理論、モデル、実践、アルゴトレーディング - ページ 2537

 
Aleksey Vyazmikin#:

ターゲットがランダムに設定されない場合はどうなりますか?

どのように? 入力の1つを出力に複製する?大丈夫です。試してみたこともあるような気がします。

Aleksey Vyazmikin#:

私のサンプルは通常3つに分かれているので、それを1つのサンプルにまとめ、100本の木のモデルを学習させ、どの予測変数が使われていないかを見て、それらをブロックするという実験をしました。そして,2つ目のサンプルでオーバートレーニングに歯止めをかけて通常通りモデルを学習させ,3つ目のサンプルで予測子を除外せずに学習させたときの変量と結果を比較しました.選択された予測変数の方が結果が良いことが判明し、ここで私はこの効果の考えを結論づけるのは難しいと思います。"異なる予測変数の選択は、区間内のサンプルの違いにより発生し、サンプル全体で学習することにより、時間の経過とともに 有意性を失わない予測 変数を自動的に選択する "とあります。

そうですね、将来的にインパクトのあるものを選ばれていますね。過去にはほとんど影響がなかったが、将来的にサンプル全体の平均に良い影響を与えるという理由で選ばれた場合もある。

Aleksey Vyazmikin#:

しかし、これはサンプルが大きければ大きいほど、より長いホライズンでのモデルの頑健性が高まるということなのだろうか。このような方法で予測因子を選択して学習することができるのか、つまり過学習を助長しないか?

よく言われるように、市場は変化しているのです。新しいプレイヤーが入ってきて、新しいロボットを作り、古いロボットを使えなくする、など。非常に大きなサンプルでは、モデルはすべての変化に対する平均的な結果を導き出すと思いますし、おそらくゼロになるでしょう。最大限の効率を得るためにトレーニングの深さを調整し、定期的に再トレーニングを行う必要があると思います。私自身、同じ期間で実験しています(例:2年間のテスト、土曜日に再トレーニング、データサイズは数日から1~2年まで試行)。
理論的には、再トレーニングのたびにトレーニングサンプルサイズを自動的に定義するのがよいでしょう。でも、今のところ方法がわからない。

Aleksey Vyazmikin#:
一般的に、CatBoostの創設者から、モデルのハイパーパラメータを見つけてから、仕事でモデルを使うために利用できるすべてのサンプルを愚直に訓練するべきだという推奨を聞きました。

データの一貫性が保たれ、古いデータの影響の劣化によって、学習のための歴史の深さをピックアップすることができますので、私はウォーキングフォワード(VF)でハイパーパラメータをピックアップします。また、データが時間的に変化しない場合は、クロスバリデーション(CV)を使うこともできますが、これは市場に関するものではありません。
選択後は、もちろん現時点まで学習して、フォワードTPやTPで持っていた時間のモデルを使うべきでしょう。
テストプロットと同じプロットで学習することで、その1回のテストに合わせてモデルやハイパーパラメータを調整することになります。そして、KVやVFで10〜50回のトレーニングを行うことで、歴史の大部分に対して最適なハイパーパラメータを見つけることができるのです。
もしかしたら、その方がいいのかもしれないし、週に一度ハイパーパラメータを拾うのが億劫なだけかもしれない))では、本当に良いものは何かというと、それは実践が示すところです。

 
elibrarius#:
理論的には、再トレーニングのたびにトレーニングサンプルサイズをどうにかして自動的に決定するのがよいでしょう。でも今のところ、

を決定し、平均

Gen.スクープのサイズが不明 な場合、再標本の サイズを考慮する。

n=(t^2*sigma^2)/delta_y^2

- 無作為抽出の場合(層別抽出や直列抽出の場合は式が少し複雑になります)

すなわち、必要な信頼水準Pと、それに対応する信頼性係数t=2(信頼水準95%)を決定する...。許容される最大誤差(トレーダーであれば、支店の専門家が自分で知っているはずです)を除数に...と分散(シグマ)は未知であるが、過去の観測から知る ことができる...

実は、フローティングウィンドウ(原理的には「サンプルサイズ」と言ってもいい)とt統計でフラットトレンドを定義し、「今いる場所」の確率、つまりリジェクトRSや吸収RSにマージンをかけるには...という話を書いて いたのは、そのためなのです。

もちろん、特徴量が正規分布を持ち、結果に影響を与える主な要因である限りは(すでにそのdy/dx->minを定義しているかもしれません)...。多因子モデルではない(この場合、計算されたものから最大値をとればいいのだろうが・・・イマイチわからない)

のシェアを決定し、形質

のように,平均の誤差と分散の値の代わりに,共有の限界誤差 (delta_w) と代替形質の分散 w(1-w) を使用する。

頻度(w)がおおよそでも分からない場合は、シェア分散の最大値である0.5(1-0.5)=0.25を考慮して計算します。

非対称性評価におけるオプションのcboeは、2倍近いK_opt(代替表示として)の有効期限前に分...

または味と色のためのその他の記号(オプションがない場合)。

p.s. ざっとこんな感じ です。

p.p.s. 論理的にはそうなのですが、未知の遺伝子集団のモデル構築において、サンプルの妥当性計算をどのように実装するかは、生データの有無と論理の問題です...。しかし、2年というのは、人口からすると普通の範囲だと思うのですが......。イムホ

Определение объема выборки
Определение объема выборки
  • 2013.08.16
  • baguzin.ru
Ранее мы рассмотрели методы построения доверительного интервала для математического ожидания генеральной совокупности. В каждом из рассмотренных случаев мы заранее фиксировали объем выборки, не учитывая ширину доверительного интервала. В реальных задачах определить объем выборки довольно сложно. Это зависит от наличия финансовых ресурсов...
 
JeeyCi#:

を決定するために、平均

Gen.Scoopのサイズが不明な場合,ランダムサンプルの再サンプリング量を考慮する(層別,直列サンプルの場合は式が若干複雑になる).

n=(t^2*sigma^2)/delta_y^2

すなわち、信頼度95%に対して、必要な信頼度Pと信頼度係数t=2を定義する必要がある...。許容される最大誤差(トレーダーであれば、業界の専門家が自分で知っているはずです)を除数に...と分散(シグマ)は未知であるが、過去の観測から知る ことができる...

一般に、フラットなトレンドを定義するためのフローティングウィンドウ[原則的には「サンプルサイズ」と言ってもよい]とt統計の話、そして「現在地」の確率-リジェクトRSや吸収RSで積み上げること-について、私が疑問を書いた のはそのことです......。

もちろん、特徴量が正規分布を持ち、結果に影響を与える主な要因である限りは(すでにそのdy/dx->minを定義しているかもしれません)...。多因子モデルではない(この場合、計算されたものから最大値をとればいいのだろうが・・・イマイチわからない)

のシェアを決定し、形質

同じですが、平均の誤差と分散の値の代わりに、共有の限界誤差(delta_w)と代替形質の分散w(1-w)を使用します。

cboe for optionsでは、非対称性の推定において、最も近い2つのK_optの満期日までの分数を(代替属性として)置く...。

など、味や色にこだわった看板を用意する(オプトがない場合)。

p.s. ざっとこんな感じ です。

p.p.s. 論理的にはそうなのですが、未知の遺伝子集団のモデル構築において、サンプルの妥当性計算をどのように実装するかは、生データの有無と論理の問題です...。しかし、2年というのは、人口からすると普通の範囲だと思うのですが......。イムホ

平均値の決定に。
(High+Low)/2
 
Vladimir Baskakov#:
、平均の定義について。
(High+Low)/2

気を悪くさせるつもりはないが、「平均」、(高+低)/2、厳密には全く呼べない、もっと学術的な名称がある。 タイミングが不明で不定期、イレギュラー。

 
マキシム・クズネツォフ#:

気を悪くさせるつもりはないが、「平均」、(高+低)/2、厳密には全く呼べない、そういうものにはもっと学術的な名称がある。 タイミングが不明で不定期、不規則なもの。

これが一番平均的だと思います。
 
マキシム・クズネツォフ#:

イベントの タイミングは未知数で、ムラもあり不規則です。

確かに、「兆し」を考えているうちに、習慣的に「出来事」を見失ってしまう......。- 忘れてばかりだ...という言葉を思い出させてくれてありがとうございます...!- そこでベイズの定理が 登場するわけですが、その論理から判断すると

 
バカバカしいかもしれませんが、私はクローズ以外を使うのが好きではないんです。近くからの一連の観測(すみません)があるとき、私は常に観測の間に一定の期間があることを知っています(それは常に同じで、安定しており、私の知るところです)。しかし、LOW/HIGHを使い、様々な計算をすると......観測と観測の間の期間がランダムになり、ある観測から別の観測まで、常に異なっていることがわかります。
 
LenaTrap#:
バカバカしいかもしれませんが、私はクローズ以外を使うのは好きではありません。近くからの一連の観測(すみません)があるとき、私は常に観測の間に一定の期間があることを知っています(それは常に同じで、安定しており、私の知るところです)。しかし、LOW/HIGHを使い、様々な計算をすると......観測と観測の間の期間がランダムになり、 ある観測から別の観測まで、常に異なって いることがわかります。

ランダムで常に異なるという のは、もちろんmachanutoです...実はそれがこの騒動を研究する目的なのです - 時間と価格において高値/安値を多少なりとも正確に決定すること :-)

 
LenaTrap#:
バカバカしいかもしれませんが、私はクローズ以外を使うのが好きではありません。近くからの一連の観測(すみません)があるとき、私は常に観測の間に一定の期間があることを知っています(それは常に同じで、安定しており、私の知るところです)。しかし、LOW/HIGHを使い、様々な計算をすると......観測と観測の間の期間がランダムになり、ある観測から別の観測まで、常に異なっていることがわかります。

なぜなら、ティック受信の瞬間だけがマルコフ的であり、それは(理想的な時間とミスクォートがないという仮定のもと)オープニングとして一意的に定義されるからです。そのティック受信の瞬間のクローズは、タイムフレーム区間が終了するまでクローズと一義的に定義することはできない。

しかし、クローズで仕事をする方が一般的です。おそらく、日次の見積もりで仕事をしていた時代と同じだと思います。

 
Aleksey Nikolayev#:

数学的アプローチが厳密であれば、Openを使用すべきです。なぜなら、この方法だけがティック到着の瞬間がマルコフ的であり、曖昧さなくOpenと定義されるからです。

つまり、あるバーが別のバーに変わる瞬間に、価格は終値と正確に等しくなります。

この最初のティックがバーチェンジの10分後に発生した場合、この瞬間の価格がオープンプライスになることを意味します。

理由: