トレーディングにおける機械学習:理論、モデル、実践、アルゴトレーディング - ページ 2254

 
マキシム・ドミトリエフスキー

あまり考えずに、つっこんでみただけの推測です。

うーん、これは犬が見たこともないようなチップをくれるでしょう。でも、似たようなものです。逆変換の場合、何らかの効果があるのかもしれませんね。ノイズを加える。

これは思い込みです。

ちょっと混乱してきました...。

いずれにせよ、PCAは線形であり、何も歪まない。すべての成分が揃っていれば、分解したものを 損失なく 戻すことができる。

 
mytarmailS:

もう、ここで混乱しちゃうんですよね...。

PCAは線形であり、何も歪まない。すべての成分があれば、分解したものを 損失なく 元に戻すことができる。

どこかに落とし穴があるわけです。PCAを使った画像では問題なく、引用文では高速ではあるが悪くなる。

まあ、それは理解できるのですが...絵や数字は予測しやすいのですが、マーケットは非定常ですからね。PCAを使う場合、ボラティリティが変わったりすると、成分が意味をなさなくなる。

デジタルフィルタの ように )))

 
マキシム・ドミトリエフスキー

PCAでは解決できない。ボラティリティが変わると、成分は意味をなさなくなる。

言いたいことは分からんでもないが

新しいデータで PCA成分をすべて足し合わせると、1ティックごとに同じ価格になりますから関連性の意味がわからない

 
mytarmailS:

言いたいことは分からんでもないが

新しいデータで PCA成分を全部足すと、1ティックずつ同じ値段になるから関連性というのがよくわからない。

犬の話は後回しだ、眠い)

コーダーが経験的にうまくいかなかったのは

 
マキシム・ドミトリエフスキー

犬の話は後にしてくれ、眠いんだ)

コーダーは経験的にうまくいかなかったんです。

大丈夫

 
mytarmailS:

あなたが最初の一人になる。

ベイズ法2019のある講座を見て いると、そこには面白い考え方があるのですが、数式が理解を阻害しています。ここで、ベイズロジックによる現代的なアプローチを試みた、ある考えを紹介します。講師は一般に、MOにおける確率を推定するベイズ法を用いないMOはすべてはめ込みに過ぎないと主張する。


フィッティングといえば、CatBoostのモデルがトレーニング以外のサンプルで結果を劣化させるのは、サンプルが代表的でないこととモデルの作り方のせいだと結論付けたい気持ちが強くなっています。要は、古典的なモデルでは木が対称で枝刈りがないので、ある葉にはほとんどデータがないのに、その葉には小さくない重みがついていて、これが誤った分割だと、学習以外のサンプルで、誤った葉に多くの例があると、結果に大きな歪みが生じることになるのです。そして、そのような葉は何千枚もあるかもしれません。サンプルが代表的なものであれば、シート内の重みは適切であり、データ分布の性質(エントロピー)と一致するため、問題はないだろう。重さをゼロにして、少ない例で葉をシャントしてみてはどうでしょう。

今のように「これが正しいなら、あれは間違っている」というような判断ではなく、モデルが知っているデータに対してのみ反応するようにするということです。
 
Aleksey Vyazmikin:

ベイズ法2019のある講座を見て いると、面白い発想があるのですが、数式が理解を妨げています。ここで、ベイズロジックによる現代的なアプローチを試みた、ある考えを紹介します。講師は一般に、MOにおける確率を推定するベイズ法を用いないMOはすべてはめ込みに過ぎないと主張する。


フィッティングといえば、CatBoostのモデルがトレーニング以外のサンプルで結果を劣化させるのは、サンプルが代表的でないこととモデルの作り方のせいだと結論付けたい気持ちが強くなっています。要は、古典的なモデルでは木が対称で枝刈りがないので、ある葉にはほとんどデータがないのに、その葉には小さくない重みがついていて、これが誤った分割だと、学習以外のサンプルでは、誤った葉に多くの例があると、結果に大きな歪みが生じるということです。そして、そのような葉は何千枚もあるかもしれません。サンプルが代表的なものであれば、シート内の重みは適切であり、データ分布の性質(エントロピー)と一致するため、問題はないだろう。重みをゼロにすることで、少ない例で葉をシャントするようにすべきです。

今のように「これが正しいなら、それは間違っている」というような判断ではなく、モデルが思い当たるデータだけに反応するということです。

代表性というのは重要な条件です。

カットバストは、分割すると、1枚の葉に含まれる例の数が少ない葉ができるのですか?つまり、1枚のシートでサンプル全体の64分の1の列を平均化することができるのです。少なくとも10000行の学習があれば、1枚あたり平均156例程度になります。これはかなり代表的なものだと私は思っています。

木を左右対称にすると、そこに歪みが出るかもしれませんが。葉の大きさはどのくらいで、トレーニングのために提出されたのは何列目ですか?

 
elibrarius:

代表性があることは重要な前提条件です。

katbustは分割すると、シートの例数が少ない葉ができるのですか?そこで推奨される深さは6であり、2^6=64すなわち、シートはサンプル全体の64分の1の列を平均化することになる。少なくとも10000行の学習があれば、1枚あたり平均156例程度になります。これはかなり代表的なものだと私は思っています。

木を左右対称にすると、そこに歪みが出るかもしれませんが。葉の大きさはどのくらいで、トレーニングのために提出されたのは何列目ですか?

今はまだ正確な数字が分からないので、これはあくまで推測です。昔のコードを見返さないと、そこでそんな統計を取る機会があったような気がするのですが......忘れてしまいました。平均すると大変なことにはならない、というのはその通りですが、だからといって1枚にかなりの数の例があるわけではありません。

学習用サンプルとテスト用サンプルでは、極端な確率のマージンが大きく異なることがわかります。これは、例数が少ない葉が原因であり、そのような葉はテスト用サンプルではほとんど見られないと推測されます。

 

木の葉の活性化統計量推定の可視化-古いモデルの一つ-がある。

yはリーフ番号、xはサンプリング行である。色は葉重モジュールの係数を示しています。

ここでも稀に葉っぱの活性化が見られるので、仮定が有効であることがわかる - サンプル試験であること


 
Aleksey Vyazmikin:

木の葉の活性化統計量推定の可視化-古いモデルの一つ-がある。

yはリーフ番号、xはサンプリング行である。色は葉重モジュールの係数を示しています。

ここでも稀にリーフの活性化が見られるので、仮定は妥当であることがわかる - サンプリングであること


エグザムで稀に起動するのは、むしろ市場が変わり、トレインであったことが起きなくなったことを意味します。また、そこでもトレーニーシートにアクティベーションが少なかったとは限りません。