トレーディングにおける機械学習:理論、モデル、実践、アルゴトレーディング - ページ 2648

 
Aleksey Nikolayev #:

特定された箱をどうするかという問題は複雑で、あらゆるケースを想定した明確なルールはほとんどないと思う。よく考え抜かれたアルゴリズムは、おそらくかなり秘密の「ノウハウ」なのだろう)。

もしケースが同じ予測変数の集合で得られるなら、おそらく交差しないだけで十分だろう。もし交差があれば、それは別の箱に割り当てられ、その補集合はいくつかの箱に分割できる。しかし,箱の数が多すぎると,標本が分断されすぎる.したがって、ボックスの概念を一般化することができる。ルールの言語では、これは否定と ORをANDに追加することを意味する。

ボックスが完全に異なる予測変数で得られる場合(たとえば、randomforest法)、その中に入る標本の部分の意味においてのみ、重なり合うことができます。ここでは、ポートフォリオに近いアイデアが必要であろう。

予測変数の集合が部分的に重なる場合,何らかのアプローチの混合があるに違いないが,はっきり言うのは難しい.

これをどのように統一的なスキームに落とし込むかは、私にはわからない。 決定木を単純に "うまく "構築する標準的な方法は、これらの問題を回避する ものであり 、我々の目的には適していない。プルーニング・アルゴリズムを選択することで改善できるかもしれないが、私の考えでは、ルール構築アルゴリズムを創造的に作り直す方がよい。

最も賢い結論

すぐに使えるアルゴリズムには近似ルールしかない:

x[1]>0.5 && x[3]> -0.2 &... のように。

それらは変数(行列の列またはフレームX1...X10)と抽象的な境界線(数字X[1]>0.5)しか持たない。

些細なX1> X 2はどうだろうか?

X1 !> X 2の否定はどうだろう。

X1> (X2*X3) はどうだろう?

また、インデックスへのバインディングは、非定常市場では機能しないのでしょうか?


A " があって"B "なければ "C"という表現です。

それはちょうど箱から出してアルゴリズムではありません。

アルゴリズムは同じで、フォレストは何百ものルールを作成し、それらのクラス確率の合計を見るだけです。 市場では、私たちはまれなイベントを気にするので、私たちはルールの数ではなく、ルールの数に移動する必要があります。

 

次元削減 アルゴリズムは、正規化の有無にかかわらず、異なるデータ型のサンプルをどのように見ているのだろうか?

例えば、文字列と数字というデータ型があるとする。

q1           q2
1    c -1.630015623
2    c  1.781979246
3    b -0.598134088
4    a -0.611477494
5    b -0.347432530
6    b -0.474427356
7    e -1.048827859
.....

まずq1をdigitsに変換する。

q1           q2
1    3 -1.630015623
2    3  1.781979246
3    2 -0.598134088
4    1 -0.611477494
5    2 -0.347432530
6    2 -0.474427356
7    5 -1.048827859

.... 

完了

これをUMAPアルゴリズムに送り、固有ベクトルを得る。

                  [,1]         [,2]
    [1,]   6.762433406   9.08787260
    [2,] -21.488330368  10.67183802
    [3,]   6.810413818   9.35273386
    [4,] -20.950310976  15.20258097
    [5,]  32.100723691  -9.74704393
    [6,]   6.892939805  16.84639975
    [7,] -17.096480607  -6.63144430

点を可視化する

ナイスなワームが得られた ))

q1という 変数で色をつけてみよう。


見てわかるように、変数q 1はこれらのワームの構造を作り、それ自身に重要性を引き寄せ、 変数 q 2の寄与を減らして いる。

これは、変数q1の値が大きく、データが正規化されて いないからである。

データを正規化すれば、各変数の貢献度は同じになり、次のようになります。

ある参加者にとっては、これは当たり前のことであり、正規化する必要があることは理解している、

しかし、変数の寄与度を増減させることによって、クラスタリングを制御できると考えたことはありますか?

 
mytarmailS #:

ポイントを視覚化する


寄生虫のように見える)

 
mytarmailS #:

しかし、変数の寄与度を増減させることで、クラスタリングをコントロールできると考えたことがあるだろうか?

そう、有意性を意図的に過大評価したり過小評価したりするのだ。
しかし、それは芸術であり、分析するのは難しい。
スケールを変えたり正規化したりすると、学習済みモデルの特性が変わってしまうのです。
 
Maxim Dmitrievsky #:
非定常的な価格で、私は長い間サインと戦ってきた。
みんな戦っているんだ。
 
mytarmailS 次元削減 アルゴリズムは、正規化の有無にかかわらず、異なるデータ型のサンプルをどのように見ているのだろうか。

例えば、データ型には、データ型、文字列型、数字型がある。

まずq1を数字に変換する

文字列は数値よりもカテゴリー形式に変換した方がよい。もちろん、UMAPがそれを処理できればの話だが。

a=1とe=5は5倍も違うわけではない。そして、数字化することによって、あなたはそれらをより暖かく、より温かくしたのだ。

 
elibrarius #:

a=1とe=5は5倍も違う、

うーん、うん、まったくその通りだ。

一発変換とかしないとダメだね。
 
Aleksey Nikolayev #:

特定された箱をどうするかという問題は複雑で、あらゆるケースを想定した明確なルールはほとんどないと思う。よく考え抜かれたアルゴリズムは、おそらくかなり秘密の「ノウハウ」なのだろう)。

もしケースが同じ予測変数の集合で得られるなら、おそらく交差しないだけで十分だろう。もし交差があれば、それは別の箱に割り当てられ、その補集合はいくつかの箱に分割できる。しかし,箱の数が多すぎると,標本が分断されすぎる.したがって、ボックスの概念を一般化することができる。ルールの言語では、これは否定とORをANDに追加することを意味する。

ボックスが完全に異なる予測変数で得られる場合(たとえば、randomforest法)、その中に入る標本の部分の意味においてのみ、重なり合うことができます。ここでは、ポートフォリオに近いアイデアが必要であろう。

予測変数の集合が部分的に重なる場合,何らかのアプローチの混合があるに違いないが,はっきり言うのは難しい.

これをどのように統一的なスキームに落とし込むかは、私にはわからない。決定木を単純に "うまく "構築する標準的な方法は、これらの問題を回避するものであり、我々の目的には適していない。プルーニング・アルゴリズムを選択することで改善できるかもしれないが、私の考えでは、ルール構築アルゴリズムを創造的に作り直す方がよい。

まあ、詳細を理解しないと、ロジックを変更するのは難しい。

私自身は、ボックスの追加の2つの座標(2 - 量子境界)が何なのか理解していません。

ただ、私の方法を開発するために有用なものを探しています。私は "箱 "の接着も行っていますが、アルゴリズムは完璧ではありません。

 
Aleksey Vyazmikin #:

ほらね、詳細を理解しないと、ロジックに変更を加えるのは難しいんだ。

私自身は、ボックスの追加の2つの座標(2 - 量子境界)が何なのか理解していませんでした。

ただ、私の方法を開発するために有用なものを探していました。私は "箱 "の接着も行っていますが、アルゴリズムは完璧ではありません。

特にPRIMについて話しているのであれば、私のリンクは2つの予測変数x1とx2に対してどのように機能するかの例を示しただけです。したがって、(a1<x1<b1)&(a2<x2<b2)の形のボックスが選択されます。箱の外側に残されたものは、明らかに内側にあるものとは異なるクラスに属するとみなされる。各ステップで箱から小片を切り離す(剥がす)というアルゴリズムの 本質を 簡単な例で示そうとする試みがあった。どの断片を切り離すか、どの予測子によって切り離すかは、「軌跡」ステップの最適性の条件から選択される。

私はこのアルゴリズムに、(木を解くための)ルールを構築するための標準的なアルゴリズムが、自分のニーズに合わせてどのように変更できるのか、また変更すべきなのかを示す例として興味を持った。

 
Aleksey Nikolayev #:

特にPRIMについて話しているのであれば,私のリンクは2つの予測変数x1とx2についてどのように動作するかの例を示している.したがって,(a1<x1<b1)&(a2<x2<b2)の形のボックスが選択される.箱の外側に残されたものは、明らかに内側にあるものとは異なるクラスに属するとみなされる。各ステップで箱から小片を切り離す(剥がす)というアルゴリズムの 本質を 簡単な例で示そうとする試みがあった。どの断片を切り離すか、どの予測子によって切り離すかは、「軌跡」ステップの最適性の条件から選択される。

私はこのアルゴリズムに、(木を解くための)ルールを構築するための標準的なアルゴリズムが、自分のニーズに合わせてどのように変更できるのか、また変更すべきなのかを示す例として興味を持った。

あなたがそれを理解したのは良いことだ。最初は理解できなかった。明確にしてくれてありがとう。

しかし、その後、最初の段階のアルゴリズムは、よりよくボックスに分離する予測変数のペアを見つけ、それらに「剥離」を適用する必要があることがわかりました。