トレーディングにおける機械学習:理論、モデル、実践、アルゴトレーディング - ページ 1277

 
エリブラリウス

私はこの方法を違った形で理解しています。
調査対象の予測変数の場合、正規分布でランダムな値を与えるのではなく、単純にその列の行をシャッフルするのがよいでしょう。

とにかく、記事からの結果が印象的です。実際にやってみることが必要です。

混同して、何が違うんだ?

 
エリブラリウス
Alglibは、残りの50%の予測因子すべてを調べ、それぞれを四分位で4分割し、すべての選択肢の中から最も誤差の少ない分割を選択します。

ランダム分割は原理的に難しいことではありません。
個々の木でテスト結果が良いもの(45〜50%)は見たことがないが、それが林立している方が面白い)。


なるほど、そう考えると、ほとんどの木の根の分け方が同じになる可能性が高く、それ自体が他の選択肢を捨てることになりますね。

私は、どんな葉もパターンを記述しようとしているだけで、その記述が正しいのか、それともサンプルの中のランダムな偶然なのか、事前からはわからないと仮定しています。そのため、木全体ではなく、異なるユニークな(繰り返しのない)葉を募集し、個別にチェックしているのです。

Alglibは過度な分岐があるので、学習ではなく、記憶している状態です。scaffoldingは良いアイデアだと思いますが、各ツリーがユニークなルール(葉)を含み、分割の数が4~10とあまり大きくない場合に正しく機能します。


エリブラリウス
見た予測因子の重要性という点では。
xgboost, lightGBMパッケージには、「木型」に対する特徴量の重要 度を推定するメソッドが組み込まれていました。

  1. ゲイン
    各特徴のモデルへの相対的な寄与度を示す指標で、各樹木ノードに行き、どの特徴がノード分割につながるか、モデルの不確実性がどの程度減少したかを指標(Gini impurity, information gain)に従って算出する。
    各特徴について、その寄与度をすべての木について合計する。
  2. カバー
    各フィーチャーの観測回数を表示します。例えば、4つの機能、3つの木があるとします。fich 1が木のノード1、2、3にそれぞれ10、5、2個のオブザベーションを持っているとすると、このfichの重要度は17 (10 + 5 + 2)となる。
  3. 周波数
    与えられた特徴がツリーノードにどの程度含まれているかを示す。すなわち、各ツリーにおける各特徴の分割ツリーノードの総数がカウントされる。
重要性を正しく分けていないのです。
5本の小節で訓練したフォレストは、100本の場合よりもテストの結果が良くなりますね。しかし、100人で訓練した場合、最初の5人は重要視されず、ある程度離れたところにいる。
100でトレーニングした場合、個々の木や森の誤差が小さくなっています。明らかにオーバートレーニングで30-100のバーを重要視していることが原因です。しかし、明らかに従来の論理では重要ではなく、5小節の森がより良い結果をもたらすという事実があるのです。

そうですね、重要度推定では、標準的なアプローチはあまり有効ではありません。ある種のユニークネススコアを試したいのですが、つまり、すでに準備された葉があるときに、各予測子を順番に他のものに変えてみて(グリッド分割を考慮して)、統計を取り、最高の置換バリアントをデフォルトバリアントと比較して、精度や他のスコア(概念が重要です)を考慮して、モデル全体について各予測子のスコアを収集するのです。

エリブラリウス
ざっとコードを見たところ、rpartパッケージからツリーを構築するための機能が遺伝的に選択されていることがわかりました。つまり、それぞれの木に異なる学習用の特徴が提供されたのである。遺伝学的に、このような機能セットは完全なブルートフォースよりも高速である。
でも、この木は魔法の木ではなく、rpartが提供する木なんです。そこそこ標準的だと思います。

ツリー自体は完全に標準的なもので、スクリプトの本来のアイデアは、最も有意な予測因子を見つけることであり、遺伝学はこれに貢献するようです。

エントロピーを他の指標(正確性とか完全性とか)に変えて新しい世代を作るというのは理解できない。

 

少し前にMEの講義を見ていて、モデルが狭い確率の範囲で動くという状況がありましたが、ブースティング・モデルの場合、本来は純粋な確率を出力しているわけではないので、これがほぼ当たり前と考えられており、このような事実から、予測値の正しい解釈のために、そのようなモデルをキャリブレーションするという考え方があります。そして、ちょうど昨年、そんな状況がありました。モデルが40~60の範囲で結果を出していて、「これは非常に悪いケースだ」と断言されたのです......。モデルが安定していて、決算も良かったので、疑問はありました。

 
アレクセイ・ヴャジミキン

少し前にMEの講義を見ていて、 モデルが狭い確率の範囲で動作して いる状況がありましたが、ブースティング・モデルの場合は、基本的に純粋な確率を出力しているわけではないので、これがほぼ当たり前と考えられており、この事実との関連で、正しい予測のためにこのようなモデルをキャリブレーションするという考え方があります。そして、ちょうど昨年、そんな状況がありました。モデルが40~60のレンジで結果を出し、「これは非常に悪いバリアントだ」と断言されたのです......。というのも、モデルが安定しており、業績も良かったからです。

アレクセイ、誤差の確率が99%だとすると、それは良いことなのか悪いことなのか?

残りの1%が成功の確率だと理解しています。

あまりないですが、どこに間違いがあるのか、どうすれば回避できるのかがすでに分かっているので、クールですね。

とはいえ、その比率は99k1
 
レナト・アフティアモフ

アレクセイ、仮に誤差の確率が99%だとすると、それは良いことなのか悪いことなのか?

残りの1%が成功の確率ということですね。

小さなことですが、エラーの場所とその回避方法がすでに分かっているので、クールです。

このような高い誤差の確率は、私たちが何もわかっていないことを物語っています。

精度は十分で、それは良いことなのですが、成功への道のりは遠く、1%は単なるまぐれかもしれません。

それも、具体的に確率の話をしている場合です。

 
Aleksey Vyazmikin:

なるほど、そう考えると、ほとんどの木の根の分け方が同じになる可能性が高く、それ自体が他の選択肢を捨てることになりますね。

約50%です。しかし、このパラメータは他のフォレストコールのフィオンで任意に変更することができます。

Aleksey Vyazmikin:
ある種の独自性指標の評価として試したいのは、つまり、すでに用意された葉があるときに、各予測器を1つずつ他のものに変えてみて(グリッド分割を考慮して)、統計を取り、置き換えのベストバリエーションをデフォルトバリエーションと比べ、精度や他の指標(コンセプトが重要)を考慮し、そうしてモデル全体に対する各予測器のポイントを集めることです。

マキシムが発見した順列と似たようなもの。しかし,0.1から0.2までの変動を持つ予測変数の代わりに,800から300000までの変動を持つ予測変数で代用することに意味があるのでしょうか?No!
しかし、その行をシャッフルすると、そうなります。数値の範囲や確率分布は 残りますが、各例の数値はランダムになります。

アレクセイ・ヴャジミキン

私が理解できないのは、エントロピーを何か別の値(正確さとか完全性とか)に変えて、新しい世代を作ることができるということです。

Rのパッケージによっては、そのパッケージのエラー関数を使用することができます。Xgboostは可能ですが、そこでは、あなたのf-fiの微分の公式を見つけて、それと一緒に供給する必要があります。私にとっては、派生が問題なのです。rpart パッケージの説明を見てください。

 
エリブラリウス

マキシムが発見した順列と似たようなもの。しかし,0.1から0.2への変化を持つ予測因子を,800から300000への変化を持つ予測因子に置き換えることに意味があるのだろうか?ダメだ!
しかし、その列をシャッフルすると、そうなります。数値の範囲や確率分布は残りますが、各例の数値はランダムになります。

nとする、広がる」と書きました。 平均と分散を求め、先に進みます。ただシャッフルするよりも、ノイズで ランダム化した方が良い。

ここは言葉を捻じ曲げてスクリーンショットを撮って、後で自分を証明しようとするのが好きな馬鹿がたくさんいる

 
マキシム・ドミトリエフスキー

nの分布を想定 しよう」と書きました。当然、正規化された形質で意味があります。 平均と分散を求め、先に進みます。

言葉を捻じ曲げてスクリーンショットして、後でそれで自己主張しようとするのが好きな馬鹿がここにはたくさんいる
ノーマライゼーションは、レンジを助ける--その通りです。
しかし、正規分布の確率分布は 真ん中(約0.5)になりますが、実際の予測値は例えば約0.8と横にずれていることがあります。あるいは、0.2と0.8あたりの鞍部とか......。
かき混ぜることで配分も保たれます。
 
エリブラリウス
ノーマライゼーションは、レンジを助ける - それはイエスだ。
しかし、正規分布の確率分布は真ん中(約0.5)になり、実際の予測値は例えば約0.8と横にずれる可能性があるのです。あるいは、0.2と0.8あたりの鞍部とか......。
かき混ぜることで配分も保たれます。

平均と分散をとって(笑)、気にしないでください。

 
マキシム・ドミトリエフスキー

平均と分散をとって(笑)、気にしないでください。

混ぜやすくなる)

そして、興味深い方法(順列)へのリンクもありがとうございます。

理由: