カオスにはパターンがあるのか?それを探してみよう!特定のサンプルを例にした機械学習。 - ページ 19

 

利益は、ある時点からの値動きのデルタに等しい。

まだ何も驚かない。

我々はすでに長い尾を通過している....

 
Renat Akhtyamov #:

利益は、ある時点からの値動きのデルタに等しい。

まだ何も驚いていない。

我々はすでにロングテールを通過している....

なんで今そんなこと書いたの?そうだね、余白に自分の考えをマークするのに、どんなトピックも使えないよね......。

 
Aleksey Vyazmikin #:

図13を見ると、使用可能な予測変数が1つを除いてほとんどすべて使用されているが、これが問題の根源であるとは思えない。つまり、使用量よりも、モデルを構築する際の使用順序が問題なのだろうか?

そうです。同じ予測変数で2つのモデルをトレーニングする場合、一方は1つの予測変数で最初のスプリットを行い、もう一方はもう1つの予測変数で最初のスプリットを行うと、各バリアントの基礎となるツリー全体はまったく異なるものになります。

もう1つの疑問は、なぜ同じデータ集合でブスティングすると最初の分割が異なるのでしょうか?列数の係数はforestのように!forestではランダム性のためです。しかし、私は==1であるべきだと思います。
それから、もう一つの選択肢:モデルのSeedが違う?同じもので試してみて、結果が同じなら、seedが収益性の高いモデルを収益性の低いものにしてしまうのは非常に悪いことだと思います。

 
ところで、カットバストシードの何がランダマイズなのか?
 
Aleksey Vyazmikin #:

Why did you just write that?そうだね、余白に自分の考えを書き込むのに、どんなトピックも使えないよね......。

、ー

 
elibrarius #:

そうです。もし同じ予測変数で2つのモデルを訓練し、一方は1つの予測変数にしたがって最初の分割を行い、もう一方は別の予測変数にしたがって最初の分割を行うと、それぞれの変種の基礎となるツリー全体はまったく異なるものになります。

これは、分割を選択するときに貪欲な方法に欠陥があることを再び証明することになる。私も葉を選択するときにこの実験をしましたが、同じ結論に達しました。

エリブラリウス#:

同じデータセットでboustingを行うと、なぜ最初の分割が異なるのでしょうか?列数に対する係数はforestのように!forestではランダム性のためです。しかし、私は==1であるべきだと思います。

私の理解では、評価のために列の一部を選択するアナログがここにありますが、私はすべての列を強制するように設定しています。

elibrarius#:

別の方法として、モデルのSeedを変えてみてはどうでしょうか?もし結果が同じなら、シードが収益性のあるモデルを収益性のないものにすることは非常に悪いことだと思います。

シードは結果を固定する、つまりすべてが同じになる。

elibrarius#:
ところで、シードはカットバストの何をランダム化するのですか?

私の理解では、乱数発生器のカウンターをある値に設定し、この発生器は少なくとも「最適なツリーを選択するメトリックのランダム化がある」と書かれている ように使用され、乱数発生器に係数を加えたものを使用するようなもので、私の理解では、--random-strength パラメータから取得されます(私の場合は 1 です)。

計算式はこうだ:

スコア += random_strength * Rand (0, lenofgrad * q)

qは反復が増えるにつれて減少する乗数である。したがって、ランダムは終了間際に減少する。

"

ただ、そこではサブサンプルを使ってツリーを構築することもできると書かれているが、私はサンプルをフルに適用するモード「-boosting-type Plain」を使っている。


また、学習後にモデルを使用しない列を削除すると、同じSeedのモデルが得られないというような影響もあるようで、よくわからない。

 
Renat Akhtyamov #:

グラフが書かれている

利益は、ある時点からの値動きのデルタに等しい」は、これらのチャートにどのように当てはまりますか?" ?

そして、このフレーズは、その後、 "我々はすでに通過した長い尾......" 私はあなたにトレーニングのいくつかのフォームを提供することを取るべきでしょうか?しかし、私はそれをしないし、尾は通常、価格変動の分布密度をモデル化するときに、このフォーラムで使用されている - 私はヒストグラム上に持っているものでは全くありません。そしてむしろ、ここではリスクについてではなく、予測変数の有意性の構造とその依存性を理解するよりも、偶然にモデルを構築する方が難しいという事実について話すべきです。

 
Aleksey Vyazmikin #:

利益はある時点からの値動きのデルタに等しい」は、これらのチャートとどのように関連しているのですか?" ?

そして、このフレーズは、 "我々はすでに通過した長い尾......" 私はあなたにトレーニングのいくつかのフォームを提供していると取るべきでしょうか?しかし、私はそのようなことはしませんし、尾部は通常、価格変動の分布密度をモデル化するときに、このフォーラムで使用されます - 私がヒストグラム上に持っているものでは全くありません。そして、むしろここではリスクについてではなく、予測変数の有意性の構造とそれらの依存性を理解するよりも、偶然にモデルを構築する方が難しいという事実について話すべきです。

私は、カオスの中にパターンがあるという事実に答えたのです。

ヒストグラムは、どのような論理/アプローチ/公式/理論などを使っても、このようなヒストグラムにしかならない。あなたが適用し、あなたは他のパターンを見つけることはありません

 
Aleksey Vyazmikin #:

つまり、欲張ったスプリットの選択方法には欠陥があることが改めて証明されたのだ。私自身、葉を選択する際に実験してみたが、同じ結論に達した。

フレンドリーなフレンドリーフレンドリーフレンドリーフレンドリーフレンドリーフレンドリーフレンドリーフレンドリーフレンドリーフレンドリーフレンドリーフレンドリーフレンドリースプリットごとに別のものを計算し、一度にペアを選択することもできますが、あなたの場合、計算時間が5000倍以上になります。100のモデルを平均化する方が簡単だ。

私の理解では、列の一部を選んで推定するアナログもあるようだが、私は全部を使わざるを得なかった。

ただ、サブサンプルを使ってツリーを作ることもできるそうですが、私は「-boosting-type Plain」というサンプルをフルに適用するモードを使っています。

ランダム性の影響を減らすためには、その通りです。そうでなければ、フォレストのように20~100のモデルの平均をとる必要がある。

Aleksey Vyazmikin#:

私の理解では、ランダムジェネレータのカウンタをある値に設定するのですが、このジェネレータは、少なくとも「メトリックのランダム化があり、それによって最適なツリーが選択される」と書かれている ように、ランダムジェネレータに係数を加えたものを使用するようなもので、私の理解では、--random-strengthパラメータ(私は1です)から取得されます。

Here's the formula:

スコア += random_strength * Rand (0, lenofgrad * q)

q は反復が増えるにつれて減少する乗数である。従って、ランダムは終了間際に減少する。

つまり、精製された木は最良ではなく、ランダムに悪くなる可能性があることがわかる。
それゆえ、梅のようなモデルから利益の出るモデルまでが広がっているのである。
分布図から判断すると、より消耗の激しいモデル、つまり平均すると不採算になるモデルが多い。



random-strength = 0を試してみるべきだろうか?シードの変更でモデルが変わらなくなればいいのですが。 ランダムに悪いモデルを作るのではなく、より良い精製ツリーを使ったモデルを作ればいいかもしれません。もし最良のモデルがプラムになるのであれば、このデータで10000個のランダムなモデルからランダムに最良のものを探すのが、現実のプラムへの道である。

あるいは、フォレストのように、ランダムに選ばれた数個のモデルを平均化することもできる。最適なモデルは再学習が可能だからだ。

 
Renat Akhtyamov #:

私は、混沌にはパターンがあるという事実に反応したのだ。

どのような論理/アプローチ/公式/理論などを適用しても、ヒストグラムはこのようなものでしかない。あなたが適用し、あなたが他のパターンを見つけることはありません

では、パターンがあるのに見つからないというのはどういうことですか?それとも、ランダムさの中に規則性があるのでしょうか?

理由: