Привет, Хабр! После многочисленных поисков качественных руководств о решающих деревьях и ансамблевых алгоритмах (бустинг, решающий лес и пр.) с их непосредственной реализацией на языках программирования, и так ничего не найдя (кто найдёт — напишите в комментах, может, что-то новое почерпну), я решил сделать своё собственное руководство, каким...
では、あなたのトレードを見せてください。
そんな質問したら、みんなフラフラしちゃうよ。
学校と同じだよ。
遠くから始めて、簡単な質問をしなければならない。
どのペアで取引していますか?
そして最後のトレード、エントリー・エグジット、すべてのパラメーターを示してください。
そして、1日に何回トレードをするのか。
P.Z.
質問は2つまでにしてください。
あなたはマスターを怒らせることができます。もしそうし始めたら?
P.Z.
私はスパルタクを応援して いる。
あなたはストーブを誤解している。ツリー構築コードを見たことがないようだが......。そこには1つの行の中での操作は一切ありません!!セット(フルセットまたはバッチ)のみです。
簡単に言うと:トレーニングに渡されたランダム/フルセットの行は、各予測子/列について1つずつソートされます。その上で異なる分割がチェックされ(中間/パーセンタイル/ランダム)、それぞれの統計量がカウントされ、最良の分割が行の集合全体について選択されます。
最良の分割に従って、文字列の集合を2つの集合に分割し、各集合を再度ソートし、停止ルールに達するまで(深さ、行ごとの例数など)、各部分について最良の分割を選択する、など。
エディタで詳細を見ることができます。ファイル:
↪MQL5IncludeMathAlglibdataanalysis.mqh
ClassifierSplit()関数とそれが呼び出されるもの。
数時間で理解できるようになり、1行で予測子を検索することについて話す必要もなくなる。
1.RegressionTree() クラス
あなたはストーブを誤解している。ツリー構築コードを見たことがないようだが......。そこには1つの行の中での操作は一切ありません!!セット(フルセットまたはバッチ)のみです。
簡単に言うと:トレーニングに渡されたランダム/フルセットの行は、各予測子/列について1つずつソートされます。その上で異なる分割がチェックされ(中間/パーセンタイル/ランダム)、それぞれの統計量がカウントされ、最良の分割が行の集合全体について選択されます。
最良の分割に従って、文字列の集合を2つの集合に分割し、各集合を再度ソートし、停止ルールに達するまで(深さ、行ごとの例数など)、各部分について最良の分割を選択する、など。
エディタで詳細を見ることができます。ファイル:
↪MQL5IncludeMathAlglibdataanalysis.mqh
ClassifierSplit()関数とそれが呼び出されるもの。
数時間で理解できるし、1行で予測子を検索することについて話す必要もない。
何行もというのはその通りです。
ランダム・フォレストにおけるパターンとは何でしょうか?
それは1本の木です。以下はRFのそのような木の一例です:
行の合計は166+185!すべてあてはまらない
私のモデルにはこのような木が150本ある
線が多いのはその通りだ。
ランダムフォレストにおけるパターンとは何でしょうか?
それは1本の木です。RFのそのようなツリーの一例です:
行の合計は166+185!どれにも当てはまらない
私のモデルにはこのようなツリーが150個ある
葉を形成する経路をもう一度考えてみよう。上の例では5つの分岐がある。これは2つの頂点に谷があるパターンの説明ではないだろうか?説明しよう。
7つのスプリットはヘッドショルダーなどを記述できる。
1本の木の葉はそれぞれ異なるパターンを記述する。
森は群衆の意見(derviews)である。
1番目の木はこう言う:この文字列は私の18番目のパターン/葉に該当し、答え=1
2番目:同じ文字列は私の215番目のパターン/葉に該当し、答え=0
3番目:=1
...
平均して、150本の平均的な意見を得る。例えば=0.78。それぞれが異なる活性化された葉/パターンを持っていた。
パス成形シートをもう一度考えてみよう。上の例では5つの分割がある。これは、2つの頂点と1つの谷というパターンの説明ではないだろうか?説明しよう。
7つのスプリットはヘッドショルダーなどを記述できる。
1本の木の葉はそれぞれ異なるパターンを記述する。
森はダービッドの群れの意見である。
1本目の木はこう言う:この線は私の18番目のパターン/葉に該当し、答え=1
2本目:同じ線は私の215番目のパターン/葉に該当し、答え=0
3本目:=1
...
平均して150本の平均的な意見を得る。それぞれ活性化した葉/パターンが異なる。
葉の数はわからない。
木の本数は、トレーニングのための最小サンプルサイズを得るために変更可能なパラメータである。
50本の木で十分であることがわかるので、木を1つのパターンとみなすのが便利である。
葉の数は不明。
木の数は、トレーニングの最小サンプルサイズを得るために変更可能なパラメータである。
50本の木があれば十分であることがわかるので、木を1つのパターンとみなすのが便利である。
ツリーはそれぞれの状況/行に対して、1つのリーフ/パターンで対応する。それ以外の状況では、他の葉/パターンからの反応となる。
葉だけでなく、木も何も解決していないようだ。
ここで、最終的な分類器の公式を見つけました。
ここで
分類タスクでは多数決で解を選び、回帰タスクでは平均で解を選ぶことも注目に値する。
葉っぱだけでなく、木も何も解決していないようだ。
以下は最終的な分類器の式です。
分類タスクでは多数決で解を選び、回帰タスクでは平均で解を選ぶことも注目に値する。
なぜ解決しないのか?それは最終的な答えに(1/150)貢献するからです。
各木から、活性化された葉/パターンの1つが投票(平均)に参加します。
森の答えは、すべての木(または活性化された葉/パターン)の答えの平均です - この式はそれを数えます。バイナリ分類の多数決は、平均が0.5以上であれば1、そうでなければ0となります。
しかし、0.5の境界線はおそらく最良の選択肢ではありません。パッケージが平均の値にアクセスできるのであれば、異なる境界線を試すことができます。
ツリーはそれぞれの状況/行に対して、1つのリーフ/パターンで対応する。それ以外の状況では、他の葉/パターンからの応答となる。
リーフだけでなく、ツリーも何も解決していないようです。
1つの葉だけでなく、すべての木がそれぞれの状況に対応しています。ただ、すべての木がアクティブになるわけではなく、アクティブになった木の予測の合計がモデルからの予測になります。
ツリーモデルの専門家が何を言っているんだ?
一枚の葉ではなく、すべての木がそれぞれの状況に責任を持つが、そのすべてが活性化されるわけではなく、活性化された木の予測の合計がモデルからの予測になる。
樹木モデルの専門家が何を言っているんだ?