セグメントの範囲を結合するアルゴリズム - 作成の支援 - ページ 7

 
Aleksey Nikolayev:

質問はテーマから外れており、どちらかというと哲学的なものです。属性をセグメントに分割して分類するアプローチは、アウトプットのインプットへの不連続な依存を意味することに気づかされたのでしょうか?つまり、ある属性で取引が開始され、最初の属性に非常に近い別の属性では開始されない(境界の近くにあるが、その反対側にある)という状況が発生する可能性があるのです。そのやり方が悪いとは言いません。ただ、聞きたいのは、その背景にはトレーダーの直感のようなものがあるのか、それとも恣意的な選択なのか、ということです。

はい、理論的には可能です。しかし、ビンニングの方法は、異なる予測因子で連続した木のセットを構築することを意味し、これは正しい境界を別の形質で選択できることを意味し(統計的正当性がある場合)、したがって「誤差」は平準化されます。

アレクセイ・ニコラエフ

代替案として、ロジスティック 回帰や最近傍法による分類を提案することが可能である。そこでは、あるクラスに属する確率の推定値を出力することができ、例えば、取引量を決定するために用いることができる。私は特定のアルゴリズムにこだわっているわけではなく、特定のMOアルゴリズムを選択するトレーダーの側面に興味があるだけです。

CatBoostもクラスメンバーシップの確率の推定値を与えますが、私の観察によれば、それは全く逆で、十分に頻繁に発生しないまれな観測に対する信頼度が高く、これがその過大評価につながり、独立したサンプルでは、これが誤判定か高いインデックスのさらにまれな発生につながるかのどちらかです。

私がトレードにCatBoostを使う理由。

1.高速なアルゴリズム。

2.MOを箱から出して多くの進歩を遂げた、現代的で進化したアルゴリズムです。

3.PythonやRを使わずに、MT5でモデルを適用するスタンドアローンな方法。

 
Aleksey Vyazmikin:

ここで問題になるのは、「多くの価値ある部分と有害な部分」をどのように識別するかということです。つまり、それらの交換可能性を識別するか、あるいは先に提案したように二度手間で行う必要があります。それとも他に選択肢があるのでしょうか?

2パスだけでできる方法を知っています。まず地図を作り、それから道を選ぶ。すぐに、地図なしであなたも行くことができますが、それははるかに大きなリスク、特にときに途中で渓谷や沼地、そしてコンパス、星と太陽)です。

問題は、対策費用と初期データの有無です。どうやら、ここからゴールを設定しなければならないようです。条件が異なる場合があります。点とセグメントの数はわかっている。セグメントの数はわからないが、ポイントの数はわかる。ポイントとセグメントの数はわからないが、かなりの数であることだけはわかる。ある点からの分割数は最大でNであることが分かっています。

一般に、この部分はまず形式化する必要があります。

 
Aleksey Vyazmikin:

はい、これは理論的には可能です。しかし、ブースティングの方法は、異なる予測因子に対して連続した木のセットを構築することを意味しており、(統計的に正当な理由があれば)正しい境界を別の特徴に選択できるため、「誤差」が緩和される。

これは全くエラーではないという感覚もありますし、(私たちの問題では)属性に依存したレスポンスは、時に 飛びぬけているかも しれません。

Aleksey Vyazmikin:

CatBoostもクラスメンバーシップの確率の推定値を与えますが、私の観察によれば、それは全く逆で、十分に頻繁に発生しないまれな観測に対して高い信頼度を与え、その過大評価につながり、独立したサンプルでは、間違った分類か高い指標のさらにまれな発生のどちらかにつながるでしょう。

つまり、特定の特徴量に対して学習させたモデルは、「0か1か」という答えではなく、0と1の間のセグメントの数字として答えを出すということです。例えば、ロジスティック 回帰はこのように機能します。ランダムフォレストでもそのように動作するようですが、そういう意味なのか、メトリクスという意味なのかわかりません。

 
Dmitry Fedoseev:

Dimitriさん、助けてください。アルゴリズム内のcut[]配列をintからfloatに変更する必要があるのですが、コンパイラがエラーを投げています。

 
Valeriy Yastremskiy:

私は2パス方式しか知りません。まず地図を作り、次に道を選ぶ。すぐに、地図なしであなたも行くことができますが、それははるかに危険であり、特に途中で渓谷や沼地、およびノーコンパス、星と太陽の場合)。

真っ暗闇が勇敢な旅人を待っている :)

ヴァレリー・ヤストレムスキー

問題は、対策費用と初期データの有無です。どうやら、ここからゴールを設定しなければならないようだ。条件が異なる場合があります。点とセグメントの数はわかっている。セグメントの数はわからないが、ポイントの数はわかる。ポイントとセグメントの数はわからないが、かなりの数であることだけはわかる。ある点からの分割数は最大でNであることが分かっています。

だから、この部分をまず形式化する必要があるんです。

検索開始時の点と線分の数はわかっており、1~40本に収まる線分の最大数もわかっている(2つのオプションで同じターゲットの点が少なくとも5%含まれている場合)。

実際のセグメント数は、検索によって異なる場合があります。今は1~263まで取得しましたが、重複している場合もあります。

 
Aleksey Nikolayev:

時には、これは全くエラーではないという感覚もあり、(私たちの問題では)答えの特徴への依存が、時に 飛び火することも十分にあり 得るのです。

統計的に片方のクラスの割合が多い方が当たるという話であれば、たしかに隣同士のセクションはターゲットに対する素養が違うかもしれませんね。学習しやすくするための変換も試してみたい。変換の本質は、セグメントにターゲットへの帰属の種類と確率の度合いで順位をつけることで、左側はゼロのためのセグメント、右側は単位のためのセグメント-中央は弱く表現すること-になるだろうと思います。

アレクセイ・ニコラエフ

つまり、特定の特徴量のセットごとに学習したモデルが、「0か1か」という答えではなく、0から1までのセグメント上の数字として答えを出すということです。例えば、ロジスティック 回帰はこのように機能します。ランダムフォレストでもそのように動作するようですが、そういう意味なのか、メトリクスの話なのかわかりません。

これはX軸の確率スケールで学習した後のCatBoostモデルです。青い曲線は例の数で、その数が減少していることがわかります。

アクアはクラス0、マグネッタはクラス1です。赤いカーブがロス、水色のカーブがゲインです。

と、これは独立したサンプルでの同じモデルです。

ロジスティック回帰では、分布が変わると思いますか?

ロジスティック回帰アルゴリズム自体は、パラメータチューニングを行わないとCatBoostに負ける。

 
Aleksey Vyazmikin:

ロジスティック回帰は、分布が変わると思いますか?

ロジスティック回帰アルゴリズム自体は、パラメータチューニングを行わないと、CatBoostに負ける。

いや、実際にアルゴリズムを比較する話ではないですよ。私は、クラスがa)互いに明確に分離されている、b)混合されている、c)a)とb)の混合であることを考慮して、アルゴリズムを選択し、正しく訓練する方法という哲学的な問題に関心があります。(a)には明確な分類が必要で、(b)には曖昧な分類が必要で、(c)には何とか混ぜて、でも揺るがないようにする必要があるのです。

私の質問はMoDのスレッドに移した方がいいかもしれませんね。

 
Aleksey Nikolayev:

いや、実際にアルゴリズムを比較する話ではないですよ。私は、クラスがa) 互いに明確に分離されている、b) 混合されている、c) (a) と (b) の混合である、ということを考慮してアルゴリズムを選択し、正しく訓練する方法についての哲学的な質問に興味があります。(a)には明確な分類が必要で、(b)には曖昧な分類が必要で、(c)には何とか混ぜて、でも揺るがないようにする必要があるのです。

私の質問はMoDのスレッドに移した方がいいかもしれませんね。

どんなアルゴリズムでも、明確な分離に対応できるのでしょう。問題は、どのアルゴリズムが、ごちゃごちゃしたクラスの領域を強調するために部分空間をうまく割り当てることができるかということである。

トレーディングにおけるパーティショニングの問題は、パーティショニングの妥当性に疑問があることで、それゆえトレーニングが難しくなっています。

私は、現在利用可能な多くのMO方式を扱ったことがないので、その長所と短所を適切に評価することができません。

 
フラクタルクラスターの形で未来に空間を外挿することができる .
 
Veniamin Skrepkov:
フラクタルクラスターの形で未来に空間を外挿することができる .

やり方を教えてもらえますか?