トレーディングにおける機械学習:理論、モデル、実践、アルゴトレーディング - ページ 1486

 
マキシム・ドミトリエフスキー

wikipediaには暗号機がないと解らないくらいに書いてあるのに全く理解できない。多次元分布、しかもパイソンコードを解読できない限り、どうやって構築すればいいのかわからない。

と地獄に落ちる。バックテストでは、ちょうどいい絵になりますね、共和分と比較すると

こちらは、https://www.quantconnect.com/tutorials/strategy-library/pairs-trading-copula-vs-cointegration

コピュラとは、複数の確率変数の分布の結合密度を表す関数である。概念的には十分シンプルな数学的構造で、これを理解するために、例えば2つのランダムなプロセスを取り上げ、一方の確率の他方に対する依存性として2次元チャートを作成すると、点のフィールドが得られる。もしプロセスが独立していれば、それは均一な正方形のフィールドとなるが、もし依存していれば異なるパターン、ある場所では点の圧縮、他の場所では希薄化、ここで点の局所密度はコピュラとなり、線形または非線形依存性を示す。

 
イゴール・マカヌ

トレーディングシステムの仕事は予測をすることであり、リスクと資金管理の仕事はシステムを確実に存続させることです。

コピュラやホムンクルはどうなのか、TSはどのように導き出されたのか、MOの助けを借りたのか、オプティマイザの助けを借りたのか......。- 予測はできても、現実の状況をコントロールすることはできない。

私はコピュラに反対しているわけではありません。むしろ賛成です。コピュラについて思い出させてくれたMaxに感謝します。

 

typedef struct

{

double dist;

double* vector;

} distvect;


int distvectcomp(distvect *v1, distvect *v2)

{

if (v1->dist == v2->dist) return 0;

double sub = v1->dist - v2->dist;

return sub / fabs(sub);

}


double* parsen(dataset inputs, dataset outputs, int k, double kernel(double), double vector[])

{

distvect* dvarr = malloc(inputs.length * sizeof(distvect));


for (int i = 0; i < inputs.length; ++i)

{

double dist = 0;

for (int j = 0; j < inputs.dimentions; ++j) dist += pow(vector[j] - inputs.data[i][j], 2);

distvect dv = { dist, outputs.data[i] };

dvarr[i] = dv;

}

qsort(dvarr, inputs.length, sizeof(distvect), distvectcomp);


double *res = calloc(outputs.dimentions, sizeof(double));

double W = 0;


for (int i = 0; i < k; ++i)

{

if (dvarr[i].dist == 0) continue;

double w = kernel(dvarr[i].dist);

W += w;

for (int d = 0; d < outputs.dimentions; ++d)

res[d] += dvarr[i].vector[d] * w;

}


for (int d = 0; d < outputs.dimentions; ++d) res[d] /= W;


free(dvarr);

return res;


}

準最適」なMOアルゴリズムは、次のように言われています。
 
どういうことですか、SVMの種類は?
 
マキシム・ドミトリエフスキー
SVMウィスプとはどういうものですか?

いや,この「パーゼン窓」,カーネルスムージング,そしてほぼ完璧という意味で「準最適」な svmとはどのようなものか(Mitchellはどこかに書いてあった),ただ非常に遅い,各反復 - データセット全体を新しい点にソートしてカーネルと畳み込む- 。

 

ツリーを構築する際に、サンプル全体の信号分布の均一 性を考慮するようなアルゴリズムがないのが理解できないのですが......?

取引に不可欠なものなので、何らかの形で実装できないか。

この分布を意識して葉を推定していますが、これを意識してツリーを作れば、もっと効果的な葉・ツリーができるはずです。
 
アレクセイ・ヴャジミキン
確かなことは言えませんが、無駄に剪定で木を苦しめていることは排除していません。
これは、一般的な考察と個人的な経験からそう言える。
 
アレクセイ・ヴャジミキン

ツリーを構築する際に、サンプル全体の信号分布の均一 性を考慮するようなアルゴリズムがないのが理解できないのですが......?

取引には欠かせないものなので、何らかの形で実装できるかもしれませんね。

この分布を意識して葉を推定していますが、これを意識してツリーを作れば、もっと効果的な葉・ツリーができるはずです。
そこで、分割の前に、データをフィッシュごとに並べ替え(時間ごとにシャッフル)、分割(中央値または四分位値)、誤差補正を記憶し、すべてのフィッシュについてこれを繰り返す。最適な分割がノードになる。

より良いアルゴリズムを提案してください。

 
ユーリイ・アサウレンコ
確かなことは言えませんが、無駄に剪定で木を苦しめることを排除することはありません。
あくまで一般的な考察と個人的な経験です。

若い頃は盆栽なんて自然をバカにしたようなものだと思っていましたが、親になってみてその奥深さがわかりました。

 
エリブラリウス
そこで、分割の前に、データをフィッシュごとに並べ替え(時間ごとにシャッフル)、分割(中央値または四分位値)、誤差補正を記憶し、すべてのフィッシュについてこれを繰り返す。最適な分割がノードとなる。

より良いアルゴリズムを提案してください。

そのため,予測因子とその値をソートする瞬間に推定を行う必要があり,値(範囲)が非常に混み合っている予測因子は取らず,サンプル全体に分布しているものを優先させるのです.

つまり、絶対的な再現性だけでなく、サンプルに渡るスプリットの繰り返し頻度を推定する必要があるのです。
理由: