トレーディングにおける機械学習：理論、モデル、実践、アルゴトレーディング

СанСаныч Фоменко 2022.10.15 11:05 #27871

Maxim Dmitrievsky #:
外れ値の除去を含め、多くの矛盾が生じる。様々な計算によると、外れ値は通常データセットサイズの10%に相当する。外れ値が検出された場合、モデルはどのように取引するのでしょうか？)

変換も同じ状況だ。

前処理を古典的に行うと、結果は生データよりも悪くなる。

あるいは、メトリクスのランダムな改善がシステマティックなものとして流布される。

教科書や論文を読んだだけでは何もできない。これは別の段階であり、学習と呼ばれる。統計学の体系的な知識がなければ、MOEでやるべきことは何もない。

目標を達成するためには、常に努力する必要がある。

もし中間的な目標、すなわち予測変数の最大予測能力をとるとすれば、次のようになる：

1.外れ値を除去することは義務である。分位の0.5%より大きい値が外れ値とみなされるなら，外れ値は1%未満である．ちなみに、これは将来ストップがトリガーされる割合である。取引システムそのものを開発しているため、デジタル的な制約があります。

2.前処理は必須ですが、これも種類によります。もし予測器の予測能力について話しているのであれば、予測能力を高めるような斜面を修正することはできません。これは一例です。一般的に、我々は何らかの前処理アルゴリズムを取り、予測能力に対するその効果を評価します。ここでの答えは

3.3.MOの意味を常に念頭に置いてください。私の考えでは、MOはいくつかのパターンを探索することです。RFで最も明らかなのは、例えば5000本のバーの中に何個のパターンが含まれているか？あるいは、どの窓の値からパターン数を増やしても誤差は減らないのか？あるいは、ある固定のウィンドウの場合、パターン数のどの値から誤差が減少しなくなるのでしょうか？

RFの回答

1. ウィンドウを1500 barより大きくしても意味がない。

2.誤差とパターン数(ツリー)の関係は、グラフではっきりと見ることができる：

最小50。一般に100から200まで。ウィンドウを5000まで増やしてもグラフは変わらない。

ゴールとその達成基準を常に明確にする必要がある。それ以外はすべて、ボヤボヤとしている。

Maxim Dmitrievsky 2022.10.15 11:12 #27872

СанСаныч Фоменко #:

教科書や論文を読んだだけでは何もできない。それは別の段階であり、勉強と呼ばれるものだ。統計の体系的な知識がなければ、MoEでは何もできない。

目標を達成するためには、常に実行することが必要なのだ。

もし中間的な目標、すなわち予測変数の最大予測能力をとるとすれば、次のようになる：

1.外れ値を除去することは義務である．分位の0.5%より大きい値が外れ値とみなされるなら、外れ値は1%未満である。ちなみに、これは将来ストップがトリガーされる割合である。我々は取引システムそのものを開発しているので、デジタル的な制約がある。

2.前処理は必須ですが、これも種類によります。もし予測器の予測能力について話しているのであれば、予測能力を高める勾配を修正することはできません。これは一例です。一般的に、我々はいくつかの前処理アルゴリズムを取り、予測能力への影響を評価します。これが答えです。

3.MOの意味を常に心に留めておくこと。例えば、5000本のバーの中に何個のパターンが含まれているか？あるいは、どの窓の値からパターン数を増やしても誤差は減らないのか？あるいは、ある一定のウィンドウに対して、パターン数のどの値から誤差が減少しなくなるのか？

RFの回答

1. ウィンドウを1500小節以上にするのは意味がない。

2. エラーとパターン（ツリー）の数の関係は、グラフではっきりと見ることができる：

最小50。一般に100から200。ウィンドウを5000まで増やしてもグラフは変わらない。

常にゴールとその達成基準を明確に打ち出すことが必要である。それ以外はすべてボヤボヤである。

隔離林から排出ガスを検出し、それを削除したが、トレーニングの結果は変わらなかった。排出ガスでトレーニングしてみたが、変化なし。モデル（catbust）は排出量を気にしていないという印象を受けた。まるで、異常の検索を通じて排出ガスがよく認識されているが、その除去は必要ないかのようだ。

СанСаныч Фоменко 2022.10.15 11:27 #27873

Maxim Dmitrievsky #:
隔離された森から排出ガスを検出し、それらを削除したが、トレーニング結果は変わらなかった。排出量についてトレーニングしてみたが、結果は変わらなかった。モデル（catbust）は排出ガスを気にしていないという印象を受けた。あたかも、異常値検索でよく認識されているが、その除去は必要ないかのようだ。

外れ値は予測力に強く影響し、予測力の安定性は予測誤差の安定性に影響する。

また、モデル自体については、特に学習サンプルがサンプルから得られるかどうかに依存する。

JeeyCi 2022.10.15 12:43 #27874

Aleksey Nikolayev #:

局所決定木のアイデアが浮かんだ。これはKNNや局所回帰の類似のようなものである（非定常性にも適している可能性がある）。このアイデアは、注目するポイントを含むボックス（その中に少なくとも与えられたK個のポイントまで）だけをボックスに分割し、残りのボックスは気にしないというものです。クラス間の境界がシャープで，ポイントがそのような境界に近い場合，KNNや局所回帰よりもよいかもしれない．

このアプローチは意味があるのだろうか？

スケーリングはスケーリングであり（多次元であっても、距離が適切であれば）、フィルタリングノイズは微分（1次と2次）でできる。ラベル付けされたデータの共分散行列を通してクラス差（ラベル付けされた）の有意性を証明し、確認された有意性を興味のある対象の分類のためにさらに利用する代わりに、--まあ、または完全に教師なし方法でベクトル行列に切り替える。..

皆さん、仮説は計算の手段ではなく、証明（または反論）の対象なのです....

Aleksey Nikolayev 2022.10.15 14:23 #27875

JeeyCi #:

スケーリングはスケーリングであり（多次元であっても、距離が自分に合っていれば）、フィルタリング・ノイズは微分（1次および2次）でできる。-- ラベル付けされたデータの共分散行列を通してクラス差（ラベル付けされた）の有意性を証明する代わりに、完全に教師なし方法でベクトル行列に切り替えるか、さらに、興味のある対象の分類のために確認された有意性を利用する。..

皆さん、仮説は計算の手段ではなく、証明（または反論）の対象なのです....

何も理解できなかったが、非常に興味深かった。

Evgeni Gavrilovi 2022.10.15 21:28 #27876

СанСаныч Фоменко #:

外れ値は予測能力に強く影響し、予測能力の安定性は予測誤差の安定性を左右する。

そして、モデル自体については、特に訓練サンプルがサンプルから得られた場合、モデルに依存します。

ランダムフォレストから予測能力と特徴の重要性を決定する方法とのR2値は？

Roman 2022.10.15 21:42 #27877

皆さんこんにちは。
質問があるのですが、予測因子としてハッシュを使うことは現実的なのでしょうか？

例えば
LlLCmywDpe8dj_j8t8DWwoMjaIhTLnOedRh6KET7R7k

ここでターゲットは
1.04です。

これを数字や他の形式に変換することは意味があるのでしょうか？

Aleksey Nikolayev 2022.10.16 05:02 #27878

Roman #:

ハッシュを予測に使うのは現実的なのか？

例えば、
LlLCmywDpe8dj_j8t8DWwoMjaIhTLnOedRh6KET7R7k

1.04のように。

どうにかして数値などに変換する意味はあるのでしょうか？

つまり、（文字列がANSIエンコードされている場合は）256項目表記の数値になります。ハッシュは固定長なので、0から255までの数字のベクトルとして表現することはできます。

ビットコインをクラックしたいですか？）

Roman 2022.10.16 05:30 #27879

Aleksey Nikolayev #:

つまり、（文字列がANSIエンコードされている場合）256項目のレコードの数字ということになる。ハッシュは固定長なので、0から255までの数値のベクトルとして表現することもできる。

ビットコインをクラックしたいですか？）

いや、ビットコインじゃなくて、オンライン懸賞だよ:))))

СанСаныч Фоменко 2022.10.16 07:29 #27880

Evgeni Gavrilovi #:

ランダムフォレストから予測能力と特徴の重要性を決定する方法とのR2値は？

何度も説明しています。

トレーディングにおける機械学習：理論、モデル、実践、アルゴトレーディング - ページ 2788