トレーディングにおける機械学習:理論、モデル、実践、アルゴトレーディング - ページ 2798

 
mytarmailS #:
あなたは従うが、あなたは何も理解していない...()

例えばどんな問題を解決するにも、その問題を解決するための基準が必要だが、それも間違いである)))


今、私はあなたが投稿を完了したことに気づいた。だから、私は自分自身に答えることを許可します。

あなたはエラーばかりを探している。MOドリーマーの問題はそこにある。具体的な予想結果ではなく、間違いを探している。どんなに小さな間違いでも100%間違いなのです。)金融市場においては、まず第一に。

間違い続けてください))これ以上、回答も口出しもしません。

 
Uladzimir Izerski #:

投稿が更新されたことに気づいたよ。

しかも、あなたの質問にもずいぶん前に答えています))


Uladzimir Izerski#

あなたはエラーばかりを探している。これはMOの夢想家の問題だ。具体的な予想結果ではなく、エラーを探している。

あなたは "エラー "の概念を非常に、非常に狭く見ている。

例えば、ある指標を予測する際のエラー、

別のケースでは、例えば誤差はバランスシート曲線かもしれないし、ある理想的な資本からの乖離かもしれない、

あるいは資本増加のダイナミクスである、

あるいは、例えばアルゴリズム・エラーの数(アルゴリズム・エラーの数もエラーである)。

あるいは、アルゴリズム・ロボットを目で見て、(コードやボタンで)-私はこれが好きだが、これはするな、これもエラーと考えられる......と指示することもできる。

そして、何百万通りものバリエーションがあり、何をするにしても、何らかの基準(良い/悪い)がある。それも間違いです。

あなたがそれに気づかないこと、認めないこと、それはあなたのものでしかない...。


間違いとは、良い悪いの基準を数字で表したものだ。

 

ウラジミールはまたもや幼稚な探究心で、自分にとって素晴らしい意味を理解 し、このスレッドの参加者、すなわちそれらの意味を貶めようとしている:

方程式の再構築「ブラックボックス

「ブラックボックス 」とは モデリング問題の最も難しく、最も魅惑的定式化で ある観測された挙動を再現したり、さらなる進化の予測を与えたり することができるモデルは観測された系列のみからつまり実質的に無から得られるべきであるという 事実に、その面白 さがある。成功の可能性は 小さい が、運が 良ければ、良い モデルは、対象を特徴付け、その機能のメカニズム 」を 理解するための非常に貴重な ツールとなる先験的な情報がないため、モデル方程式の普遍的な構造例えば人工ニューラルネットワーク放射基底 関数代数多項式などを使わざるを 得ない


ZY、そして1年以上前、彼は自分自身がニューラルネットワークを使用しており、すべてのTSはそれに基づいていると書いた...そのようなピエロのようなアブズデス

#870

#1826

我らが親愛なるウラジミールはニューラルネットワークを2ヶ月で習得した。

そうであってほしかったが、その2年前にはすでにNSからのシグナルを受けていた。

#5758

つまり、このタイプは酔っぱらって戯言を言い、嘘、嘘、嘘......。そして自分自身と彼の狂った指標の信用を落とすだけだ。

 

これは、窓の偏りを通してモデルのかなり良いテストであることがわかる。ゼロではなく、より良い統計(miのような)で多くのラグを与えるならば、そのモデルは無作為化に基づいている。

そうでなければ、一度に多くの有益なTSが存在することはありえない。

私はSanychの指示に従ってstdを通して選択しようとしました。しかし、各特徴を個別にではなく、セットで選択した。

私は再び別々に特性を見てみましょう

 
>>> results = []
>>> for i in range(25):
...     pr = get_prices()
...     pr = labeling_shift(pr,shift=i)
...     mi = mutual_info_classif(pr[pr.columns[1:-1]], pr[pr.columns[-1]])
...     results.append([mi.mean(), mi.std(), mi, i])
...     print(i)
... 
results.sort()
results[-1]    
pd.DataFrame(results)

ベストスコアはラグ9 だが、標準偏差は 0の方が良い:

15  0.002473  0.002008  [0.0, 0.0, 0.0, 7.738132773948969 e-05, 0.00428...   0
16  0.002482  0.002536  [0.0027194272625081783, 0.004082692968791601, ...   4
17  0.002544  0.002137  [0.00016451381901605444, 0.003159073557252867,...   2
18  0.002678  0.002174  [0.0, 0.0015686230398428425, 0.000974887322880...   8
19  0.002749  0.001978  [0.0, 0.001425018820565338, 0.0, 0.0, 0.002788...   1
20  0.002793  0.002378  [0.00535509344523355, 0.0, 0.00400320235670181...  12
21  0.002897  0.002330  [0.00406257691063705, 0.001421806087245736, 0....  13
22  0.003113  0.002501  [0.0, 0.0, 0.004822852461999094, 3.66068989796...  10
23  0.003195  0.002560  [0.0024128008240758003, 0.0, 0.001845732619932...  11
24  0.003255  0.002406  [0.0, 0.0, 0.0034648745240082324, 0.0063568287...   9

岡部は両方のバックテストを見て、9番目:

0-я:

miの標準偏差が初期値より小さいため、論理的には0番目の方がバックテストでの値の広がりが小さくなります。しかし、それはOOSの結果には影響しないし、miの値が高いことも影響しない(相互情報)。

では、多数の特徴(ここでは14の特徴)を再トレーニングするとしましょう。

MA_PERIODS = [i for i in range(10, 150, 10)]

各特徴の統計量を見て、9ラグのモデルに最適なものだけを選びましょう:

>>> results[24]
[0.003255328338368026, 0.002405621052220332, array([0.        , 0.        , 0.00346487, 0.00635683, 0.00490859,
       0.        , 0.00305732, 0.00268664, 0.00877952, 0.00305562,
       0.00138638, 0.00320064, 0.00415751, 0.00452067]), 9]
>>> 

いくつかの特徴は完全にヌル、つまり値がありません。0.004より大きいものだけを選び、それらでトレーニングしよう:

>>> per = results[24][2]
>>> np.array(per) > 0.004
array([False, False, False,  True,  True, False, False, False,  True,
       False, False, False,  True,  True])
>>> 

MA_PERIODS = [40, 50, 90, 130, 140] - отобранные фичи

トレーニングとテスト:

ムンデ。

結論:トレーニングサンプルで情報相関が高くても、テストサンプルのモデル改善には役立たない。

Bustingのような最新のモデルで事前に特徴を選択しても、ほとんど何も得られないというのがプロの意見です。

 
Maxim Dmitrievsky #:

これは、窓の偏りを通してモデルをテストするのに非常に適していることがわかる。もし、より良い統計値(miのような)で、ゼロではなく、多くのラグを生成するのであれば、そのモデルはランダム性に基づいていることになります。

そうでなければ、一度にこれほど多くの有益なTCが存在するはずがない。

私はSanychの指示に従ってstdを通して選択しようとした。しかし、私は標識のセットを選択したのであって、1つ1つを別々に選択したわけではない。

もう一度、特徴を別々に見てみます。

形質と対象形質との相関の数値推定のstd?

まず相関のあるものを取り除く必要があります。なぜか私の形質の最適相関は75%です。

次に、最大スコアを持つ形質を5~10個選びます。

上記の私の投稿のように絵を描いて、相関が成績を分けていることを確認する。

予測誤差は30%以下でなければならない。そうでなければ、その形質は捨てなければならない。

 
СанСаныч Фоменко #:

stdとは、形質と対象との関係を数値で推定したものですか?

まず相関のあるものを取り除く必要があります。私の形質では、なぜか最適な相関は75%です。

次に、最大スコアを持つ属性を5~10個選びます。

上記の私の投稿のように、相関がクラスごとに分かれていることを確認するために絵を描く。

予測誤差は30%以下でなければならない。もしそうでなければ、その特徴は捨てなければならない。

エントロピーを見ると、相関は無視できるほど小さい(0.003)ことがわかりますが、1に近いはずです。

しかし、私はその差を推定したので、それは問題ではありません。それでもわずかな改善はあるはずです。しかし、私はその差を推定したのだから、問題はない。

一般的には、すべてが良いものであっても(セットには良いものがある)、他の機能を削除する必要はありません。

規格外の窓のような他のもののための単なるビレットなのだから
 
Maxim Dmitrievsky #:

エントロピーから明らかなように、相関はごくわずか(0.003)であるが、1に近づくはずである。

しかし、私はその差を見積もったので、それは問題ではない。それでもわずかな改善はあるはずだ。しかし、私はその差を推定したのだから、問題ではない。

一般的に、たとえすべてが良いものであったとしても(セットには良いものがある)、残りのチップは取り除く必要はありません。

点数自体は相対的なものだ。

写真を繰り返します。

悪い、絶望的


もっといいのは、それが何個かあれば、予測誤差は30%くらいになる。



そして、ゴミは取り除かれるべきです。なぜなら、トレーニングセットでは、チップはゴミに有利に働く可能性があり、最適につながる値を見つける方が簡単だからです。

 
Maxim Dmitrievsky #:

現代のバスティング・タイプのモデルの特徴を事前に選択しても、ほとんど何も得られない。

バスティングはすべての列とすべての例から最良の分割を探す。すなわち、最良のチップを使用する。
Schuch.forestは、各ツリーに対してチップの半分と例の半分(割合は設定可能)を取り、20~100のツリーから平均を求める。200個のチップのうち、情報量の多いチップが5個しかない場合、一部の木には情報量の少ないチップが含まれないことになる(1つの木に平均2.5個の情報量の多いチップが含まれる)。そして、情報量の多い木の一部をノイズの多い木で平均することになる。
ノイズツリーは、(古典的な例やMOタスクのように)情報量の多いチップがたくさんある場合にうまく機能する。

バスティングは最も情報量の多いフィッシュを見つけ、使用する。つまり、boustingのロジックに従えば、boustingは自ら最適なフィッシュを選択することになる。しかし、バスティングにも問題がある。

 
elibrarius #:

バスティングはすべてのチップをチェックするため、最も情報量の多いチップを見つけて使用する。つまり、バスティングの論理に従えば、最高のチップを選択することになる。しかし、バスティングにも問題がある。

ブースティングは全能ではないのだ。

理由: