トレーディングにおける機械学習:理論、モデル、実践、アルゴトレーディング - ページ 2792

 
Maxim Dmitrievsky #:
私は1年以上前に同じことをクラスタリングで行い、その後、写真のように平均レベルを決定し、そこから注文を出した。上昇、下降、平均回帰の3つのクラスターに分けた。 。
面白いのは、どんな特別な手段を使っても、ランダムから良いものは得られないということだ。

価格からは何も得られない。他には何もない。
FAだけが何かを与えてくれるらしい。そして、それはおそらく手動で行う方が良いでしょう。しかし、そこでもあなたは間違うことができる、フェイクニュースは積極的に働いている。

 
Maxim Dmitrievsky #:

属性の情報性をチェックするために、属性を後ろにずらしてみた。つまり、属性の履歴の最後の値ではなく、過去にインデントした値を取るのだ。50個のインデントを取った。(ゼロから-50バーまで)

右の列のインデントは小節数で、左の列は相互情報量である。インデントはチップとラベルの相互 情報の 昇順である。

その結果、直近の価格が常に直近の価格より優れているわけではなく、-11小節ではゼロ小節に比べていくらか上昇していることがわかった:

指標

相互情報 "とはどういう意味ですか?マークに対するフィックの影響は興味深いですか?相互影響は興味深いか?相互情報」はどのように計算されるのですか?

 
СанСаныч Фоменко #:

相互情報」とはどういう意味ですか?タグに対するフィッシュの影響は興味深いですか?相互影響は興味深いですか?相互情報」はどのように計算されるのですか?

あなたの質問に私は困っています。

 
Maxim Dmitrievsky #:

属性の情報性をチェックするために、属性を後ろにずらしてみた。つまり、属性の履歴の最後の値ではなく、過去にインデントした値を取るのだ。50個のインデントを取った。(ゼロから-50バーまで)

右の列のインデントは小節数で、左の列は相互情報量である。インデントはチップとラベルの相互情報の昇順である。

その結果、直近の価格が常に直近の価格より優れているわけではなく、-11小節ではゼロ小節に比べていくらか上昇していることがわかった:

指標

H1フィックス?

0   0.001554  23
1   0.001612  22
2   0.001708  15
3   0.001783  24
日周期のようだ。22-24時間が最も参考になる。だから今日も昨日と同じだろう。
 
Maxim Dmitrievsky #:

質問で私を困らせる

なぜ困惑するのか?

私にとって、ある特徴、チップ、予測因子とラベルの影響力、関連性、予測力は、次のような例で説明できる。

人」というラベルがあるとする。

服装」タグがあり、ズボンとスカートの2つの値を取り、ズボンとスカートの値の数は数百から数千になる。

男性はズボンのみを着用し、女性はスカートのみを着用するとする。このようなフィッシュは、間違いなくラベルを決定する。そのフィッシュはラベルに100%の影響を与え、拘束され、ラベルを予測すると考えることができる。そのような条件が将来も維持されるなら、誤差は変わらず、=-0%となる。

現代社会ではこのようなことはなく、予測誤差が生じるが、その大きさは未知数であり、フィッシュの充填によって変化する可能性がある。

ソフトウェア・パッケージの形で実装された多くのアプローチがあり、私たちの例では、女性はズボンを、男性はスカートを愛用している場合、チップとマークの接続が100%とは異なることを示す。


グラフはこれをよく表している。

無駄な機能の例:


かなり有望なフィッシュの例。交点は予測エラー。前のグラフでは、1つのチップがもう1つのチップに完全に重なっている-予測誤差は50%。


これは1つ目のグラフのチップと2つ目のグラフのチップの差を表しているのだろうか?予測値の差は2.5倍です。しかし、この数字は相対的なものだ。すべての機能がジャンクなのか、いくつか、あるいはすべてが素晴らしいのか?

 
ウィキペディアの引用はしたくないので、グーグルで調べてください。つながりの尺度には、相関関係の場合のように幾何学的な ものと、Miの場合のように情報的なものがある。

なぜ他人の怠惰と戦わなければならないのか理解できない。)

一つの良いアプローチを与えれば、大量のパケットは必要ない。名前だけで十分だ。
 
Maxim Dmitrievsky 幾何学的な ものと、ミの場合のように情報的なものがある。

他人の怠惰と戦う理由がわからない。)

ああ、まあいい。そうしよう。

 
СанСаныч Фоменко #:

ああ、まあ、わかった。そうしてくれ

あなたは何の結果も示さず、多くの優れたパッケージを紹介しているだけでなく、具体的に何を言いたかったのか私に推測させている。具体的なことが議論されているのなら、具体的に、具体的な結果とともに書きなさい。

拡張されたディストリビューションについての平凡な例だ。
情報関係はあなたが命名した。エントロピーとそれを基礎とした相互情報である。500回も書く必要があるのか?エントロピーは1系列、相互情報は2系列について定義されている。
 


2年前、https://www.mql5.com/ru/blogs/post/737458 の重要性を評価する方法を比較した。

モデル自体をサンプルとした。それをN回(特徴量の数に応じて)学習させ、そのうちの1つを取り除いた。
ある特徴を取り除いた後、結果が悪化すればするほど、その特徴の重要度は高くなる。また、取り除いた方が結果が良くなるチップ、つまり明らかにノイズであるチップもあった。

相互情報量や他のパッケージも矛盾している可能性があります。

Сравнение разных методов оценки важности предикторов.
Сравнение разных методов оценки важности предикторов.
  • www.mql5.com
Провел сравнение разных методов оценки важности предикторов. Тесты проводил на данных титаника (36 фичей и 891 строки) при помощи случайного леса из 100 деревьев. Распечатка с результатами ниже. За
 
elibrarius #:


2年前 重要度評価の方法を比較したhttps://www.mql5.com/ru/blogs/post/737458

モデル自体をサンプルとした。N回(特徴量の数だけ)学習させ、そのうちの1つを取り除いた。
ある特徴を取り除いた後に結果が悪化すればするほど、その特徴の重要度は高くなる。また、取り除いた方が結果が良くなるチップ、つまり明らかにノイズであるチップもあった。

特徴量の重要度を決定するバリエーションは、どれも模範的な重要度と似ていなかった。 相互情報量や他のパッケージも矛盾しているのではないかと思う。

第一近似として、確かにあなたの言う通りです。もしあなたがモデルをその性能尺度によって評価するという意味であれば、最終的なスコアを持つべきです。

しかし、すべてに勝るニュアンスがあります。

モデルをパフォーマンスで評価するということは、過去のデータで評価するということです。しかし、そのモデルが将来どのように振る舞うのか?

特徴量そのものを評価するのであれば、ウィンドウを実行して、特徴量のスコアの値の変化について、ひとつひとつ統計を取ることができる。そして、重要度スコアの変動が小さい、できれば10%以下の特徴を使うのが望ましいと思われる。私のフィックセットは、500小節で10%から120%のsd変動がある(記憶による)。これは、スコアが10%のチャンネル内で変動することを意味する。しかし、120%の場合、私たちが見る重要度のスコアの値はフィックである。

理由: