引用における依存性統計(情報理論、相関などの特徴選択法)

 

こんにちは。

私は、フォーラムのスレッドの一つで Alexey (Mathemat) によって触れられた話題を少し発展させることにしました。

ある金融商品の相場における依存関係を、統計的手法で探ってみた。まず始めに、ダウ工業株価指数、日足データを取り、一連の系列をパーセント単位の系列に変換してみた。

実際の記事はこちらです http://habrahabr.ru/blogs/data_mining/127394/

FXの相場のために続けたいと思います、結果はここに書きます。

 

ブラボー、アレクセイ、まさかあなたが同姓同名の人を驚かせる人だとは思いませんでした(神頼みで許してください、それでも私たちの掲示板の平均的な成熟度の見当はついていますよ)。

相互情報量I()と100分の1ビットの概算まで、私と同じように行っているのが嬉しいですね。確かに、Kolmogorov-Smirnov検定を使ってはいません。しかも、何日もではなく、何時間もかけて(データが多く、結論がより信頼できる)。И...少し変わった方法で増分を離散化しました。

本当にハブラシが急なんだなぁ。彼らはITの専門家ですが、とても頭がいいんです :)(シェールさんの コメントが最高値の+3になっている。)

いくつか質問があるのですが......もう少ししたら、直接書きますね。そして、ここでとりあえず観察してみると、突然誰か詳しい人が出てきて......。

 

アレクセイ、ありがとう...評価していただけてうれしいです。実は、研究結果の概要を読んで、ようやくその気になったんです。

もちろん、研究の具体的な内容は変更される可能性があります。私自身、値の離散化をいかにうまくやるかをずっと考えてきて、四捨五入のような単純な方法に行き着いたのです。

そして、EURUSD H1もすでに分析済みです。アルパリから10年間(64500本)の見積もりを取った。これです。

また、週ごとの遅れを矢印で示したのは、何となく目立つからだと思います。

そして、この系列の自己相関関数はこのような感じです。

全体として、24時間周期の厳密な周期性を見ることができます。これも話し合いで決めることができます。

ちなみに、ここでも刻みを10ポイントに切り上げています(このため、データのエントロピーは約2.5Bitとなりました)。また、1年分の歴史に飛び込む場合など、より多くの変数を突っ込むことはできませんでした。Excelは4GBのRAMを食いつぶして、コンピュータを酷使します。物理的にはできないが、思いは確かにあった。

 

ちなみに、カイ二乗でもほぼ同じ結果が得られ、ラグが大きくなるにつれて、24本ごとにどこかで基準値のスパイクが発生しています。

追伸:ここでのACFは、リターンの数ではなく、過去の相場からゼロバーに配信される、平均化された情報の流れ によって計算されることを強調したいと思います。計算のために特定のゼロバーをとると、そこへの情報の流れが違ってきます。

 
alexeymosc:

自然金融のデータでは(少なくともDJI指数では)、気配値の増分の間に統計的に有意な恣意的関係があると結論づけられる。つまり、このようなデータの系列はランダムとは言えない。理論的には、このような系列の将来値を、例えばニューラルネットワークで予測する余地がある。

関係が見出されたことは、ボラティリティが過去の値に依存するというよく知られた事実によって説明することができる。インクリメントのグラフで肉眼でも確認できます。ボラティリティの依存性を表す理論的なモデルとして、ARCH/GARCHのようなものがあります。

そのため、24時間のサイクルが1日の中で形成されるのです。外為市場の牛は、定常的な周期的挙動を持っています。

それは単純に、金融センターごとの開店・閉店時間に関係する。トレーディング活動が変わる。コインをデータソースにした場合))、コインを投げる回数が増え始め、同時に回数も減っていきます。

さらに、週足でのボリュームのサイクルはありますが、株式市場に比べると顕著ではありません。ただ、1日単位で5のラグがあります ;)

ですから、(私たちが関心を持っている)見積もり変更の方向を予測するための議論ではありません。比較対象は、実際のボラティリティ(ティックボリュームなど)から生成したランダムな系列とする必要があります。すなわち、生成時の分布における分散の依存性。そうでなければ、多くの統計テストは、増分の分散ではなく、ボラティリティの依存性を正確に決定します。

 
alexeymosc:

一般的には、24時間の厳密なサイクルが見られます。これも話し合いで決めることができます。

何を議論するのか?日内循環性というのは、昔から知られていることです。数学はまったくわからないが、相場はわかるという人にまで指摘されている。さらに、特定の取引フロアの取引セッション 内でも循環性がある。それ自体が、あるべき姿の理解に近づかない。そこから少しエッジを抽出することは可能です。
 
Avals:

そうでなければ、多くの統計テストは、増分の補正ではなく、ボラティリティの依存性を正確に決定します。


そして、これは正しいのです。私自身、右往左往してしまい、自分の考えを全てここに書き込まなかっただけです。
 
Mathemat:

ちなみに、カイ二乗でもほぼ同じ結果が得られ、ラグが大きくなるにつれて、24本ごとにどこかで基準値のスパイクが発生しています。

追伸:ここでのACFは、リターンの数ではなく、過去の相場からゼロバーに配信される、平均化された情報の流れ によって計算されることを強調したいと思います。計算のために特定のゼロバーをとると、そこへの情報の流れが違ってきます。


はい、ヒストグラムは相互情報量の値で計算されるもので、周期性の考え方を確認するために出しただけです。
 
HideYourRichess:
何を議論するのか?日内循環性というのは、昔から知られていることです。数学はまったくわからないが、相場はわかるという人にまで指摘されている。さらに、特定の取引フロアの取引セッション内でも循環性がある。それ自体が、あるべき姿の理解に近づかない。そこから少しエッジを抽出することは可能です。

理解できました。日以上の時間枠を取るべき。
 
alexeymosc:

この循環美はどこから来ているのかがわからないのですが?

過去100日間の結果はこちらです。

イニシャルチャート


スタート時のトレンドや、完全に横並びのトレンドがあるようです。ローストビールを使って確認してみましょう。

バカバカしいですが、正規分布である確率は80%なのです

自己相関を見て みよう。



循環性はどこにあるのか?見えていないけど、傾向は見えている。トレンドがある限り、すべての統計的推論は関係ない。Hodrick-Prescott平滑化をしてみましょう。結果


反理論的なラムダにもご注目ください。では、残差を見てみましょう。ここでは、Cycleと呼ばれています。

HPスムージングによる残差は、まあ、ごく普通のものです

トレンドがないのです。もしかしたら周期性があるかもしれない(3 - 13,14)が、これにはもっと本格的な根拠が必要だ。


 

まず、サイクリカリティは日足 チャートではなく、時間足チャートで見ていますちなみに私はそこに書きました。

また、日足チャートの場合、結果は周期的ではありません、おっしゃる通りです。

理由: