引用における依存性統計（情報理論、相関などの特徴選択法）

Alexey Burnakov 2011.09.10 08:39 #191

ありがとうございました。ダウンロードし、見てみました。

そこで、確率密度関数が一様になるように、分位数で分割する方式で離散化する。500のラグで相互情報を測定し、グラフを投稿する。

Alexey Burnakov 2011.09.10 08:56 #192

そして、手始めに。

生データの確率密度関数の種類です。

正規分布に対応する。

次に、ラグ50までのあなたの値の元のシリーズ上の自己相関図。

いくつかのラグで相関が抜け落ちているものの、一般に相関は有意ではないことがわかる。

最後に、「ボラティリティ」の密度だけを見るために、皆さんの系列の2乗の値を取って、自己相関図をプロットしてみました。

私は、ボラティリティがその近い過去の値に依存することに注意しています。株価指数の日足と似たようなものばかりで、EURUSDの日足と少し似ています（後日、計算方法を掲載します）。

I(X,Y)の計算結果を待ちます。

Sceptic Philozoff 2011.09.10 12:01 #193

alexeymosc: I(X,Y)の計算結果待ち。

いいね、待ってるよ、アレクセイ。

I(X,Y)の結果が出たら、私のカイ二乗計算スクリプトにデータをロードすることができます。役に立つものが出てくるとは思っていない（これは私のアプリオリな思い込み）。

Alexey Burnakov 2011.09.10 14:32 #194

遅くなったことをお詫びします。インターネットがダウンしている。

まずは方法論的な部分から。系列を5つの値（分位数）に離散化しました。なぜ？ターゲットと従属変数の交差頻度を計算すると25の選択肢があり、1万を25で割ると400となります。これは、統計的に有意なサンプルである。3から7までできる。私見では、その中間をとった。

こうして平均的な受信者情報（ターゲット変数）が算出される。

どのようなラグであっても、平均的な情報を計算すれば、同じような値が得られることに注意したい（もちろん、独立変数を異なる長さのアルファベットで離散化した場合は別である）。

対象変数と従属変数のクロスエントロピーの算出である。

元の時系列に対する相互情報量のヒストグラム :

全体から見て目立つのは、最初のラグだけですね。それ以外のことは何とも言えません。

また、次のようなことも行いました。データは正規分布なので、Echelで平均と標準偏差が同じ乱数を1万個生成しました。500ラグ分の相互情報をカウントしてみました。これが出てきたのです。

最初のラグがあまり参考にならなくなっているのが目で見てわかると思います。

その結果得られた相互情報量のサンプルに関する残りの指標を削除して比較する必要があります。だから

原系列500変数の相互情報量の総和：0.62。乱数系列の場合：0.62。つまり、サンプルの平均値も等しくなる。元の系列がランダムな系列とあまり変わらない（ボラティリティ依存性を考慮しても）という仮定に最初のチェックマークを入れる。

2つの実験標本間の差の有意性がないという仮説を確かめるために、ノンパラメトリック検定を実施してみましょう。

Kolmogorov-Smirnov 検定（変数の順序を考慮せず、確率密度関数が先験的に不明な標本に対して）： 0.05 の有意水準で p > 0.1.サンプル間の差は有意であるという仮説を棄却する。2つ目のチェックマークを付ける。

その結果、相互情報の統計量を用いて示されたように、初期系列はランダム系列と有意な差がないことがわかった。

この場合、ボラティリティの依存性は、ヒストグラムの見え方に強い影響を与えなかった。ただし、DJIの場合はサンプリングの仕方が違ったことを忘れてはいけません。

Mikhail Dovbakh 2011.09.10 14:35 #195

Mathemat:

よろしい、待つとしよう、アレクセイ。

I(X,Y)の結果が出たら、私のカイ二乗計算スクリプトにデータを読み込ませることができます。役に立つものが出てくるとは思っていない（私のアプリオリな思い込みです）。

私も、ベイズ的なもっともらしさをアプリオリに黙殺する...。

伏せ字をご覧ください。

:)

ノイズ - 原画のまま

そして、あなたのアレクセイ・リサーチの方が賢明です。

でも、ポアソンは私の友達です。

Alexey Burnakov 2011.09.10 14:41 #196

Mann-Whitney検定の結果、p値は0.46となった。また、サンプル間の差は有意であるという仮説も棄却される。

Alexey Burnakov 2011.09.10 14:43 #197

みんな、これからEURUSDの日記も同じような感じで分析していくよ。見てみよう！

Mikhail Dovbakh 2011.09.10 14:44 #198

ダハティーさん、ありがとうございました。

あなたは正しい人です!

よろしくお願いします。

Sceptic Philozoff 2011.09.10 15:11 #199

alexeymosc:
みんな、これからEURUSDの日記も同じような感じで分析していくよ。見てみよう！

代わりにウォッチブックを試してみてください。日足チャートには相互の情報がほとんどない。

GARCH(1,1)は、ある種のボラティリティのクラスタリングを示しており、それはer...に似ている。heteroscedasticityがあるが、予想通り、何の情報も得られない。桁数、つまりモデルの引数を増やした方がいいのでは？

Alexey Burnakov 2011.09.10 15:17 #200

A-riサーバーのデータ、EURUSD D1。隣接するClose価格でシリーズインクリメントを取りました。5つの分位数で離散化。

相互情報を計算した結果、どのような結果が得られたか見てみましょう。

直近の100〜200のラグは、他よりも多くの情報を持っていることがわかる。

ここで、増分をランダムに混ぜて、ランダムな系列を得よう。VIを計算してみよう。

すごい。すでに、直近のラグに関する情報は見ることができない。

結果を視覚的に比較してみましょう。

近いラグでは、明らかにオリジナル（青）の系列が優勢であることがわかる。

元系列とランダム系列のI値に窓22（月）で移動平均をとってみました。

明らかに、オリジナル（青）の系列は、200カウント程度までのニアラグにおいて、ランダムとは異なる情報記憶を持っている（この情報の性質についての議論は、デザートに譲ろう）。

ノンパラメトリック検定は何を言っているのか？

Kolmogorov-Smirnov検定。

p < 0,001

Mann-Whitney検定。

p = 0,0000.

サンプル間の差異が有意でないという仮説を棄却する。あるいは、EURUSDのD1リターンシリーズは、平均やスプレッドといった点で同様の特性を持つランダムなデータとは大きく異なるものである。

うっちょっと一服してきます。

引用における依存性統計（情報理論、相関などの特徴選択法） - ページ 20