引用における依存性統計（情報理論、相関などの特徴選択法）

Alexey Burnakov 2011.09.05 14:02 #101

HideYourRichess:

情報エントロピーという概念は、シャノンによって独立したシンボルに対して導入されたものである。信じられないなら、学問的な辞書を引いてみてください。この件に関しては、もう反論はしません。アルファベットが分からない、記号の頻度が分からない、記号の独立性も分からないので、市場の情報エントロピーを計算することはできない。

次の問題である条件付きエントロピーは、あくまでも元のアルファベットの間に依存関係がある場合の話です。このことは、議論されている情報エントロピーと同じではない。

アーカイバーの例からどのような結論を導き出すのか理解できませんが、これだけは言っておきます。アーカイバーの仕事は、条件付エントロピーを情報付エントロピーに変換することである。つまり、完全に定義された限定アルファベットを作り、そこから得られる文字列は、可能な限り独立したものとすることだ。文学的な文章の秩序構造を文字レベルで混ぜてしまうと、当然その文字配列は崩れ、圧縮率が悪くなってしまいます。完全にランダムな文字の集合は、もはや圧縮できない程度に。

冒頭の質問は、逆説的だと思います。相互情報量の計算の結果、0以外の値が得られたら、依存関係のあるアルファベットを撮影したことになる。独立した値を研究するのであれば、相互情報量は常に0（またはその値に非常に近い）になる。

Hide 2011.09.05 14:09 #102

相互エントロピーは、従来のエントロピーとも、情報エントロピーとも違う。

Sceptic Philozoff 2011.09.05 14:17 #103

TheXpert: 数字がアルファベットでないのは？

アルファベット - ただし、数体系ではありません。

アルファベットの選択

よし、そうしよう。私はこのようにアルファベットを構成しています。

全履歴（EURUSD、H1、約10年）のリターンの無条件分布を求めます。ヒストグラムは多かれ少なかれ知られています。ガウシアンベルに似た曲線であるが、ゼロ付近とテール部分に差がある。ここでは描きません。

そして、分布をいくつの分位数に分けるかを選択します。例えば、30歳までに。これがアルファベットになります。これです。

0: [-10000.000; -305.000),2166
1: [-305.000; -210.000),2167
2: [-210.000; -161.000),2166
3: [-161.000; -130.000),2166
4: [-130.000; -110.000),2166
5: [-110.000; -90.000),2167
6: [-90.000; -80.000), 2166
7: [-80.000; -80.000), 2166 8: [-80.000; -60.000),2166
8: [-60.000; -50.000),2166
9: [-50.000; -40.000),2167
10: [-40.000; -30.000),2166
11: [-30.000; -20.000),2166
12: [-20.000; -10.000),2166
13: [-10.000; -10.000),2167
14: [-10.000; -0.000.000]です。000),2166
15: [0.000; 10.000),2166
16: [10.000; 20.000),2167
17: [20.000; 24.000),2166
18: [24.000; 30.000),2166
19: [30.000; 40.000),2166
20: [40.000; 50.000),2167
21: [50.000; 62.000),2166
22: [62.000; 80.000),2166
23: [80.000; 90.000),2166
24: [90.000; 110.000),2167
25: [110.000; 136.000),2166
26: [136.000; 170.000),2166
27: [170.000; 211.000),2166
28: [211.000; 300.000),2167
29: [300.000; 10000.000),2167

説明：まず、分位数（0から29まで）があります。そして、分位の境界を5桁の pipsで特徴づける半値幅が登場します。例えば、分位数22は、62から80pipsまでのプラスのリターンに対応します。そして最後の数字は、その分位内に入る値の数である（分位への分解の正しさを制御するため）。

そうですね、現実のリターンは3000ニューポイントくらいまでなので、大きなリターンの場合はあまりきれいではありませんね。まあ、太った尻尾だから仕方ないか...。

このアルファベットは、特にカイ二乗の基準を計算するときに便利でした。独立性からの逸脱が非常に深刻な場合でも、共同打撃の最小頻度が5を下回らないので便利だった（これはカイ二乗の正しさの条件である）。アルファベットの選び方を変えたほうがいいのかもしれませんね。

そして一般的に、例えば分位数が50の場合、一番外側の分位数の内縁は（それまでの300点ではなく）新たに380点程度に押し戻される。これは良くなったが、まだ素晴らしいとは言えない。

Dependency statistics in quotes Any questions from newcomers Lot size, contract size,

Igor Makanu 2011.09.05 14:21 #104

Mathemat:

そして、分布をいくつの分位数に分けるかを選択します。仮に30とする。これがアルファベットになります。そういうことなんです。

もしよろしければ、アルファベットを使ったデータ解析の方法を教えていただけませんか？現在、同じような問題で悩んでいて、今のところMatlabでNSを使って解析しています。

NSとは別にアルファベットで表示されたデータを分析する方法はありますか？

Роман 2011.09.05 14:26 #105

Mathemat:

かなり現実的な 話です。特に制限は感じていませんが、MQL4で和算や対数を行うことは可能です。セルゲイが 何をしたかは知らない。しかし、他の資料で知る限り、計算で一番難しいのはガンマ関数の計算でした。TIは論外だった。

Y.Sultonovの記事「市場価格予測のためのユニバーサル回帰モデル」に従って、この指標を作成しました。

同じような構造が使われているのでしょうか？それとも違う？

Alexey Burnakov 2011.09.05 14:39 #106

HideYourRichess:
相互エントロピーは、従来のエントロピーとも、情報エントロピーとも違う。

質問から遠ざかっていますね。システムがランダムな値から独立であることを要求する場合、相互情報量統計を適用する目的は何でしょうか？その場合、相互情報量はゼロになる。あちこちに書かれています。

また、TCにエントロピーの概念を導入したことは、ソ連派らしいと言えるでしょう。アメリカ人は、次のような古典的な相互情報量の計算式を与えている。

つまり、ここには概念としてのエントロピーは存在しないのです。

Sceptic Philozoff 2011.09.05 14:58 #107

HideYourRichess: シャノンは、独立したシンボルに対する情報エントロピーの概念を導入した。信じられないなら、学問的な辞書を引いてみてください。

情報エントロピーに関する記事(Wiki)を発見。そこから引用1。

エントロピーとは、統計的に独立したメッセージを生成するソースのエレメンタリーメッセージあたりの情報量のことである。

それはエントロピー、規則的なエントロピーです。それがあなたの言う定義なのでしょうか？

そうですね、アルファベットの文字が統計的に独立していて、冗長性や依存性がないことというのは納得できますね。これはおおよそ、アーカイバーが、テキストを作るのに使われたアルファベットとは明らかに異なるアルファベットを作っていることになります。

しかし、それは数えるほどしかないのですカウントしているのは次です。

さらに、同じところからすでに引用2が出されていますね。

条件付きエントロピー

アルファベットの記号列が独立していない場合（例えば、フランス語の「q」の後には必ず「u」が来るし、ソビエトの新聞では「前衛」という言葉の後には必ず「生産」「労働」が来る）、そのような記号列が持つ情報量（ひいてはエントロピー）は明らかに少なくなってしまうのです。このような事実を説明するために、条件付きエントロピーが使われる。

これは違いますね、すでに書かれていますね。

HideYourRichess ：次の質問、条件付きエントロピーは、まさに元のアルファベットの文字間に依存性がある場合です。このことは、問題の情報エントロピーと同じではない。

トピックスターターの講演は（私もですが）、情報エントロピーではなく、なんと、 相互情報（またWikiか）!!!!

相互情報量 とは、2つの確率変数の統計関数で、一方の確率変数に含まれる情報量を他方に対して相対的に記述するものである。

相互情報量は、2つの確率変数のエントロピーと条件付きエントロピーによって、次のように定義されます[次式で I(X,Y) が得られます。

では、最後の主張です。

HideYourRichess ：アーカイバーの仕事は、条件付エントロピーを情報エントロピーに変換することです。つまり、完全に定義された境界のあるアルファベットを作り、そこから得られる文字列は、可能な限り独立したものとすることだ。文学的な文章の秩序構造を文字レベルで混ぜてしまうと、当然その文字配列は崩れ、圧縮率が悪くなってしまいます。完全にランダムな文字の集合は、もはや圧縮できない程度に。それがどうした？バザーと何の関係があるんだ？

いわゆる情報エントロピーではなく、相互情報量の問題だという議論です。それだけです。フルストップ議論は終わりです。

Sceptic Philozoff 2011.09.05 15:17 #108

IgorM:

もしよろしければ、アルファベットを使ったデータ解析の方法を教えていただけませんか？現在、同じような問題で悩んでいて、今のところMatlabでNSを使って解析しています。

アルファベットで表現されたデータを分析する方法は、NS以外にあるのでしょうか？

正直なところ、ご質問の意味がよくわかりません。アルファベットの各文字に序数を割り当てて、その数を通常通り分析するだけです。もしかしたら、具体的に何かあるのかもしれませんが、私は気づいていません。

ローマン： スルトノフの論文「市場価格予測のための万能回帰モデル」（コドベースのここ）に従って、人々がインジケータを書きました。

同じような構文が使われているのでしょうか？それとも違うのか？

そこには、テルテル坊主・統計学や情報理論のヒントすらないのですYusufさんが このスレッドに投稿されましたが、話題とは全く関係ないため、余計なお世話になってしまったようです。とはいえ...そう、対数はあったような気がする...。

Роман 2011.09.05 15:38 #109

Mathemat:

そこには、テルテル坊主・統計学や情報理論のヒントすらないのですとはいえ...そうそう、対数もありましたね、たしか...。

こことここの 曲線やスクイグルが、私にはよく似ていると思うのですが......。ガンマ分布の存在を含め、解答へのアプローチは非常に似て いるはずです。

そんなことが、少なくともCONSTANTLYには 可能なのだろうか。

Sceptic Philozoff 2011.09.05 15:54 #110

重要なのは、ガンマ分布関数が、決定論的な運動破綻を解決する際に、あたかも無から生じるかのように記事に現れていることであり、統計的あるいは実験的な解析の結果ではないことである。ローマン 今のところ、解決に向けたアプローチに共通点は見当たりませんね。

しかし、よく見ると、まだ類似点があります。例えば、ユセフの 記事にもある「ディストリビューション」という言葉です :)

引用における依存性統計（情報理論、相関などの特徴選択法） - ページ 11