Matstat エコノメトリックス マタン

 
数理統計 学、計量経済学、数理解析の達人の皆さん、ようこそ。
上記の科学分野の様々なトピックについて、建設的な対話を行うためのスレッドです。
十分なコミュニケーションは大歓迎です
 

トレーディング、自動売買システム、トレーディング戦略のテストに関するフォーラム

理論から実践へ。第2部

アレクセイ ニコラエフ, 2021.05.05 22:38

大雑把に言うと、混ぜることで依存性は弱まるが、完全にはなくならない。
実は、確率的依存性は、実用上、この定理の最も重要な部分である。
MITのエンジニア向け講座でyoutubeの理論家講座を見たときは、そればかりでした。


決定係数 r2 のことですか?
それとも確率依存で何か別のもの?

私はリアルタイムでr2を考慮し、変数xのyに対する「影響の強さ」を推定しています
いくつかの通貨シリーズでは驚くことに、それは高い値で非常に一貫して保持されます

r2

 
確率だけでは物足りないのでは?これが確率論なら...。
 
Dmitry Fedoseev:
確率だけでは不十分なのでは?確率論なら...

その際、どの評価基準を意味しているのか、明確にしたかったのです。
従来の相関関係であれば、r2で計算が異なり、それに応じて推定値も異なる。
統計学では、通常、より信頼性の高いものとしてr2を使うことが推奨されています。

r

そして文字通り10分後

アール

 
Roman:

決定係数 r2 のことですか?
それとも、確率依存性とは別の意味なのでしょうか?

確率(ストキャスティック)依存性は、理論やマトスタットにおいて最も重要な概念の1つです。この概念は、まずランダムな事象について(条件付き確率によって)定義され、次に条件付き分布という形でランダムな変数に移される。依存性とは条件付き分布と無条件分布の非整合であり、独立性とはそれらの一致を意味する。依存性の説明としてよく知られているのは- あるC.C.の値を知ることで、他のC.C.の値に関する情報を得ることができる。依存は、その2つの極端な状態、すなわち独立と硬直的な機能的接続の間にある。

一般的な意味としては、我々は常に確率変数の共同分布から出発し、それに基づいてあらゆる種類の特定の依存性メトリックが構築される。これらは、コピュラ、相互エントロピー、相関などである。

相関やR2などは、結合分布が多変量正規分布である場合にのみ合理的に適用されます。実際には、正常性が確実でない場合にも(単純であるために)適用されるが、その場合の有用性は経験によってのみ判断される。

 
Aleksey Nikolayev:

確率(ストキャスティックス)は、理論やマトスタットにおいて最も重要な概念の1つです。この概念は、まずランダムな事象について(条件付き確率によって)定義され、次に条件付き分布という形でランダムな変数に移される。依存性とは条件付き分布と無条件分布の非整合であり、独立性とはそれらの一致を意味する。依存性の説明としてよく知られているのは- あるC.C.の値を知ることで、他のC.C.の値に関する情報を得ることができる。依存は、その2つの極端な状態、すなわち独立と硬直的な機能的接続の間にある。

一般的な意味としては、我々は常に確率変数の共同分布から出発し、それに基づいてあらゆる種類の特定の依存性メトリックが構築される。これらは、コピュラ、相互エントロピー、相関などである。

相関やR2などは、結合分布が多変量正規分布である場合にのみ合理的に適用できる。実際には、正常であることが確実でない場合にも(単純であるために)適用されるが、その場合の有用性は経験によってのみ決定される。

ああ、これは厄介な分布ですね、いつも忘れてしまいます ))
では、すべての統計モデルはこの基準を必要とするのですか?
そして、価格系列には正規性がないので、元の性質を失わずに、なんとか正規分布に近づけるために、
、データを準備するという拷問が始まる。

ここから、これらのデータをどのように準備するかという問題が出てくるのである。
私が理解している標準化、カスム、派生などは、質の高い結果につながらない。
だから、薄くなってきたりするんです。一般的にはどのような方法があるのでしょうか?

ですから、統計モデルのために質的なデータを準備することは、研究すべき大きなテーマであるという結論に、改めて達したのです。
bigdata、MO、neuronkaはどこにでもあるのですが、それらに対応した質的データの 作成方法が、なぜか開示されていないのです。

 

ただ、以下の異常が理解できない、なぜこうなるのか。
MNCより優れているとされる直交モデルを計算してみた。
開始係数を取得しました。
そして、モデルのパラメータ(係数)は、中央値アルゴリズムによって調整されます。
このモデルは初期系列を定性的に記述している。

In Blue - オリジナルシリーズ。
グレーがモデルです。

p1

しかし、履歴セクションの1つでは、上のスクリーンショットのように、さらに正確に収束する発散を観察することができます。

p2


真実が見えない、なぜそうなるのか?また、その要因は何でしょうか?
係数は各ステップで再計算され、(x)を(y)にフィットさせるはずです
フィッティングエラーでしょうか?1つ、2つ、あるいは3つの計算ステップでエラーが発生することがあるのは理解しています。
しかし、エラーがこんなに長く続くのはおかしいと思うのです。もしかして、フィッティングエラーじゃない?他に何かあるのでしょうか?

 
Roman:

ただ、以下の異常が理解できない、なぜこうなるのか。
MNCより優れているとされる直交モデルを計算してみた。
開始係数を取得しました。
そして、モデルのパラメータ(係数)は、中央値アルゴリズムによって調整されます。
このモデルは初期系列を定性的に記述している。

In Blue - オリジナルシリーズ。
グレーがモデルです。



しかし、履歴セクションの1つでは、上のスクリーンショットのように、さらに正確に収束する発散を観察することができます。


真実が見えない、なぜそうなるのか?また、その要因は何でしょうか?
係数は各ステップで再計算され、(x)を(y)にフィットさせるはずです
フィッティングエラーでしょうか?1つ、2つ、あるいは3つの計算ステップでエラーが発生することがあるのは理解しています。
しかし、エラーがこんなに長く続くのはおかしいと思うのです。もしかして、フィッティングエラーじゃない?他に何かあるのでしょうか?

あなたのモデルを実装している(あるいはそれに近い)統計パッケージを探して、あなたのデータでどのような挙動を示すか見てみることを勧めるしかありません。これにより、問題がモデルの不具合なのか、実装のミスなのかを理解することができるかもしれません。

 
Roman:

価格系列には正規性がないので、元の性質を失わずに正規分布に近づけるために、
、データを整えるという拷問的な作業が行われる。

対数増分ではダメなのか?
 
Aleksey Nikolayev:

私が提案できるのは、あなたのモデル(またはそれに似たもの)を実装した統計パッケージを探して、それがあなたのデータでどのように振る舞うかを確認することです。問題がモデルの不具合なのか、実装のミスなのかを理解するのに役立つかもしれません。

アイデアありがとうございます、気が付きませんでした。

 
secret:
インクリメントを対数化する - 十分に良くない?

そうですね、基本的には多かれ少なかれ良い選択肢としてやっていることです。
また、別の似たようなモデルでも、ダイバージェンスのような小さな乖離を観察することがあります。
しかし、上のスクリーンショットのように長引くことはなく、かなり短時間で終了します。どうしてそうなるのか、不思議に思いました。
このモデルを試したところ、さらに乖離が長引いた。

ですから、この乖離がどこから来るのか、私には理解できません。正しいモデルでない、または低品質のソースデータである。
行動の論理が理解できない。
初期データをおおよそ正常に調整するべきか、
、違うモデルをかき集めるべきか、どちらかです。
しかし、このモデルを最初に書いてみてください、チェックして捨てるのはそう簡単ではありません ))

理由: