인용 부호의 종속성 통계(정보 이론, 상관 관계 및 기타 기능 선택 방법)

Alexey Burnakov 2011.09.10 08:39 #191

고맙습니다! 다운로드, 보았다.

따라서 나는 분위수 분할 방식에 따라 이산화할 것이므로 확률 밀도 함수 가 균일할 것입니다. 500 시차에 대한 상호 정보를 측정하고 그래프를 게시합니다.

Alexey Burnakov 2011.09.10 08:56 #192

그리고 우선:

원본 데이터에 대한 확률 밀도 함수 형식:

정규 분포에 해당합니다.

다음으로 최대 시차 50까지 값의 원래 시리즈에 대한 자기 상관도:

일반적으로 상관관계는 유의하지 않지만 일부 시차에서는 약간의 종속성이 나타나지 않음을 알 수 있습니다.

그리고 마지막으로 시리즈 값을 제곱하여 "변동성" 밀도만 보기 위해 자기상관도를 작성했습니다.

변동성은 가까운 과거 값에 따라 달라집니다. 이 모든 것은 주가 지수의 일일 시세와 유사하고 일일 EURUSD 시세와 약간 비슷합니다(나중에 이에 대한 계산을 게시하겠습니다).

계산 I(X, Y)의 결과를 기다리고 있습니다.

트레이딩의 머신러닝: 이론, 모델, 반전 확률 계산 Sultonov의 회귀 모델(RMS) -

Sceptic Philozoff 2011.09.10 12:01 #193

alexeymosc : I(X,Y) 계산 결과를 기다리는 중입니다.

좋아요, 기다리고 있습니다, Alexey .

I(X,Y) 결과가 나온 후 카이제곱 스크립트에 데이터를 입력할 수 있습니다. 뭔가 합리적인 것이 나온다는 것이 믿기지 않는 일(이것은 나의 선험적 가정이다).

Alexey Burnakov 2011.09.10 14:32 #194

지연에 대해 사과드립니다. 인터넷이 다운되었습니다.

방법론적인 부분부터 시작하겠습니다. 시리즈를 5개의 값(분위수)으로 이산화했습니다. 왜요? 목표변수와 종속변수의 교차빈도를 계산할 때 25개의 옵션이 나오는데 10,000을 25로 나누면 400이 나온다. 통계적으로 유의미한 표본이다. 3에서 7까지 할 수 있습니다. 제 생각에는 중간을 택했습니다.

이것은 평균 수신기 정보(목표 변수)가 계산되는 방법입니다.

모든 지연에 대해 평균 정보를 계산하면 유사한 값이 제공됩니다(물론 다른 길이의 알파벳 내에서 독립 변수를 이산화하기 시작하지 않는 한).

다음은 대상 및 종속 변수에 대한 교차 엔트로피 계산입니다.

초기 시계열에 대한 상호 정보 값의 히스토그램:

전체 그림에서 눈에 띄는 첫 번째 지연만 확인할 수 있습니다. 나머지는 뭐라 말씀드리기 어렵습니다.

나는 또한 다음을 수행했다. 데이터가 정상이었으므로 Echel에서 평균과 표준편차가 동일한 10,000개의 난수를 생성했습니다. 500 시차에 대한 상호 정보를 계산했습니다. 다음은 일어난 일입니다.

첫 번째 지연이 더 이상 유익하지 않다는 것을 눈으로 볼 수 있습니다.

획득한 상호 정보 값 샘플을 기반으로 하는 나머지 메트릭을 제거하고 비교해야 합니다. 그래서:

원본 시리즈의 500개 변수에 대한 상호 정보의 합: 0.62. 무작위의 경우: 0.62. 즉, 샘플에 대한 평균 값이 동일하다는 것을 의미합니다. 우리는 원본 시리즈가 무작위 시리즈와 거의 다르지 않다는 가정에서 첫 번째 눈금을 넣었습니다(변동성에 대한 의존성을 고려하더라도).

우리는 두 실험 표본 간의 차이가 중요하지 않다는 가설을 확인하기 위해 비모수 검정을 수행할 것입니다.

Kolmogorov-Smirnov 테스트(샘플의 경우, 변수의 순서를 고려하지 않고 선험적으로 알려지지 않은 확률 밀도 함수 사용): 0.05의 유의 수준에서 p > 0.1. 우리는 표본 간의 차이의 중요성에 대한 가설을 기각합니다. 두 번째 체크 표시를 합니다.

결과적으로 원래 시리즈는 상호 정보 통계를 사용하여 표시된 임의의 시리즈와 약간 다릅니다.

동시에 변동성의 종속성은 히스토그램의 모양에 큰 영향을 미치지 않았습니다. 그러나 DJI의 경우 다르게 샘플링했음을 기억해야 합니다.

베이지안 회귀 - 이 거시경제 지표에 기반한 시장 거래량, 변동성 및 허스트

Mikhail Dovbakh 2011.09.10 14:35 #195

Mathemat :

좋아요, 기다리고 있습니다, Alexey .

I(X,Y) 결과가 나온 후 카이제곱 스크립트에 데이터를 입력할 수 있습니다. 뭔가 합리적인 것이 나온다는 것이 믿기지 않는 일(이것은 나의 선험적 가정이다).

또한 베이지안 타당성을 사전에 억제합니다 ...

우리는 입술을 봅니다.

:)

소음 - 처음부터 보았듯이.

그리고 당신의 Alexei 연구는 더 현명합니다.

하지만 푸아송은 내 친구야.

Alexey Burnakov 2011.09.10 14:41 #196

Mann-Whitney 검정은 0.46의 p 값을 제공했습니다. 우리는 또한 표본 간의 차이의 중요성에 대한 가설을 기각합니다.

Alexey Burnakov 2011.09.10 14:43 #197

여러분, 이제 같은 맥락에서 매일 EURUSD를 분석하겠습니다. 우리는 볼 것이다!

Mikhail Dovbakh 2011.09.10 14:44 #198

고마워 Doujische!

당신이 올바른지!

만나서 반갑습니다.

Sceptic Philozoff 2011.09.10 15:11 #199

alexeymosc :
여러분, 이제 같은 맥락에서 매일 EURUSD를 분석하겠습니다. 우리는 볼 것이다!

더 나은 시계를 사용해 보세요. 일기에는 상호 정보가 거의 없습니다.

PS 예비 요약: GARCH(1,1)는 어... 이분산성과 유사한 약간의 변동성 클러스터링을 보여주지만 예상대로 정보를 전달하지 않습니다. 주문을 늘려야 할 수도 있습니다. 모델 주장?

Alexey Burnakov 2011.09.10 15:17 #200

A-ri 서버의 데이터 EURUSD D1. 나는 인접한 종가에서 시리즈 증분을 취했습니다. 5분위수로 이산화됩니다.

상호 정보 계산이 무엇을 제공했는지 봅시다.

다음 100-200 시차는 나머지보다 더 많은 정보를 전달한다는 것을 알 수 있습니다.

이제 증분을 무작위로 혼합해 보겠습니다. 무작위 시리즈를 얻습니다. VI를 계산해 보겠습니다.

우와. 다음 지연에 대한 정보를 더 이상 볼 수 없습니다.

결과를 시각적으로 비교해 보겠습니다.

가까운 로그에서 원래(파란색) 행에 대한 우세함을 명확하게 볼 수 있습니다.

나는 원본 및 무작위 시리즈에 대해 I 값에 대해 22(월)의 창으로 이동 평균을 취했습니다.

원래 시리즈(파란색)에는 최대 약 200개 샘플에 대한 근접 지연에 대해 실제로 비임의 정보 메모리(디저트에 대한 이 정보의 특성에 대한 논의는 남겨두자)가 있음이 분명합니다.

비모수 테스트는 무엇을 말합니까?

Kolmogorov-Smirnov 테스트:

p<0.001

만-휘트니 테스트:

p = 0.0000.

우리는 표본 사이에 유의미한 차이가 없다는 가설을 기각합니다. 또는 EURUSD D1 수익률 시리즈는 평균 및 산포 측면에서 유사한 특성을 가진 무작위 데이터와 매우 다릅니다.

휴. 나는 담배를 피울거야.

묻다! 대회 Dependency statistics in quotes

인용 부호의 종속성 통계(정보 이론, 상관 관계 및 기타 기능 선택 방법) - 페이지 20