Estatísticas de dependência entre aspas (teoria da informação, correlação e outros métodos de seleção de características) - página 20

 

Obrigado! Baixei-o, dei uma olhada.

Portanto, vou discretizar usando um esquema de divisão por quantum, dessa forma a função de densidade de probabilidade será uniforme. Vou medir as informações mútuas para 500 lags, postar um gráfico.

 

E para começar:

O tipo de função de densidade de probabilidade para seus dados brutos:

Corresponde a uma distribuição normal.

Em seguida, um autocorrelograma sobre a série original de seus valores até o intervalo 50:

Você pode ver que em geral as correlações não são significativas, apesar de algumas correlações passarem em alguns momentos de atraso.

Finalmente, tomei os valores de sua série ao quadrado e tratei um autocorrelograma para olhar apenas para a densidade da "volatilidade":

Observo que a volatilidade depende de seus valores passados próximos. É tudo semelhante às cotações diárias dos índices de estoque e um pouco semelhante às cotações diárias do EURUSD (postarei o cálculo para eles mais tarde).

Aguardamos os resultados do cálculo I(X,Y).

 
alexeymosc: Aguardando os resultados do cálculo de I(X,Y).

Ótimo, estamos esperando, Alexey.

Após seus resultados para I(X,Y) eu posso carregar os dados em meu roteiro de cálculo do qui-quadrado. Não acredito que algo útil venha a sair (é minha suposição a priori).

 

Peço desculpas pelo atraso. A internet está em baixo.

Vou começar com a parte metodológica. Eu discretizei a série em 5 valores (quantiles). Por quê? Quando você calcula as freqüências cruzadas para a variável alvo e dependente você obtém 25 escolhas, se dividir 10.000 por 25 você obtém 400. Esta é uma amostra estatisticamente significativa. Você pode fazer de 3 a 7; na minha opinião, eu fiquei no meio-termo.

É assim que é calculada a média das informações do receptor (variável alvo);


Observo que para qualquer atraso, o cálculo da informação média dará um valor semelhante (a menos, é claro, que tenhamos discretizado as variáveis independentes dentro de um alfabeto de comprimento diferente).

Este é o cálculo da centralidade cruzada para as variáveis alvo e dependentes:

Histograma de valores de informação mútua sobre a série temporal original :

Só posso notar os primeiros atrasos que se destacam do quadro geral. É difícil dizer algo sobre o resto.

Eu também fiz o seguinte. Como os dados eram normais, gerei 10.000 números aleatórios com a mesma média e desvio padrão no Echel. Contei as informações mútuas para 500 lags. Isto é o que saiu:


Você pode ver a olho nu que os primeiros atrasos não são mais tão informativos.

O restante das métricas sobre as amostras resultantes dos valores de informação mútua deve ser removido e comparado. Portanto:

Soma de informações mútuas para 500 variáveis para a série original: 0,62. Para a série aleatória: 0,62. Isto significa que a média das amostras também será igual. Colocar a primeira marca de verificação no pressuposto de que a série original não difere muito da série aleatória (mesmo levando em conta a dependência da volatilidade).

Vamos realizar testes não-paramétricos para confirmar a hipótese de insignificância das diferenças entre as duas amostras experimentais.

Teste Kolmogorov-Smirnov (para amostras sem considerar a ordem das variáveis e com funções de densidade de probabilidade a priori desconhecidas): p > 0,1 a 0,05 nível de significância. Rejeitamos a hipótese de que a diferença entre as amostras é significativa. Coloque a segunda marca de verificação.

Como resultado temos: a série inicial é insignificantemente diferente da série aleatória, como foi mostrado usando as estatísticas de informação mútua.

Neste caso, a dependência da volatilidade não teve um forte impacto sobre a aparência do histograma. Entretanto, é preciso lembrar que eu fiz a amostragem de forma diferente para o DJI.

 
Mathemat:

Muito bem, nós esperamos, Alexei.

Após seus resultados para I(X,Y), posso carregar os dados em meu roteiro de cálculo do qui-quadrado. Não acredito que algo útil venha a sair (é minha suposição a priori).

Eu também estou, a priori, silenciando a plausibilidade Bayesiana.

Veja as previsões.

:)

ruído - como foi visto originalmente.

E suas resserches Alexei são mais sábias.

Mas Poisson é meu amigo.

 
O teste Mann-Whitney deu um valor de p de 0,46. Rejeitamos também a hipótese de que as diferenças entre as amostras sejam significativas.
 
Rapazes, vou agora analisar os diários EURUSD em um sentido semelhante. Vamos ver!
 

Obrigado Dougherty!

VOCÊ é a pessoa certa!

Prazer em conhecê-lo.

 
alexeymosc:
Rapazes, vou agora analisar os diários EURUSD em um sentido semelhante. Vamos ver!

Experimente, ao invés disso, os relógios. Há poucas informações mútuas no gráfico diário.

P.S. O resumo preliminar é o seguinte: GARCH(1,1) tem mostrado algum tipo de agrupamento de volatilidade, semelhante a er... heterocedasticidade, mas, como esperado, ela não fornece nenhuma informação. Talvez devêssemos aumentar as ordens de grandeza, ou seja, os argumentos do modelo?

 

Dados do servidor A-ri, EURUSD D1. Levou os incrementos de série aos preços de fechamento vizinhos. Discretizado por 5 quintis.

Vamos ver o que o cálculo das informações mútuas rendeu:

Podemos ver que os 100-200 desfasamentos mais próximos trazem mais informações do que os outros.

Agora vamos misturar os incrementos de forma aleatória e obter uma série aleatória. Vamos calcular a VI:

Uau. Já não é possível ver nenhuma informação sobre os atrasos mais próximos.

Vamos comparar visualmente os resultados:

Os atrasos mais próximos mostram claramente a preponderância da série original (azul).

Eu tirei uma média móvel com janela 22 (mês) sobre os valores I para a série original e aleatória:

Claramente, a série original (azul) tem uma memória de informações diferente da aleatória (vamos deixar a discussão sobre a natureza dessas informações para a sobremesa) nos atrasos próximos a cerca de 200 contagens.

O que dizem os testes não paramétricos?

Teste Kolmogorov-Smirnov:

p < 0,001

Teste Mann-Whitney:

p = 0,0000.

Rejeitamos a hipótese de insignificância das diferenças entre as amostras. Ou, a série de retorno EURUSD D1 é muito diferente dos dados aleatórios com características similares em termos de média e dispersão.

Ugh. Vou ter uma pausa para fumar.