Статистика зависимостей в котировках (теория информации, корреляция и другие методы feature selection) - страница 20

 

Спасибо! Скачал, посмотрел.

Значит, я произведу дискретизацию по схеме деления на квантили, таким образом функция плотности вероятности будет равномерной. Замерю взаимную информацию для 500 лагов, выложу график.

 

А для начала:

Вид фукнции плотности вероятности для ваших исходных данных:

Соответствует нормальному распределению.

Далее, автокоррелограмма по исходному ряду ваших значений до лага 50:

Видно, что в целом, корреляции не значимы, хотя не некоторых лагах некая зависимость проскакивает.

И наконец, взял значения вашего ряда в квадрате и построил автокоррелограмму, чтобы посмотреть исключительно на плотность "волатильности":

Отмечаю, что волатильность зависит от своих близких прошлых значений. Все это похоже на дневные котировки биржевых индексов и немного похожи на дневные котировки EURUSD (расчет по ним выложу позднее).

Ждем результатов расчета I(X,Y).

 
alexeymosc: Ждем результатов расчета I(X,Y).

Отлично, ждем, Алексей.

После Ваших результатов по I(X,Y) я могу загнать данные в свой скрипт расчета хи-квадратов. Что-то не верится, что выйдет что-то толковое (это мое априорное предположение).

 

Прощу извинить за задержку. Интернет вырубился.

Начну с методологической части. Я дискретизировал ряд на 5 значений (квантилей). Почему? При подсчете кросс-частот по целевой и зависимой переменной получится 25 вариантов, если 10 000 разделить на 25, получится 400. Это статистически значимая выборка. Можно сделать от 3 до 7; по моему мнению, я взял серединку.

Вот так рассчитывается средняя информация приемника (целевая переменная);


Отмечу, что для любого лага расчет средней информации даст аналогичное значение (если, конечно, мы не стали дискретизировать независимые переменные в рамках алфавита иной длины).

Это расчет кросс-энтропии по целевой и зависимой переменным:

Гистограмма значений взаимной информации по исходному временному ряду :

Могу отметить лишь выделяющиеся из общей картины первые лаги. Про остальную часть сложно что-то сказать.

Я также сделал следующее. Так как данные были нормальны, я сгенерировал в Эхеле 10 000 случайных чисел с тем же средним и стандартным отклонением. Посчитал взаимную информацию по 500 лагам. Вот что получилось:


На глаз видно, что первые лаги уже не столь информативны.

Остальные метрики по полученным выборкам значений взаимной информации следует снять и сравнить. Итак:

Сумма взаимной информации по 500 переменным для исходного ряда: 0,62. Для случайного: 0,62. То есть, значит и среднее значение по выборкам будет равно. Ставим первую галочку в предположение о том, что исходный ряд мало отличается от случайного (даже учитывая зависимость по волатильности).

Проведем непараметрические тесты, чтобы подтвердить гипотезу о незначимости отличий между двумя опытными выборками.

Тест Колмогорова-Смирнова (для выборок, не учитывая порядок следования переменных, при априорно неизвестных функциях плотности вероятности): p > 0,1 при уровне значимости 0,05. Отвергаем гипотезу о значимости различия между выборками. Ставим вторую галочку.

В итоге имеем: исходный ряд незначительно отличается от случайного, что было показано с использованием статистики взаимной информации.

При этом, зависимость волатильности не оказала сильного влияния на вид гистограммы. Однако нужно помнить, что для DJI я делал дискретизацию по-другому.

 
Mathemat:

Отлично, ждем, Алексей.

После Ваших результатов по I(X,Y) я могу загнать данные в свой скрипт расчета хи-квадратов. Что-то не верится, что выйдет что-то толковое (это мое априорное предположение).

я тоже Баесовское правдоподобие априорно глушу...

Зрим рез.

:)

шум - как и изночально видилось.

А Ваши Алексей ресёрчи - мудрёней.

Но Пуассон мне друг.

 
Тест Манна-Уитни дал значение p = 0,46. Также отвергаем гипотезу о значимости различий между выборками.
 
Ребят, я сейчас проанализирую дневки EURUSD в таком же ключе. Посмотрим!
 

спасибо Доужище!

ВЫ правильный!

Рад знакомству.

 
alexeymosc:
Ребят, я сейчас проанализирую дневки EURUSD в таком же ключе. Посмотрим!

Попробуй лучше часовки. В дневках мало взаимной информации.

P.S. Предварительное резюме такое: GARCH(1,1) показал некую эээ... кластеризацию волатильности, похожую на эээ... гетероскедастичноcть, но, как и ожидалось, никакой информации это не несет. Может, надо увеличивать порядки, т.е. аргументы модели?

 

Данные с сервера А-ри, EURUSD D1. Взял приращения ряда по соседним ценам Close. Дискретизировал на 5 квантилей.

Посмотрим что дал расчет взаимной информации:

Видно, что ближайшие 100-200 лагов несут больше информации, чем остальные.

Теперь перемешаем случайно приращения - получим случайный ряд. Посчитаем ВИ:

Ого. Уже не видно инфы на ближайших лагах.

Сравним визуально результаты:

На ближних лагах отчетливо виден перевес в сторону исходного (синего) ряда.

Взял скользящее среднее с окном 22 (месяц) по значениям I для исходного и случайного рядов:

Очевидно, что исходный ряд (синий) действительно обладает отличной от случайной информационной памятью (оставим на десерт обсуждение природы этой информации) на ближних лагах до примерно 200 отсчета.

Что говорят непараметрические тесты?

Тест Колмогорова-Смирнова:

p < 0,001

Тест Манна-Уитни:

p = 0,0000.

Отвергаем гипотезу о незначимости различий между выборками. Или, ряд возвратов EURUSD D1 сильно отличается от случайных данных с аналогичными характеристиками по средней и разбросу.

Уф. Пойду перекурю.