Статистика зависимостей в котировках (теория информации, корреляция и другие методы feature selection) - страница 31

 
Avals: нет надобности постоянно прогнозировать :) Только в отдельные дискретные моменты

А чаще система должна говорить: "давай-ка посидим на заборе, у меня кризис модели мироздания". Предполагаю, что это полезное качество любой разумной торговой системы, отражающее хаотическую реальность рынкета: он позволяет слегка заглянуть в будущее только в определенные моменты.

Candid: Вообще, судя по тому что посты раз за разом повисают в воздухе, моё время в этой теме или уже ушло или ещё не пришло :). Пора видимо фонтану отдохнуть :).

Наверно, еще не пришло :)

Да и я, честно говоря, пока не собирался активировать тему, но после ее появления предполагал, что будет примерно такое развитие. Но я об этом не жалею, т.к. в ходе дискуссии кое-что прояснилось.

Candid: Я с самого начала предполагал что методика чувствует любые зависимости, как пригодные для прогнозирования, так и бесполезные. В отношении волатильности определённые свидетельства в пользу такого предположения здесь получены.

Волатильность - серьезный игрок в этой информационной Игре, но, думаю, все же не царь и бог.

 

Продолжу тему, скорее, для эстетов. Может, на этом тема и закончится. А может откроется другая.

Буду выкладывать результаты экспериментов.

 

График, показывающий количество взаимной информации на лагах от 1 до 250 для нулевого бара (точнее, приращения цены p[0] - p[1]) для EURUSD D1.




Далее, попробуем сохранить исходную волатильность ряда (сохранив модули приращений), при этом перемешав знаки приращений. Получаем.



Похожий график, и сумма взаимной информации очень похожа. Значит, удаление знака приращения не оказало влияния на взаимную информацию. Чтобы подтвердить незначимость знака попробуем следующее. Оставим последоватльность знаков приращений как в оригинале, но перемешаем модули приращений, нарушив структуру волатильности. Имеем.




График имеет уже другой вид. Сумма уменьшилась сильно. Значит, убрав волатильность, с наличием оригинальной последовательности знака приращений несет в себе гораздо меньше информации о нулевом баре.


А теперь перемешаем и знаки приращений и последовательность модулей приращений, то есть, избавим ряд от волатильности и последовательности знаков, имеющих место в оригинале.




Получаем примерно то же самое, даже сумма получилась выше. Предполагаем, что ряд избавленный от волатильности практически не отличается от полностью случайного ряда (в котором, однако, сохранен закон распределения).


Чтобы не делать множества реализаций для каждого из экспериментов, проведем статистическую проверку гипотезы о различии полученных значений взаимной информации для разных рядов.

Тест Колмогорова-Смирнова для взаимной информации исходного ряда и ряда с сохраненной волатильностью. p > 0,1. Гипотеза о различии отвергается.

Для исходного ряда и ряда с сохраненным знаком приращений: p < 0,01. Гипотеза о различии подтвержается.

Тест для ряда с сохраненным знаком и случайным рядом. p < 0,1. Неоднозначный результат, но сумма взаимной информации для случайного ряда даже больше получилась, поэтому я склонен принять гипотезу о различии, или, по крайней мере, об отсутствии превосходства над случайным рядом.

Вывод: данная методика, работающая с приращениями по ценам закрытия, позволяет выявлять зависимости волатильности цены, а зависимости знаков приращений не выявляются, если они вообще есть в любом смысле. Предсказывать направление движения цены с такой методикой можно сказать нельзя.

 

За последний месяц отошел от темы: был сильно занят другим, не до нее было.

В принципе с вердиктом согласен. Но только насчет дневок. Уже подозревал и говорил раньше (и не только я), что на дневках хаоса гораздо больше, чем на меньших ТФ.

Также нужно учесть, что не были отсеяны бары с избыточной информацией. Подозреваю, что это сильно влияет на результат.

Короче, к отбору данных, которые, возможно, будут поданы на вход нервосетки, нужно подходить значительно серьезнее. Вот и получается, что для того, чтобы поиметь выгоду от нервосетки, нужно скармливать ей предельно очищенные от грязи топовые деликатесы. А сейчас это пока еще не деликатес, а непойманная севрюга.

 
Mathemat:

За последний месяц отошел от темы: был сильно занят другим, не до нее было.

В принципе с вердиктом согласен. Но только насчет дневок. Уже подозревал и говорил раньше (и не только я), что на дневках хаоса гораздо больше, чем на меньших ТФ.

Также нужно учесть, что не были отсеяны бары с избыточной информацией. Подозреваю, что это сильно влияет на результат.

Короче, к отбору данных, которые, возможно, будут поданы на вход нервосетки, нужно подходить значительно серьезнее. Вот и получается, что для того, чтобы поиметь выгоду от нервосетки, нужно скармливать ей предельно очищенные от грязи топовые деликатесы. А сейчас это пока еще не деликатес, а непойманная севрюга.

Алексей, во-первых, я рад видеть тебя в теме. С твоим мнением согласен. Насчет большого объема хаоса в дневках я тоже слышал и думал. Мое мнение такое: на больших ТФ функция временного ряда не такая гладкая, как на минутках и пятиминутках, и тем более на тиках. Если научиться на малых ТФ прогнозировать на несколько баров вперед, то будет сила. Я, конечно, могу посчитать взаимную информацию и для минуток, будет даже интересно. Могу и для тиков, возьму их с сайта Gain Capital. Но не проработана проблема использования инфы от ансамбля баров, я на этом застрял. Сори.

Согласен полностью с тем, что "севрюга" не поймана. И проблема избыточной информации важна в этом отношении. Если мы берем информацию по конкретным барам, то мы, в корне, ставим вопрос о важности каждого взятого лага.

В общем, но новых встреч в эфире.

 
alexeymosc: Я, конечно, могу посчитать взаимную информацию и для минуток, будет даже интересно. Могу и для тиков, возьму их с сайта Gain Capital.

Для минуток и тем более тиков - пожалуй, слишком расточительно по времени и использованию ресурсов ПК. Рассчитываю брать часовки и считать их. Посмотрим.

Самая серьезная проблема тут не на поверхности, а внутри: прошлая история для ДЦ - не константа. Постоянно бары то пропадают, то появляются. А локальное изменение прошлой истории может серьезно влиять на результат (точнее, на Матрицу). Мне это крайне не нравится. Ищу, как решить проблему постоянства истории - и заодно на порядок уменьшить количество вычислений.

 
alexeymosc:

Алексей, во-первых, я рад видеть тебя в теме. С твоим мнением согласен. Насчет большого объема хаоса в дневках я тоже слышал и думал. Мое мнение такое: на больших ТФ функция временного ряда не такая гладкая, как на минутках и пятиминутках, и тем более на тиках. Если научиться на малых ТФ прогнозировать на несколько баров вперед, то будет сила. Я, конечно, могу посчитать взаимную информацию и для минуток, будет даже интересно. Могу и для тиков, возьму их с сайта Gain Capital. Но не проработана проблема использования инфы от ансамбля баров, я на этом застрял. Сори.

Согласен полностью с тем, что "севрюга" не поймана. И проблема избыточной информации важна в этом отношении. Если мы берем информацию по конкретным барам, то мы, в корне, ставим вопрос о важности каждого взятого лага.

В общем, но новых встреч в эфире.

Возможно на больших ТФ функция временного ряда не такая гладкая, как на минутках и пятиминутках, и тем более на тиках, но она более прогнозируема. на меньших ТФ, особенно на минутках, функция временного ряда обнаруживает закономерность, в моем понимании, в пределах нескольких сот и даже тысяч баров, а в пределах десятка (-ов) баров очень велика доля случайных составляющих возможной общей закономерности.
 
yosuf:
Возможно на больших ТФ функция временного ряда не такая гладкая, как на минутках и пятиминутках, и тем более на тиках, но она более прогнозируема. на меньших ТФ, особенно на минутках, функция временного ряда обнаруживает закономерность, в моем понимании, в пределах нескольких сот и даже тысяч баров, а в пределах десятка (-ов) баров очень велика доля случайных составляющих возможной общей закономерности.

Согласен, Юсуф. Есть и такое мнение. Я, кстати, поэтому и брал дневки. Но, что интересно, сумма взаимной информации для одного и того же количества лагов больше для часовых баров, нежели чем для дневных. Даже если это в основном волатильность, но факт есть факт. Так что возможно, под особую модель прогнозирования меньшие таймфреймы лучше подойдут.

 
Mathemat:

Для минуток и тем более тиков - пожалуй, слишком расточительно по времени и использованию ресурсов ПК. Рассчитываю брать часовки и считать их. Посмотрим.

Самая серьезная проблема тут не на поверхности, а внутри: прошлая история для ДЦ - не константа. Постоянно бары то пропадают, то появляются. А локальное изменение прошлой истории может серьезно влиять на результат (точнее, на Матрицу). Мне это крайне не нравится. Ищу, как решить проблему постоянства истории - и заодно на порядок уменьшить количество вычислений.

Это очень верное замечание. Хотя я сам именно проблему изменчивых баров в истории не копал, но суть мне понятна, Алексей. Я вот и думаю, что измерения стоит проводить на каком то производном сигнале от временного ряда, а не от него самого. Может имеет смысл брать средневзвешанную цену внутри временного промежутка, в ней выбросы будут сглаживаться. Я кстати так и сделал один раз: взял средневзвешанную внутривдневную цену, расчитанную по часовым close (по сути, MA с периодом 24, но для расчета берутся значения этой машки, отстоящие друг от друга на 24 шага). И посчитал взаимную информацию. Был удивлен. Лаг №1 показал максимальную информативность, остальные лаги показывали информацию в 10 и более раз меньше. Резкое отличие от оригинального дневного ряда цен...
 
Вы заведомо знаете о влиянии кластеризации волатильности на младших тайфреймах и тем не менее, делаете какие-либо выводы о том, что якобы старшие таймфреймы более зашумлены. Единственным основанием при этом является Ваша вера. Если Вы действительно хотите сравнить разные масштабы времени то сравнивайте их не напрямую, а их остатки от эффектов волатильности, иначе все это напоминает убеждения самого себя.