От теории к практике - страница 336

 
Alexander_K2:

Последний на сегодня пост.

Итак. Самый животрепещущий вопрос, который задала однажды Novaja:

Зачем преобразовывать текущий тиковый поток, который и так фактически является потоком Эрланга, к экспоненциальному, чтобы опять потом приходить к тому же, но уже явно искаженному потоку???

Согласен - здесь допущена ошибка. Надо работать с тем тиковым потоком, что есть и дальнейшие преобразования делать именно над этим естественным исходным потоком, а не над искусственным.

Итак, алгоритм преобразования выглядит следующим образом:

1. Берется исходный тиковый поток, но считывается не каждый тик, а каждый второй - смотрим на распределения, получаемые для интервалов времени и для приращений.

2. ... считывается каждый третий тик - смотрим на распределения.

3. ...

До тех пор, пока распределение интервалов времени не приобретет четкий, ярко выраженный поток Эрланга, удовлетворяющий формулам функции плотности вероятностей, а распределение приращений все более и более будет приближаться к нормальному распределению.

Вот этим я займусь, а о результатах расскажу.

Спасибо за внимание.

это же только начало  многолетней работы по мучительным исследованиям, основанной на гипотезах и с кучей многоточий

а выводы то какие - грааль типа

ппц полный...

 
Alexander_K2:

Последний на сегодня пост.

Итак. Самый животрепещущий вопрос, который задала однажды Novaja:

Зачем преобразовывать текущий тиковый поток, который и так фактически является потоком Эрланга, к экспоненциальному, чтобы опять потом приходить к тому же, но уже явно искаженному потоку???

Согласен - здесь допущена ошибка. Надо работать с тем тиковым потоком, что есть и дальнейшие преобразования делать именно над этим естественным исходным потоком, а не над искусственным.

Итак, алгоритм преобразования выглядит следующим образом:

1. Берется исходный тиковый поток, но считывается не каждый тик, а каждый второй - смотрим на распределения, получаемые для интервалов времени и для приращений.

2. ... считывается каждый третий тик - смотрим на распределения.

3. ...

До тех пор, пока распределение интервалов времени не приобретет четкий, ярко выраженный поток Эрланга, удовлетворяющий формулам функции плотности вероятностей, а распределение приращений все более и более будет приближаться к нормальному распределению.

Вот этим я займусь, а о результатах расскажу.

Спасибо за внимание.

Считывая каждый 2-й, потом 3-й итд каждый n-ный тик ты фактически получаешь график рендж-баров по ценам закрытия.

А распределения с этого графика я тебе уже заливал.

С начало ты получишь понижение центрального пика, он начнёт размываться приближаясь к нормальному но затем распределения разойдётся на двумодальное.

При этом чтоб понять процесс нужно исследовать его на краях, а краевые показатели таковы что при n=1 мы имеем приближение к логнормальному распределению, а с ростом n, ближе к n=100, имеем двумодальное. Это означает что распределение всегда было двумодальным, просто из-за дискретности на малых n оно наплывает друг на друга и картина не ясна.

Так что твоя затея с исследованием это изобретение велосипеда.

 
Yuriy Asaulenko:

Не, так ты слона не продашь.

Характерной особенностью А_К2 является полное отсутствие системного подхода и копание в деталях. Какие детали, если нет видения целого?

В дополнение.

Искренне хотелось-бы, чтобы у А_К2 получилось что-то реально работающее. Однако, судя по его постам, и на этот раз это будет холостой выстрел.

Всегда прогресс, наука, техника двигались от простых форм (описаний), к более сложным. И, надо сказать, уже простые неплохо работали.

Если вы никогда не проектировали автомобили, то начинать проектирование с Мерседеса не имеет никаких перспектив. Начинать надо с простого, чего-то типа Жигулей - принципы работы те-же, что и у Мерседеса, но все гораздо проще. И вот когда ваш Жигуль поедет, тогда уже поэтапно можно его улучшать, модернизировать, усложнять и доводить до уровня Мерса. Вспомните, каковы были корейские машины лет 15 назад - без слез не взглянешь.

По аналогии, похоже, что А_К2 опять взялся проектировать именно Мерседес.) За предыдущие 4 месяца можно было уже хотя-бы Жигуль построить - для его проектирования науки особенно не надо, а достаточно технических решений.)

 
Alexander_K2:

Надо работать с тем тиковым потоком, что есть и дальнейшие преобразования делать именно над этим естественным исходным потоком, а не над искусственным.

Я уже писал тебе про это, но видимо моего голоса недостаточно.
Твои "реальные тики" - что-то необычное. Не знаю что там стоит за этим "DDE", но это совсем не тот беспорядочный мусор что обычно дают форекс дилинги. По крайней мере тики приходят в 10 раз реже чем обычно, уже это настораживает. Первый карман на твоей гистограмме должен быть ~200мс, а не секунда.

Выложи пожалуйста в csv пару тысяч последних принятых тиков, без прореживаний, без заполнения пустот прошлыми значениями, а только те цены что пришли. И может кто-то ещё кроме меня проведёт тут на них тесты и скажет что эти значения гораздо приемлимее для торговли чем обычно. А потом может и коллективный разум в этой теме подскажет как на них сделать грааль в десяток строк mql кода.

 
Alexander_K2:

И прям вот ничего преобразовывать не надо? Не верю!!!!!!!! Так не интересно.

Принцип обработки больших данных это всегда работа с исходными данными, имеющими максимальную информацию, но добавление к ним разных метрик либо ужатие без потери информации.

Если же начать затирать информацию, то очевидно, что ценность и адекватность таких алгоритмов сразу падает.

 
Alexander_K2:

Но, мы же еще полгода назад обсудили, что т.к. у разных брокеров разный тиковый поток, то и первоочередной является задача приведения его к единому универсальному виду. Нет?

Одно другому не противоречит.

Универсальный вид это совсем не значит что нужно их приводить к одинаковому тиковому потоку...
 

Спасибо, вот сравнение распределений приростов, и автокорреляций для последних 1000 значений audcad bid. Верхний ряд - твои тики. Нижний - то что в терминале. Разница есть, но не умею определять по графикам что лучше. Мне нравится что у тебя пик гистограммы не укорочен как в терминале.

Немного тестов стационарности:

Твои тики -

> Box.test(pricesDiff, lag=20, type="Ljung-Box")

        Box-Ljung test

data:  pricesDiff
X-squared = 39.466, df = 20, p-value = 0.005832

> adf.test(pricesDiff, alternative = "stationary")

        Augmented Dickey-Fuller Test

data:  pricesDiff
Dickey-Fuller = -11.556, Lag order = 9, p-value = 0.01
alternative hypothesis: stationary

> kpss.test(pricesDiff)

        KPSS Test for Level Stationarity

data:  pricesDiff
KPSS Level = 0.44326, Truncation lag parameter = 7, p-value = 0.05851


И те что в терминале:

        Box-Ljung test

data:  pricesDiff
X-squared = 29.181, df = 20, p-value = 0.08426

> adf.test(pricesDiff, alternative = "stationary")

        Augmented Dickey-Fuller Test

data:  pricesDiff
Dickey-Fuller = -10.252, Lag order = 9, p-value = 0.01
alternative hypothesis: stationary

> kpss.test(pricesDiff)

        KPSS Test for Level Stationarity

data:  pricesDiff
KPSS Level = 0.3404, Truncation lag parameter = 7, p-value = 0.1


p-value в Box-Ljung тест у тебя на порядок ниже, это круто.


И самое главное - твои тики это процесс с памятью, он очень немарковский. Не знаю как выразить это цифрами, но у меня в моделе твои тики легче прогнозируются чем обычные тики. 


Мне интересно, есть ли ещё какие-то тесты для оценки прогнозируемости?

 

Расстояния между тиками из файла Александра 01AUDCAD_Real 14400 (дискретность 1 сек.)


 
Alexander_K2:

Если это так, то, очевидно, всем надо просто работать в таком дискретном потоке котировок как у меня и все. Не так ли?

Я месяц назад тоже так подумал. Раз у тебя было логарифмическое распределение (или паскаль), то и мне хотелось такое получить прореживанием чтобы стало хорошо. Спустя пару недель и попыток "вот счас поменяю p на 0.71 вместо 0.72 и станет ок" - хорошо мне так и не стало, это всё рулетка а не наука.

Распределение приростов цен, и пауз времени - всего лишь последствия. Самое главное чтоб получился стационарный немарковский процесс. И чем стационарнее и немарковскее - тем лучше. Я думаю что это первое необходимое преобразование, с требованием именно немарковской стационарности, а какие там при этом получатся распределения уже не важно.
Как добиться эту немарковскую стационарность - понятие не имею, но это выглядит как верный путь. 

Затем для такого прореженного ряда можно попытаться сделать второе преобразование согласно торговой стратегии. Типа добиться гаммы в ретурнах, как ты хотел для своей модели. Тут уже преобразование от стратегии зависит, можно и насоздавать фич и обучить нейронку вместо второго прореживания.


п.с. - "немарковская стационарность" это сугубо личное профанское название такого свойства. В науке оно наверное именуется иначе.

 
Novaja:

Расстояния между тиками из файла Александра 01AUDCAD_Real 14400 (дискретность 1 сек.)

Судя по графику пару страниц назад - пик сместился с 0 на 1. Наверное это от торгуемой пары зависит (audcad и cadjpy)


Alexander_K2:

По-моему, это распределение Паскаля с r=2, p=0.5, q=0.5

Попробовал в R нарисовать Паскаля с такими параметрами, не совпало. Но там вообще другие обозначения вместо r,p,q, может я и напутал что-то.