Автоматический расчет описательных статистик выборки на MQL5 - страница 2

 
Aleksey Nikolayev #:

Почитайте про точный тест Фишера

Прочитал, но не могу сообразить, как сопоставить те эксперименты в примере с задачей - явно чего то не вижу в силу нехватки опыта. Можете подробней разъяснить на нашем примере, как Вы это представили?

Замечу, что число наблюдений на интервалах не одинаковое, кроме того, наблюдений может не быть на интервале. Интервал - временной период за который считался процент. Беру временные интервалы, так как считаю это правильным - для наблюдения, ведь прогноз нужно будет давать на будущее время, хотя бы один интервал. Больше - лучше.

Aleksey Nikolayev #:

Для его расчёта нужна функция CDF гипергеометрического распределения. Она есть в стат. библиотеке MQL5, но иногда считает с ошибками (если не исправили). 

Вот тут я как раз совсем запутался - как я понимаю, что для в начале нужно тогда определить к какому распределению относится выборка? Если так, то нужно строить разные распределения и сравнивать их с имеющимся, правильно? Это вообще возможно автоматизировать?

Если я хочу определить pdf, то нужно воспользоваться функцией MathProbabilityDensityEmpirical()?

Не считаю себя экспертом в статистике, хотя изучил много информации - но в голове как то всё не укладывается, а спросить некого.

 
RomFil #:

Я даже начинаю догадываться зачем Вам "это" ... :) Но без выборки трудно предложить конкретное решение. Решений может быть 100500 и предлагаете их здесь все предлагать чтобы потом был сделан соответствующий выбор? 

В качестве альтернативы можно взять тот же столбец 5584 из выборки train.csv. Если принимается, то попробую на ней что-нибудь поколдовать.

Думаю, что выборка со столбцом 5584 косвенно относится к данному вопросу.

Без выборки трудно - но цель ветки то создать предикторы для выборки, а так что я могу дать - ну целевые и интервальные наблюдения. Сделаю попозже пример. Нули и единицы не вижу смысла давать - да и объём очень большой будет.

 

Добавляю выборку с преобразованием в проценты показателей временного ряда. Взяты измерения за месяц в одном интервале.

Всего интервалов 116.

Последний столбец - целевая - в неё попали отрицательные значения из предпоследнего столбца.

Второй и третий столбец с конца - это показатель всей выборки в процентах за минусом константы - его не вижу смысла использовать при обучении, к тому же предпоследний столбец не может быть получен в момент обучения.

Файлы:
Viborka_V_00.zip  4127 kb
 

Вот первая строка имеет такой вид в хронологическом порядке

А это в упорядоченном 

Другая строка :)


 
Aleksey Vyazmikin #:

Прочитал, но не могу сообразить, как сопоставить те эксперименты в примере с задачей - явно чего то не вижу в силу нехватки опыта. Можете подробней разъяснить на нашем примере, как Вы это представили?

Замечу, что число наблюдений на интервалах не одинаковое, кроме того, наблюдений может не быть на интервале. Интервал - временной период за который считался процент. Беру временные интервалы, так как считаю это правильным - для наблюдения, ведь прогноз нужно будет давать на будущее время, хотя бы один интервал. Больше - лучше.

Вот тут я как раз совсем запутался - как я понимаю, что для в начале нужно тогда определить к какому распределению относится выборка? Если так, то нужно строить разные распределения и сравнивать их с имеющимся, правильно? Это вообще возможно автоматизировать?

Если я хочу определить pdf, то нужно воспользоваться функцией MathProbabilityDensityEmpirical()?

Не считаю себя экспертом в статистике, хотя изучил много информации - но в голове как то всё не укладывается, а спросить некого.

Ответил на конкретный вопрос - как проверить разное ли соотношение числа единиц и нолей в двух выборках.

Пусть N1 и N2 - длины двух выборок, а n1 и n2 - число единиц в них. Считаем:

double p = MathCumulativeDistributionHypergeometric(n2, N1 + N2, n1 + n2, N2, err); // err - для записи кода ошибки

Если p<0.05, то во второй выборке частота единиц ниже, а если p>0.95, то выше, чем в первой выборке. В остальных случаях ничего определённого сказать нельзя.

 
Aleksey Nikolayev #:

Ответил на конкретный вопрос - как проверить разное ли соотношение числа единиц и нолей в двух выборках.

Пусть N1 и N2 - длины двух выборок, а n1 и n2 - число единиц в них. Считаем:

Если p<0.05, то во второй выборке частота единиц ниже, а если p>0.95, то выше, чем в первой выборке. В остальных случаях ничего определённого сказать нельзя.

Запутался - вроде был вопрос о сохранении соотношения в будущем - т.е. предполагается, что новых данных пока нет.

Или идея в том, что бы разделить текущую выборку на две части и сравнить их?

 
Aleksey Vyazmikin #:

Запутался - вроде был вопрос о сохранении соотношения в будущем - т.е. предполагается, что новых данных пока нет.

Или идея в том, что бы разделить текущую выборку на две части и сравнить их?

Поставленная задача по моему мнению не решается ... Будущее не известно! 

Нельзя сказать, что на указанном горизонте будет столько то нулей, а столько единиц. Ведь в любой момент времени в будущем может произойсти какое-нибудь нетривиальное событие (типа как раньше при правлении Трампа ляпнет он что-нибудь и все антидолларовые пары летали как ракеты, аналогично было с фунтовыми парами по моему в конце какого-то из недавних годов). 

Поэтому горизонт прогноза не более 2-3 шагов вперёд для финансовых рынков. Реально не более 1-2 шагов.

 
RomFil #:

Поставленная задача по моему мнению не решается ... Будущее не известно! 

Нельзя сказать, что на указанном горизонте будет столько то нулей, а столько единиц. Ведь в любой момент времени в будущем может произойсти какое-нибудь нетривиальное событие (типа как раньше при правлении Трампа ляпнет он что-нибудь и все антидолларовые пары летали как ракеты, аналогично было с фунтовыми парами по моему в конце какого-то из недавних годов). 

Поэтому горизонт прогноза не более 2-3 шагов вперёд для финансовых рынков. Реально не более 1-2 шагов.

Так это редкие события - если они давали большой вес, то их и надо выявить и выкинуть (классифицировать нулем).

Лучше не думать тут о финансовых рынках, а представлять задачу, как я описал ранее - про машины и перекресток.

 
Aleksey Vyazmikin #:

Так это редкие события - если они давали большой вес, то их и надо выявить и выкинуть (классифицировать нулем).

Лучше не думать тут о финансовых рынках, а представлять задачу, как я описал ранее - про машины и перекресток.

Их выявить можно и исключить можно из обучаемой выборки, но вдруг это исключенное событие появится в текущем отрезке, по которому имеется определённый прогноз. Появление такого события нельзя исключать. И в целом такая выборка будет класифицирована как нормальная, а в реальности внести большой вес в общий результат. 

Очень запутано как-то всё это ... :) 

 
RomFil #:

Их выявить можно и исключить можно из обучаемой выборки, но вдруг это исключенное событие появится в текущем отрезке, по которому имеется определённый прогноз. Появление такого события нельзя исключать. И в целом такая выборка будет класифицирована как нормальная, а в реальности внести большой вес в общий результат. 

Очень запутано как-то всё это ... :) 

Так 100% гарантии никто и не хочет - редкие события на то и редки, что происходят не часто, а значит повторение должно быть с меньшей долей вероятности.

Другое дело, если выбросы равномерно распространены по всей выборке - то это уже какие то редкие закономерности скорей, которые и дальше будут повторяться. Их частоту видимо надо оценить и спрогнозировать - будут они в следующем окне (или N окон) или нет.