Вы упускаете торговые возможности:
- Бесплатные приложения для трейдинга
- 8 000+ сигналов для копирования
- Экономические новости для анализа финансовых рынков
Регистрация
Вход
Вы принимаете политику сайта и условия использования
Если у вас нет учетной записи, зарегистрируйтесь
Почитайте про точный тест Фишера.
Прочитал, но не могу сообразить, как сопоставить те эксперименты в примере с задачей - явно чего то не вижу в силу нехватки опыта. Можете подробней разъяснить на нашем примере, как Вы это представили?
Замечу, что число наблюдений на интервалах не одинаковое, кроме того, наблюдений может не быть на интервале. Интервал - временной период за который считался процент. Беру временные интервалы, так как считаю это правильным - для наблюдения, ведь прогноз нужно будет давать на будущее время, хотя бы один интервал. Больше - лучше.
Для его расчёта нужна функция CDF гипергеометрического распределения. Она есть в стат. библиотеке MQL5, но иногда считает с ошибками (если не исправили).
Вот тут я как раз совсем запутался - как я понимаю, что для в начале нужно тогда определить к какому распределению относится выборка? Если так, то нужно строить разные распределения и сравнивать их с имеющимся, правильно? Это вообще возможно автоматизировать?
Если я хочу определить pdf, то нужно воспользоваться функцией MathProbabilityDensityEmpirical()?
Не считаю себя экспертом в статистике, хотя изучил много информации - но в голове как то всё не укладывается, а спросить некого.
Я даже начинаю догадываться зачем Вам "это" ... :) Но без выборки трудно предложить конкретное решение. Решений может быть 100500 и предлагаете их здесь все предлагать чтобы потом был сделан соответствующий выбор?
В качестве альтернативы можно взять тот же столбец 5584 из выборки train.csv. Если принимается, то попробую на ней что-нибудь поколдовать.
Думаю, что выборка со столбцом 5584 косвенно относится к данному вопросу.
Без выборки трудно - но цель ветки то создать предикторы для выборки, а так что я могу дать - ну целевые и интервальные наблюдения. Сделаю попозже пример. Нули и единицы не вижу смысла давать - да и объём очень большой будет.
Добавляю выборку с преобразованием в проценты показателей временного ряда. Взяты измерения за месяц в одном интервале.
Всего интервалов 116.
Последний столбец - целевая - в неё попали отрицательные значения из предпоследнего столбца.
Второй и третий столбец с конца - это показатель всей выборки в процентах за минусом константы - его не вижу смысла использовать при обучении, к тому же предпоследний столбец не может быть получен в момент обучения.
Вот первая строка имеет такой вид в хронологическом порядке
А это в упорядоченном
Другая строка :)
Прочитал, но не могу сообразить, как сопоставить те эксперименты в примере с задачей - явно чего то не вижу в силу нехватки опыта. Можете подробней разъяснить на нашем примере, как Вы это представили?
Замечу, что число наблюдений на интервалах не одинаковое, кроме того, наблюдений может не быть на интервале. Интервал - временной период за который считался процент. Беру временные интервалы, так как считаю это правильным - для наблюдения, ведь прогноз нужно будет давать на будущее время, хотя бы один интервал. Больше - лучше.
Вот тут я как раз совсем запутался - как я понимаю, что для в начале нужно тогда определить к какому распределению относится выборка? Если так, то нужно строить разные распределения и сравнивать их с имеющимся, правильно? Это вообще возможно автоматизировать?
Если я хочу определить pdf, то нужно воспользоваться функцией MathProbabilityDensityEmpirical()?
Не считаю себя экспертом в статистике, хотя изучил много информации - но в голове как то всё не укладывается, а спросить некого.
Ответил на конкретный вопрос - как проверить разное ли соотношение числа единиц и нолей в двух выборках.
Пусть N1 и N2 - длины двух выборок, а n1 и n2 - число единиц в них. Считаем:
Если p<0.05, то во второй выборке частота единиц ниже, а если p>0.95, то выше, чем в первой выборке. В остальных случаях ничего определённого сказать нельзя.
Ответил на конкретный вопрос - как проверить разное ли соотношение числа единиц и нолей в двух выборках.
Пусть N1 и N2 - длины двух выборок, а n1 и n2 - число единиц в них. Считаем:
Если p<0.05, то во второй выборке частота единиц ниже, а если p>0.95, то выше, чем в первой выборке. В остальных случаях ничего определённого сказать нельзя.
Запутался - вроде был вопрос о сохранении соотношения в будущем - т.е. предполагается, что новых данных пока нет.
Или идея в том, что бы разделить текущую выборку на две части и сравнить их?
Запутался - вроде был вопрос о сохранении соотношения в будущем - т.е. предполагается, что новых данных пока нет.
Или идея в том, что бы разделить текущую выборку на две части и сравнить их?
Поставленная задача по моему мнению не решается ... Будущее не известно!
Нельзя сказать, что на указанном горизонте будет столько то нулей, а столько единиц. Ведь в любой момент времени в будущем может произойсти какое-нибудь нетривиальное событие (типа как раньше при правлении Трампа ляпнет он что-нибудь и все антидолларовые пары летали как ракеты, аналогично было с фунтовыми парами по моему в конце какого-то из недавних годов).
Поэтому горизонт прогноза не более 2-3 шагов вперёд для финансовых рынков. Реально не более 1-2 шагов.
Поставленная задача по моему мнению не решается ... Будущее не известно!
Нельзя сказать, что на указанном горизонте будет столько то нулей, а столько единиц. Ведь в любой момент времени в будущем может произойсти какое-нибудь нетривиальное событие (типа как раньше при правлении Трампа ляпнет он что-нибудь и все антидолларовые пары летали как ракеты, аналогично было с фунтовыми парами по моему в конце какого-то из недавних годов).
Поэтому горизонт прогноза не более 2-3 шагов вперёд для финансовых рынков. Реально не более 1-2 шагов.
Так это редкие события - если они давали большой вес, то их и надо выявить и выкинуть (классифицировать нулем).
Лучше не думать тут о финансовых рынках, а представлять задачу, как я описал ранее - про машины и перекресток.
Так это редкие события - если они давали большой вес, то их и надо выявить и выкинуть (классифицировать нулем).
Лучше не думать тут о финансовых рынках, а представлять задачу, как я описал ранее - про машины и перекресток.
Их выявить можно и исключить можно из обучаемой выборки, но вдруг это исключенное событие появится в текущем отрезке, по которому имеется определённый прогноз. Появление такого события нельзя исключать. И в целом такая выборка будет класифицирована как нормальная, а в реальности внести большой вес в общий результат.
Очень запутано как-то всё это ... :)
Их выявить можно и исключить можно из обучаемой выборки, но вдруг это исключенное событие появится в текущем отрезке, по которому имеется определённый прогноз. Появление такого события нельзя исключать. И в целом такая выборка будет класифицирована как нормальная, а в реальности внести большой вес в общий результат.
Очень запутано как-то всё это ... :)
Так 100% гарантии никто и не хочет - редкие события на то и редки, что происходят не часто, а значит повторение должно быть с меньшей долей вероятности.
Другое дело, если выбросы равномерно распространены по всей выборке - то это уже какие то редкие закономерности скорей, которые и дальше будут повторяться. Их частоту видимо надо оценить и спрогнозировать - будут они в следующем окне (или N окон) или нет.