Машинное обучение в трейдинге: теория, модели, практика и алготорговля - страница 2729

 
Maxim Dmitrievsky #:
Берём и перемешиваем выборки, получаем другие оценки.. грустим

* перемешиваем между собой. Поскольку никто не запрещает, т.к обучается не последовательная модель, значит последовательность примеров не имеет значение. Имеет только ошибка классификации, которую всегда можно уменьшить за счёт перемешивания.

Для поиска чего-то надо прямо очень точно понимать что ищется, иначе с выборками играть будешь до одурения. Ну а что ищется никто не знает, если кто узнаёт - сообщите.

Не очень нравится то общее, что есть у вас с Алексеем в рассуждениях - они у вас в контексте конкретной модели и изучения её поведения при изменении обучающей выборки. В идеале, хотелось бы независимости от конкретной модели при выделении обучающей выборки - именно поэтому я пока остановился на использовании вершин зигзага для этого. Но, скорее всего, вы оба правы и полная независимость от вида ТС вряд ли возможна.

 
Aleksey Vyazmikin #:

Я разве не писал, что идея в сравнении выборок (обучение и применение), что если Ваша теория верна, то выборка перестанет быть похожей при её увеличении, а для того что бы понять это нужны критерии оценки её изменения, которые вытекают из методов оценки похожести?

Здесь вы видимо говорите о многомерных выборках (каждый элемент - строка таблицы, вектор), а в критериях однородности по трём вашим ссылкам - речь о числовых выборках. Многомерные критерии однородности в матстате - отдельная песня и не вполне ясная для меня.

Aleksey Vyazmikin #:

Кроме того, я говорил о разметки всей выборки на участки по какому то сопоставимому признаку тенденции, и ранжированию внутри этих групп. И такое ранжирование опять же можно делать по критериям "похожести" выборок.

Похоже на задачу поиска многих точек разладки (change points detection). Опять же получается, что надо работать с многомерным (векторным) случаем, что сильно усложняет дело.

Ну и в целом не очень нравится зависимость от того какие именно признаки выбраны для исследования. Если брать разные их наборы, то и результаты могут отличаться.

 
Aleksey Nikolayev #:

Здесь вы видимо говорите о многомерных выборках (каждый элемент - строка таблицы, вектор), а в критериях однородности по трём вашим ссылкам - речь о числовых выборках. Многомерные критерии однородности в матстате - отдельная песня и не вполне ясная для меня.

Каждый предиктор по отдельности - числовая выборка, так почему не оценить их по отдельности, а результат усреднить? Если есть динамика ухудшения по большей части предикторов, то выборка избыточна.

Aleksey Nikolayev #:

Похоже на задачу поиска многих точек разладки (change points detection). Опять же получается, что надо работать с многомерным (векторным) случаем, что сильно усложняет дело.

Ну и в целом не очень нравится зависимость от того какие именно признаки выбраны для исследования. Если брать разные их наборы, то и результаты могут отличаться.

Наверное стоит найти те варианты, которые будут давать лучшие результаты с точки зрения идентификации принадлежности отрезков к конкретной группе и эффективности обучения на сгруппированной совокупности.

 
Aleksey Vyazmikin #:

Перемешивать можно только внутри выборки, если перемешивать две выборки, то это значит отрицать, что рынок изменяется.

Логику опять не чуешь?
Бессмысленно сравнивать ряды для определения оптимальной длины обучающей выборки, поскольку рынок меняется 

Перемешивать можно в любой точке, это ничего не изменит 
 
Maxim Dmitrievsky #:
Логику опять не чуешь?
Бессмысленно сравнивать ряды для определения оптимальной длины обучающей выборки, поскольку рынок меняется 

Перемешивать можно в любой точке, это ничего не изменит 

Как можете доказать изменяемость рынка? Сколько этот процесс занимает время? Или он постоянно меняется?

 
Aleksey Vyazmikin #:

Как можете доказать изменяемость рынка? Сколько этот процесс занимает время? Или он постоянно меняется?

Все, включился восхитительный спорщик 
Нестационарность как минимум. Постоянно меняется, иногда останавливается на перекур
 
Maxim Dmitrievsky #:
Все, включился восхитительный спорщик 
Нестационарность как минимум. Постоянно меняется, иногда останавливается на перекур

А какой размер выборки нужно взять для определения стационарности/нестационарности?

По Вашему закономерность живет не более срока жизни изменения выборки, а если у меня закономерности на выборке, которые повторяются 8 лет? Что это, аномалия, или закономерности меняются не все или закономерности, выявленные на малом участке ошибочны и обусловлены другими факторами?

 
Aleksey Vyazmikin #:

Каждый предиктор по отдельности - числовая выборка, так почему не оценить их по отдельности, а результат усреднить? 

Это работает только в случае независимых признаков, а поскольку они считаются по одной и той же цене, то это не возможно. В случае зависимости всё гораздо сложнее - можно для примера взять копулы, где одномерные распределения всегда одни и те же равномерные, но при этом двумерные могут быть очень разными.

Aleksey Vyazmikin #:

Наверное стоит найти те варианты, которые будут давать лучшие результаты с точки зрения идентификации принадлежности отрезков к конкретной группе и эффективности обучения на сгруппированной совокупности.

Есть у вас тяга к тяжёлым переборным вычислениям) Придётся же добавить (к уже немалому объёму перебора) перебор по видам признаков и, наверняка, по параметрам признаков.

Тем не менее, мне кажется что рациональное зерно в вашем подходе имеется, есть над чем поразмышлять.

 
Aleksey Vyazmikin #:

Я разве не писал, что идея в сравнении выборок (обучение и применение), что если Ваша теория верна, то выборка перестанет быть похожей при её увеличении, а для того что бы понять это нужны критерии оценки её изменения, которые вытекают из методов оценки похожести?

Может вместо стат критериев однородности выборки просто смотреть изменение feature importance модели в динамике (в скользящем окне)

Если идёт сильная разладка между текущим и предыдущим состоянием то значит мы уже как бы в другой выборке находимся.. 

Плюсы:
1.Тебе не надо программировать стат. Тесты, все уже готово из коробки
2. Учитывается не только изменение во времени выборки но и изменение целевой что думаю не мение важно

 
Aleksey Vyazmikin #:

А какой размер выборки нужно взять для определения стационарности/нестационарности?

По Вашему закономерность живет не более срока жизни изменения выборки, а если у меня закономерности на выборке, которые повторяются 8 лет? Что это, аномалия, или закономерности меняются не все или закономерности, выявленные на малом участке ошибочны и обусловлены другими факторами?

Я бы сказал, что не более срока жизни конкретного тренда в произвольном временном масштабе 
Но это вольное описание 

От точки до точки бифуркации