Обсуждение статьи "Машинное обучение от Яндекс (CatBoost) без изучения Phyton и R" - страница 2

 
Andrey Dibrov:

Я, обратил внимание на длительность тестового периода. Но стабильно положительный результат - на коротком периоде примыкающем к периоду обучения - месяц - два. Обучаем, допустим, на двух годичной истории. Тестируем + месяц. Сохраняем результат. Сдвигаем(либо добавляем) на этот месяц - до обучаем(переобучаем). Тестируем + месяц. Сохраняем результат. И т. д. 

Это разве малый период?

Я Вашу идею понял, сам об этом думал - даже скрипт уже сделал, но обучение будет в слепую и на малых данных - сомнительно, что там чтот можно получить.

 
Aleksey Vyazmikin:

Это разве малый период?

Я Вашу идею понял, сам об этом думал - даже скрипт уже сделал, но обучение будет в слепую и на малых данных - сомнительно, что там чтот можно получить.

Надо тестить, скользящее окно - как бы всегда свежие данные)

 
Valeriy Yastremskiy:

Надо тестить, скользящее окно - как бы всегда свежие данные)

Кому это надо? Вы можете определить, что рынок изменился какими либо метрическими показателями, да изменился так, что ранее он таким не был? Если можете и произошло такое событие, то да - надо обучить новую модель с учетом новых данных. Чем меньше берете интервал, тем больше будет подгонка под данные, так как не будет генеральных закономерностей выявлено.

На "удачу", да можно сделать, сейчас скрипт нарежет выборку и посмотрим что будет, если обучаться на окне 12 месяцев каждый месяц.

 
Aleksey Vyazmikin:

Кому это надо? Вы можете определить, что рынок изменился какими либо метрическими показателями, да изменился так, что ранее он таким не был? Если можете и произошло такое событие, то да - надо обучить новую модель с учетом новых данных. Чем меньше берете интервал, тем больше будет подгонка под данные, так как не будет генеральных закономерностей выявлено.

На "удачу", да можно сделать, сейчас скрипт нарежет выборку и посмотрим что будет, если обучаться на окне 12 месяцев каждый месяц.

Мне))) Как раз вручную пытаюсь хотя бы конкретно разные состояния ВР описать. Не скажу что легко) И скользящее окно как раз помогает. Вопрос ширины есть конечно, а вот отсев выбросов в окне более эффективен на мой взгляд, чем в фильтрах. Хотя могу и ошибаться)

 

Вот выборке из статьи

Для обучение бралось 2 года, каждый новый месяц обучались.

Учил 400 деревьев - настройки для всех моделей одинаковы.

А вот EURUSD - тут учил на истории за год, так же каждый месяц


 
Нет, я ошибся выше - выборка в статье другая - это архивная - сейчас переделаю.
 
Aleksey Vyazmikin:
Нет, я ошибся выше - выборка в статье другая - это архивная - сейчас переделаю.


Это правильный вариант.

Посмотрите на Recall - видно, что моделям недостаточно знаний о рынке, иными словами - рынок более вариативен, чем попало информации в окно - особенно ближе к нашим дням.

Valeriy Yastremskiy:

Мне))) Как раз вручную пытаюсь хотя бы конкретно разные состояния ВР описать. Не скажу что легко) И скользящее окно как раз помогает. Вопрос ширины есть конечно, а вот отсев выбросов в окне более эффективен на мой взгляд, чем в фильтрах. Хотя могу и ошибаться)

Вот выше показал, что вышло, если брать окно в 12 месяцев.

Относительно выбросов - если модель древовидная да ещё и использует квантование, то напротив чем больше информации дадите, тем меньше зафититесь на выбросы, так как статистически их будем мало.

 
Aleksey Vyazmikin:


Это правильный вариант.

Посмотрите на Recall - видно, что моделям недостаточно знаний о рынке, иными словами - рынок более вариативен, чем попало информации в окно - особенно ближе к нашим дням.

Вот выше показал, что вышло, если брать окно в 12 месяцев.

Относительно выбросов - если модель древовидная да ещё и использует квантование, то напротив чем больше информации дадите, тем меньше зафититесь на выбросы, так как статистически их будем мало.

Ширина окна имеет большое значение для результата обучения в зависимости от состояния ряда. И у ширины есть оптимальность. Слишком большой период данных скользящего окна так же вреден как и слишком малый.

 
Valeriy Yastremskiy:

Ширина окна имеет большое значение для результата обучения в зависимости от состояния ряда. И у ширины есть оптимальность. Слишком большой период данных скользящего окна так же вреден как и слишком малый.

Давайте от абстракций перейдем к цифрам. На сколько малое окно будет эффективным?

В том то и дело, что Вы предлагаете прыгать за состоянием рынка, а я предлагаю использовать знания о разных состояниях рынка. Чем больше знаний, подкрепленных историей, тем медленней будут меняться закономерности, построенные на них.

И потом, как определяетесь с гиперпараметрами на малой выборке - сколько обучать итераций хотя бы. Я везде ставлю одинаковые.
 
А, попробуйте повторить этот же эксперимент, только добавив к обучающей выборке еще месяц-два истории и потом сравнить два теста. Останется ли нейросеть стабильной, какое влияние на эту модель имеют более современные ценовые движения...