Машинное обучение в трейдинге: теория, модели, практика и алготорговля - страница 2107

 
Aleksey Vyazmikin:

Ну не всегда справляются - писал уже ранее.

Думаю увеличение глубины деревьев поможет не хуже балансировки.
 
Aleksey Vyazmikin:

Ну да, по сути добавление шума в показатели предикторов. Это может повлиять на границы квантования, усилив выделение участков с единицами, но по идеи такой же эффект должен быть и при добавлении дубликатов, единственно, что предполагаю, что дубликаты режутся алгоритмом CatBoost перед началом обучения (надо проеврить), тогда да - вариант.

Скорее квантование сведет этот шум на нет. Если в столбе 10000 разных значений, при квантовании к 255 квантам в один квант попадет в среднем 40 разных значений. Или другой пример - если было изначально 1000 примеров, добавляем шум с получением 10000 примеров, потом квантованием своим к 255 разных квантов/значений - лишняя работа на мой взгляд с этим добавлением шума.


Смотрел недавно код - удаления дубликатов не увидел. Скорее наоборот из 40 разных примеров делаются дубликаты объединением в 1 квант.

 
elibrarius:
Думаю увеличение глубины деревьев поможет не хуже балансировки.

Можно и увеличение глубины пробовать. Там ещё надо параллельно снижать темп обучения - это так же улучшает результат на несбалансированных выборках.

elibrarius:

Скорее квантование сведет этот шум на нет. Если в столбе 10000 разных значений, при квантовании к 255 квантам в один квант попадет в среднем 40 разных значений. Или другой пример - если было изначально 1000 примеров, добавляем шум с получением 10000 примеров, потом квантованием своим к 255 разных квантов/значений - лишняя работа на мой взгляд с этим добавлением шума.

Там используются разные методы квантования, в том числе учитывающие скученность объектов в диапазоне.

elibrarius:

Смотрел недавно код - удаления дубликатов не увидел. Скорее наоборот из 40 разных примеров делаются дубликаты объединением в 1 квант.

Если нашли в коде процесс квантования (установку границ), то можете выложить этот код? Там наверное функции?

 

Причем здесь увеличение глубины

у вас большое облако точек одного класса и несколько сэмплов другого с боку-припеку (а может и внутри), которые никогда не выполняются. 

второй класс надо раздуть до вменяемых размеров, или использовать one class classification алгоритмы

 
Maxim Dmitrievsky:

Причем здесь увеличение глубины

у вас большое облако точек одного класса и несколько сэмплов другого с боку-припеку (а может и внутри), которые никогда не выполняются. 

второй класс надо раздуть до вменяемых размеров

Увеличение глубины поможет выделить в листьях области с малым числом примеров, другое дело, что в процентном соотношении листьев с нулями может остаться столько же, и тогда последующие деревья опять затрут эти единицы. При обучении таких выборок видно, как Recall уходит в ноль посреди обучения, а потом опять возвращается к малым процентам.

Можете раздуть, если я дам выборку? Если метод рабочий, то уже подумаю, как его лучше реализовать в MT5.

 
Aleksey Vyazmikin:

Увеличение глубины поможет выделить в листьях области с малым числом примеров, другое дело, что в процентном соотношении листьев с нулями может остаться столько же, и тогда последующие деревья опять затрут эти единицы. При обучении таких выборок видно, как Recall уходит в ноль посреди обучения, а потом опять возвращается к малым процентам.

Можете раздуть, если я дам выборку? Если метод рабочий, то уже подумаю, как его лучше реализовать в MT5.

Могу. Это все фигня про листья и проч. Классы должны быть сбалансированы 
 
Maxim Dmitrievsky:
Могу. Это все фигня про листья и проч. Классы должны быть сбалансированы 

Вот выборка - разбита на 3 части, я так понимаю, что модифицировать надо только train.csv?

Целевая столбец "Target_100" - последние 4 столбца не участвуют в обучении (там можно сориентироваться на столбец с датами) - для построения баланса нужны.

Файл из Облака Mail.ru
Файл из Облака Mail.ru
  • cloud.mail.ru
Облако Mail.ru - это ваше персональное надежное хранилище в интернете.
 
Aleksey Vyazmikin:

Похоже спалил в своей статье прибыльный советник (подход к обучению):

На графике финансовый результат модели по итогу каждого месяца, если первую модель обучить на 12 месяцах и потом добавлять к ней историю каждого нового месяца - склейка фьючерсного Si контракта на USDRUB_TOM.

у прибыльного баланс идет UP под одним и тем же углом

либо по геометрической, если реинвест

 
Renat Akhtyamov:

у прибыльного баланс идет UP под одним и тем же углом

либо по геометрической, если реинвест

Даже и не знаю, что сказать... Не думал, что понятие прибыльности коррелирует с понятием жадности. 

 
Aleksey Vyazmikin:

Вот выборка - разбита на 3 части, я так понимаю, что модифицировать надо только train.csv?

Целевая столбец "Target_100" - последние 4 столбца не участвуют в обучении (там можно сориентироваться на столбец с датами) - для построения баланса нужны.

Щас сделаю в Гугл колабе. Сможете сами загружать Файлы и преобразовывать, без установки питона 
Причина обращения: