Увеличение глубины деревьев поможет не хуже балансировки - Общее обсуждение

Forester 2020.11.11 21:24 #21061

Aleksey Vyazmikin:

Ну не всегда справляются - писал уже ранее.

Думаю увеличение глубины деревьев поможет не хуже балансировки.

Forester 2020.11.11 21:35 #21062

Aleksey Vyazmikin:

Ну да, по сути добавление шума в показатели предикторов. Это может повлиять на границы квантования, усилив выделение участков с единицами, но по идеи такой же эффект должен быть и при добавлении дубликатов, единственно, что предполагаю, что дубликаты режутся алгоритмом CatBoost перед началом обучения (надо проеврить), тогда да - вариант.

Скорее квантование сведет этот шум на нет. Если в столбе 10000 разных значений, при квантовании к 255 квантам в один квант попадет в среднем 40 разных значений. Или другой пример - если было изначально 1000 примеров, добавляем шум с получением 10000 примеров, потом квантованием своим к 255 разных квантов/значений - лишняя работа на мой взгляд с этим добавлением шума.

Смотрел недавно код - удаления дубликатов не увидел. Скорее наоборот из 40 разных примеров делаются дубликаты объединением в 1 квант.

Деструкторы Общие принципы работы шаблонов Права доступа

Aleksey Vyazmikin 2020.11.11 21:51 #21063

elibrarius:
Думаю увеличение глубины деревьев поможет не хуже балансировки.

Можно и увеличение глубины пробовать. Там ещё надо параллельно снижать темп обучения - это так же улучшает результат на несбалансированных выборках.

elibrarius:

Скорее квантование сведет этот шум на нет. Если в столбе 10000 разных значений, при квантовании к 255 квантам в один квант попадет в среднем 40 разных значений. Или другой пример - если было изначально 1000 примеров, добавляем шум с получением 10000 примеров, потом квантованием своим к 255 разных квантов/значений - лишняя работа на мой взгляд с этим добавлением шума.

Там используются разные методы квантования, в том числе учитывающие скученность объектов в диапазоне.

elibrarius:

Смотрел недавно код - удаления дубликатов не увидел. Скорее наоборот из 40 разных примеров делаются дубликаты объединением в 1 квант.

Если нашли в коде процесс квантования (установку границ), то можете выложить этот код? Там наверное функции?

Сравнительное тестирование моделей с Сравнительное тестирование моделей с Обучение нейронной сети

Maxim Dmitrievsky 2020.11.11 21:53 #21064

Причем здесь увеличение глубины

у вас большое облако точек одного класса и несколько сэмплов другого с боку-припеку (а может и внутри), которые никогда не выполняются.

второй класс надо раздуть до вменяемых размеров, или использовать one class classification алгоритмы

Обзор управляющих инструкций Матрицы и векторы Основы ООП: абстракция

Aleksey Vyazmikin 2020.11.11 22:02 #21065

Maxim Dmitrievsky:

Причем здесь увеличение глубины

у вас большое облако точек одного класса и несколько сэмплов другого с боку-припеку (а может и внутри), которые никогда не выполняются.

второй класс надо раздуть до вменяемых размеров

Увеличение глубины поможет выделить в листьях области с малым числом примеров, другое дело, что в процентном соотношении листьев с нулями может остаться столько же, и тогда последующие деревья опять затрут эти единицы. При обучении таких выборок видно, как Recall уходит в ноль посреди обучения, а потом опять возвращается к малым процентам.

Можете раздуть, если я дам выборку? Если метод рабочий, то уже подумаю, как его лучше реализовать в MT5.

Сравнительное тестирование моделей с Методы инициализации весовых коэффициентов Объединения

Maxim Dmitrievsky 2020.11.11 22:04 #21066

Aleksey Vyazmikin:

Увеличение глубины поможет выделить в листьях области с малым числом примеров, другое дело, что в процентном соотношении листьев с нулями может остаться столько же, и тогда последующие деревья опять затрут эти единицы. При обучении таких выборок видно, как Recall уходит в ноль посреди обучения, а потом опять возвращается к малым процентам.

Можете раздуть, если я дам выборку? Если метод рабочий, то уже подумаю, как его лучше реализовать в MT5.

Могу. Это все фигня про листья и проч. Классы должны быть сбалансированы

Aleksey Vyazmikin 2020.11.11 22:25 #21067

Maxim Dmitrievsky:
Могу. Это все фигня про листья и проч. Классы должны быть сбалансированы

Вот выборка - разбита на 3 части, я так понимаю, что модифицировать надо только train.csv?

Целевая столбец "Target_100" - последние 4 столбца не участвуют в обучении (там можно сориентироваться на столбец с датами) - для построения баланса нужны.

Файл из Облака Mail.ru

cloud.mail.ru

Облако Mail.ru - это ваше персональное надежное хранилище в интернете.

Произведения матриц и векторов Искусственный интеллект в трейдинге Описание архитектуры и принципов

Renat Akhtyamov 2020.11.12 02:01 #21068

Aleksey Vyazmikin:

Похоже спалил в своей статье прибыльный советник (подход к обучению):

На графике финансовый результат модели по итогу каждого месяца, если первую модель обучить на 12 месяцах и потом добавлять к ней историю каждого нового месяца - склейка фьючерсного Si контракта на USDRUB_TOM.

у прибыльного баланс идет UP под одним и тем же углом

либо по геометрической, если реинвест

Aleksey Vyazmikin 2020.11.12 02:12 #21069

Renat Akhtyamov:

у прибыльного баланс идет UP под одним и тем же углом

либо по геометрической, если реинвест

Даже и не знаю, что сказать... Не думал, что понятие прибыльности коррелирует с понятием жадности.

Maxim Dmitrievsky 2020.11.12 04:55 #21070

Aleksey Vyazmikin:

Вот выборка - разбита на 3 части, я так понимаю, что модифицировать надо только train.csv?

Целевая столбец "Target_100" - последние 4 столбца не участвуют в обучении (там можно сориентироваться на столбец с датами) - для построения баланса нужны.

Щас сделаю в Гугл колабе. Сможете сами загружать Файлы и преобразовывать, без установки питона

Машинное обучение в трейдинге: теория, модели, практика и алготорговля - страница 2107