Машинное обучение в трейдинге: теория, модели, практика и алготорговля - страница 1535

 
Maxim Dmitrievsky:

у алглиб леса есть непонятная для меня проблема - чем больше сэмплов тем он больше переобучается

возможно, есть смысл для него делать ван хот, т.е. преобразовать фичи в категориальные. Деревья будут не такие огромные

по сабжу

одни пишут, что ванхот плох для лесов, потому что из-за него несимметричные деревья, другие пишут что это предотвращает оверфит. Выбрал второе :)

https://www.ncbi.nlm.nih.gov/pmc/articles/PMC6368971/

Splitting on categorical predictors in random forests
Splitting on categorical predictors in random forests
  • www.ncbi.nlm.nih.gov
This is an open access article distributed under the terms of the Creative Commons Attribution License, which permits unrestricted use, distribution, reproduction and adaptation in any medium and for any purpose provided that it is properly attributed. For attribution, the original author(s), title, publication source (PeerJ) and either DOI or...
 
Maxim Dmitrievsky:

по сабжу

одни пишут, что ванхот плох для лесов, потому что из-за него несимметричные деревья, другие пишут что это предотвращает оверфит. Выбрал второе :)

https://www.ncbi.nlm.nih.gov/pmc/articles/PMC6368971/

Можно просто дискретизировать входные данные, например 5ти знак преобразовать к 4 знаку. И данные будут уже групками по 10.
Ну или как предлагал ранее - встроить в алглиб лес остановку ветвления при достижении нужной глубины или количества примеров в листе.

 
elibrarius:

Можно просто дискретизировать входные данные, например 5ти знак преобразовать к 4 знаку. И данные будут уже групками по 10.
Ну или как предлагал ранее - встроить в алглиб лес остановку ветвления при достижении нужной глубины или количества примеров в листе.

это другое, нужно делать категориальные что бы их значения нельзя было сравнивать между собой

позже осилю статью, скинул что бы не забыть
 
Maxim Dmitrievsky:

защем себе мозг парить этим.. работают большие конторы типа яндеха, делают вещи. Сказано: делайте так и будет вам хорошо. Просто делаете так и не делаете самодеятельности. Иначе утонете в формулировках и разных подходах.

Он и так показывает изменение, когда по градиенту идет, наращивая деревья

Там изменения идут при добавления дерева, верно, а мне надо посмотреть по выборке, как бы добавляя новую строку в выборку - вероятно так можно понять, какие участки/ситуации оказываются сложны для обучения, и соответственно подумать о предикторах, которые смогут преодолеть эти сложные участки для обучения.

 
elibrarius:
Неплохо! Повысить объемы и кое что уже можно зарабатывать)

Так для повышения объема и происходит отбор листьев и объединение их в одну модель, именно таким образом удается повысить число входов, т.е. Recall.

Возможно и с Вашей выборкой этот метод сработает, а если бы его ускорить...

Такие результаты дает дерево глубиной 5-7 сплитов, но оно выявляет определенную закономерность только - обычно листа 3-4 идут на -1 и 1, а остальное на ноль.

 
Maxim Dmitrievsky:

приращения

Сколько всего предикторов получается?

 
elibrarius:

Можно просто дискретизировать входные данные, например 5ти знак преобразовать к 4 знаку. И данные будут уже групками по 10.
Ну или как предлагал ранее - встроить в алглиб лес остановку ветвления при достижении нужной глубины или количества примеров в листе.

Безусловно, нужно делать прунинг или просто запрет ветвления по количеству примеров (полнота - Recall) в одном листе. К тому же можно сделать отбраковку деревьев, если их показатели точности и полноты ниже плинтуса.

 
Maxim Dmitrievsky:

это другое, нужно делать категориальные что бы их значения нельзя было сравнивать между собой

позже осилю статью, скинул что бы не забыть

Кстати, какие у Вас параметры для обучения модели?

 
Aleksey Vyazmikin:

Кстати, какие у Вас параметры для обучения модели?

Не понял про параметры

если катбуста то шаг 0.01 2000 итераций, оверфиттинг детектор 150. Ну это в среднем, там не сильно влияет. Катбуст очень устойчив к смене параметров

Причина обращения: