Машинное обучение в трейдинге: теория, модели, практика и алготорговля - страница 2477

 
mytarmailS #:

А разве нету стандартных библ. в питоне для этого?

Вероятно, такие библиотеки есть, но мне не попадались. 

 
iwelimorn #:

Кому интересно, прикладываю скрипт для балансировки классов при решении задачи классификации.

Балансировка основана на ресемплинге исходной выборки при помощи модели гауссовых смесей. Советую юзать, так как в местных датасетах редко метки классов сбалансированны.

Сэкономит много времени и нервов.

Думаю нужно уточнять что, при решении задач классификации нейросетями.
Леса и бустинги не требуют балансировки.

 
iwelimorn #:

Вероятно, такие библиотеки есть, но мне не попадались. 

Понятно... просто в Р-ке навалом всего для МО , аж глаза разбегаються, а питон позиционируеться как язык для МО, а в нем нету ничего кроме 2-3 расркученых библ. 

Как то не понятно((

 
elibrarius #:

Думаю нужно уточнять что, при решении задач классификации нейросетями.
Леса и бустинги не требуют балансировки.

Возможно.

 
mytarmailS #:

Понятно... просто в Р-ке навалом всего для МО , аж глаза разбегаються, а питон позиционируеться как язык для МО, а в нем нету ничего кроме 2-3 расркученых библ. 

Как то не понятно((

С R не знаком, занимаюсь MO факультативно и по Данингу-Крюгеру я только в начале  пути в ущелье отчаяния

 
mytarmailS #:

А разве нету стандартных библ. в питоне для этого? 

Там используется библа, просто обёрнутая 
 
iwelimorn #:

Кому интересно, прикладываю скрипт для балансировки классов при решении задачи классификации.

Балансировка основана на ресемплинге исходной выборки при помощи модели гауссовых смесей. Советую юзать, так как в местных датасетах редко метки классов сбалансированны.

Сэкономит много времени и нервов.

Тут больше эффект от стандартизации, чем балансировки, по моему. Плюс сэмплинг из распределений помогает от переобучения 
 
iwelimorn #:

 начале  пути в ущелье отчаяния

))) Все будет хорошо!
 
Maxim Dmitrievsky #:
Тут больше эффект от стандартизации, чем балансировки, по моему. Плюс сэмплинг из распределений помогает от переобучения 

Я правильно понял, чем больше семплов, тем признаки ближе к стандартизированным? 

 
iwelimorn #:

Я правильно понял, чем больше семплов, тем признаки ближе к стандартизированным? 

Сложно сказать какой объём выборки оптимальный, наверное, зависит от кол-ва компонентов гауссовских смесей. Слишком большая выборка, при зашумленном датасете, приводит к генерации сильно похожих семплов, то есть вероятность возникновения часто повторяющихся примеров увеличивается, т.к. используются гауссианы для оценки плотности и генерации. Поэтому скорее нет, чем да. 
Где-то читал, что ГММ плохо работает с большими датасетами.
Причина обращения: