В Р-ке навалом всего для МO, аж глаза разбегаються - Общее обсуждение

iwelimorn 2021.10.29 08:35 #24761

mytarmailS #:

А разве нету стандартных библ. в питоне для этого?

Вероятно, такие библиотеки есть, но мне не попадались.

Forester 2021.10.29 08:47 #24762

iwelimorn #:

Кому интересно, прикладываю скрипт для балансировки классов при решении задачи классификации.

Балансировка основана на ресемплинге исходной выборки при помощи модели гауссовых смесей. Советую юзать, так как в местных датасетах редко метки классов сбалансированны.

Сэкономит много времени и нервов.

Думаю нужно уточнять что, при решении задач классификации нейросетями.
Леса и бустинги не требуют балансировки.

mytarmailS 2021.10.29 08:48 #24763

iwelimorn #:

Вероятно, такие библиотеки есть, но мне не попадались.

Понятно... просто в Р-ке навалом всего для МО , аж глаза разбегаються, а питон позиционируеться как язык для МО, а в нем нету ничего кроме 2-3 расркученых библ.

Как то не понятно((

iwelimorn 2021.10.29 10:45 #24764

elibrarius #:

Думаю нужно уточнять что, при решении задач классификации нейросетями.
Леса и бустинги не требуют балансировки.

Возможно.

iwelimorn 2021.10.29 10:49 #24765

mytarmailS #:

Понятно... просто в Р-ке навалом всего для МО , аж глаза разбегаються, а питон позиционируеться как язык для МО, а в нем нету ничего кроме 2-3 расркученых библ.

Как то не понятно((

С R не знаком, занимаюсь MO факультативно и по Данингу-Крюгеру я только в начале пути в ущелье отчаяния

Maxim Dmitrievsky 2021.10.29 11:31 #24766

mytarmailS #:

А разве нету стандартных библ. в питоне для этого?

Там используется библа, просто обёрнутая

Maxim Dmitrievsky 2021.10.29 11:34 #24767

iwelimorn #:

Кому интересно, прикладываю скрипт для балансировки классов при решении задачи классификации.

Балансировка основана на ресемплинге исходной выборки при помощи модели гауссовых смесей. Советую юзать, так как в местных датасетах редко метки классов сбалансированны.

Сэкономит много времени и нервов.

Тут больше эффект от стандартизации, чем балансировки, по моему. Плюс сэмплинг из распределений помогает от переобучения

mytarmailS 2021.10.29 11:46 #24768

iwelimorn #:

начале пути в ущелье отчаяния

))) Все будет хорошо!

iwelimorn 2021.10.29 11:48 #24769

Maxim Dmitrievsky #:
Тут больше эффект от стандартизации, чем балансировки, по моему. Плюс сэмплинг из распределений помогает от переобучения

Я правильно понял, чем больше семплов, тем признаки ближе к стандартизированным?

Maxim Dmitrievsky 2021.10.29 11:57 #24770

iwelimorn #:

Я правильно понял, чем больше семплов, тем признаки ближе к стандартизированным?

Сложно сказать какой объём выборки оптимальный, наверное, зависит от кол-ва компонентов гауссовских смесей. Слишком большая выборка, при зашумленном датасете, приводит к генерации сильно похожих семплов, то есть вероятность возникновения часто повторяющихся примеров увеличивается, т.к. используются гауссианы для оценки плотности и генерации. Поэтому скорее нет, чем да.

Где-то читал, что ГММ плохо работает с большими датасетами.

Parabolic SAR - Трендовые Parabolic SAR - Трендовые Parabolic SAR - Трендовые

Машинное обучение в трейдинге: теория, модели, практика и алготорговля - страница 2477