Машинное обучение в трейдинге: теория, модели, практика и алготорговля - страница 2116

 
Aleksey Vyazmikin:

Сообщите, пожалуйста, если найдете, а то я начну свой велосипед собирать :)

elibrarius то ж идею предложил - просто построить дерево поветвистей и использовать его вместо кластеризации, беря информацию из листьев в целях уменьшения мажоритарного класса.

я не понимаю что вы пишете и какое отношение это имеет к кластеризации

 
Maxim Dmitrievsky:

я не понимаю что вы пишете и какое отношение это имеет к кластеризации

Это по сути кластеризация с учетом целевой будет.

Удалось что либо найти полезное по этой теме?

 
Aleksey Vyazmikin:

Это по сути кластеризация с учетом целевой будет.

Удалось что либо найти полезное по этой теме?

кластеризации с учетом целевой не бывает

 
Maxim Dmitrievsky:

кластеризации с учетом целевой не бывает

В учебниках - наверное :)

Это кластеризация по ограниченному числу признаков просто.
 
Aleksey Vyazmikin:

В учебниках - наверное :)

Это кластеризация по ограниченному числу признаков просто.

почитайте что такое кластеризация, неохота мусолить

 
Aleksey Vyazmikin:

Удалось что либо найти полезное по этой теме?

это серьезное исследование по балансировке классов, еще пока не доделал

 
Maxim Dmitrievsky:

кластеризации с учетом целевой не бывает

Каждый лист можно назвать кластером с максимальным разделением по классам.
Вы сами с похожей моей  мыслью примерно полгода назад согласились.
 
elibrarius:
Каждый лист можно назвать кластером с максимальным разделением по классам.
Вы сами с похожей моей  мыслью примерно полгода назад согласились.

я не знаю то вы тут обсуждаете

есть 2 пространства признаков (взял по 5 главных компонент каждого)

при случайном семплинге сделок:

В случае кластеризации на 2 кластера:

Задача: найти trade-off между правильными метками и хорошим разбиением классов.

В случае простой кластеризации метки, конечно же, не годятся для торговли

В случае семплинга сделок - пространство признаков не годится

 
Maxim Dmitrievsky:

это серьезное исследование по балансировке классов, еще пока не доделал

Да, методов очень много - теперь бы понять, какие эффективны.

Вот ещё подборка описания методов а\разных.

Алгоритмы сэмплирования — Викиконспекты
Алгоритмы сэмплирования — Викиконспекты
  • neerc.ifmo.ru
Сэмплирование (англ. data sampling ) — метод корректировки обучающей выборки с целью балансировки распределения классов в исходном наборе данных. Нужно отличать этот метод от сэмплирования в активном обучении для отбора кандидатов и от сэмплирования в статистике [1] для создания подвыборки с сохранением распределения классов. Неравномерное...