Машинное обучение в трейдинге: теория, модели, практика и алготорговля - страница 3442
Вы упускаете торговые возможности:
- Бесплатные приложения для трейдинга
- 8 000+ сигналов для копирования
- Экономические новости для анализа финансовых рынков
Регистрация
Вход
Вы принимаете политику сайта и условия использования
Если у вас нет учетной записи, зарегистрируйтесь
Нынче принято ко всему добавлять слово "causal" - и читается красиво и с намеком на волшебство :)
Если увлекаетесь перебором признаков, здесь есть список с формулами, для временных рядов:
https://tsfresh.readthedocs.io/en/latest/text/list_of_features.html
Ранее публиковал графики смещения вероятности в кластерах тут , но там выборка была на листьях, а вот теперь решил посмотреть так будет выглядит ситуация, если просто взять выборку, при этом я использовал разные методы нормализации (в скобках название метода из библиотеки sklearn).
1. Без нормализации
2. Приводит значения признаков к диапазону от 0 до 1 (MinMaxScaler)
3. Приводит значения признаков к распределению со средним значением 0 и стандартным отклонением 1 (StandardScaler)
4. Приводит значения признаков к диапазону, устойчивому к наличию выбросов (RobustScaler)
Мне показалось любопытным, как нормализация влияет на кластеризацию.
Если отфильтровать по двум критериям - смещение вероятности от 5% и число примеров в кластере от 1% строк, то вариант без нормализации ничего не даёт вообще, а остальные по порядку выше:
MinMaxScaler - суммарный процент строк выборки train 4%
StandardScaler - суммарный процент строк выборки train 5,6%
RobustScaler - суммарный процент строк выборки train 8,83%
Да, по моим критериям отбора строк получается маловато выборки для дальнейшего обучения, разве что попробовать отбор после кластеризации с методом нормализации RobustScaler.
Вот что сообщает ChatGPT:
"
RobustScaler - это метод нормализации данных, который использует медиану и интерквартильный размах, чтобы масштабировать данные. Этот метод более устойчив к наличию выбросов в данных, чем стандартный MinMaxScaler или StandardScaler .
Вот как работает RobustScaler :
Вычисление медианы и интерквартильного размаха: В отличие от MinMaxScaler или StandardScaler , которые используют среднее значение и стандартное отклонение соответственно, RobustScaler использует медиану и интерквартильный размах (IQR). Медиана - это значение, которое делит распределение данных пополам, а IQR - это разница между значениями квартиля 75% и квартиля 25%.
Нормализация данных: Затем каждое значение признака вычитается из медианы и делится на IQR. Это масштабирует данные таким образом, что они имеют медиану 0 и размах 1.
Преимущества RobustScaler :
Устойчивость к выбросам: Использование медианы и интерквартильного размаха делает RobustScaler более устойчивым к выбросам в данных. Это позволяет лучше сохранять структуру данных при наличии выбросов.
Не требует предположений о распределении данных: Поскольку RobustScaler использует медиану и IQR, он не требует предположений о нормальном распределении данных.
"
Ранее публиковал графики смещения вероятности в кластерах тут , но там выборка была на листьях, а вот теперь решил посмотреть так будет выглядит ситуация, если просто взять выборку, при этом я использовал разные методы нормализации (в скобках название метода из библиотеки sklearn).
Похоже на то, что нормализация и шкалирование делается на всей выборке, а потом обучается модель на подвыборках. Получается подглядывание и улучшение результатов.
Похоже на то, что нормализация и шкалирование делается на всей выборке, а потом обучается модель на подвыборках. Получается подглядывание и улучшение результатов.
Вроде не должно
Вроде не должно
ну аrr data load всю историю содержит? значит кластеризация на всей истории проводится
проницателен как ванга
ну аrr data load всю историю содержит? значит кластеризация на всей истории проводится
меня не на..шь, проницателен как ванга
Нет, данные из файлов, разбитых на подвыборки ранее.
Нет, данные из файлов, разбитых на подвыборки ранее.
А где тогда аплай на другой подвыборке (тест, экзам) того же скалера
А где тогда аплай на другой подвыборке (тест, экзам) того же скалера
Вроде как это же
На первой выборке считаем, и на всех применяем в цикле.А где тогда аплай на другой подвыборке (тест, экзам) того же скалера
типа здесь
а, ну допустим норм
тогда не понимаю почему такая разница в результатах