Машинное обучение в трейдинге: теория, модели, практика и алготорговля - страница 3144
Вы упускаете торговые возможности:
- Бесплатные приложения для трейдинга
- 8 000+ сигналов для копирования
- Экономические новости для анализа финансовых рынков
Регистрация
Вход
Вы принимаете политику сайта и условия использования
Если у вас нет учетной записи, зарегистрируйтесь
Я дико извиняюсь, но почему нельзя фичи просто через модель на новых данных проверять в таком случае?) стабильность она и в Африке стабильность.
Сложно сказать. ИМХО, для анализа берётся большое окно, в несколько раз больше чем обычно. Потом строим на нём дерево решений, добавив время в качестве признака. Если всё начинается со сплитов по времени, то остальные признаки обзываем плохими, нестабильными. Даже если эти признаки на более мелких окнах вдруг работают хорошо, то всё равно будет нестабильность, поскольку зависимости на разных окнах будут очень разные.
Сложно сказать. ИМХО, для анализа берётся большое окно, в несколько раз больше чем обычно. Потом строим на нём дерево решений, добавив время в качестве признака. Если всё начинается со сплитов по времени, то остальные признаки обзываем плохими, нестабильными. Даже если эти признаки на более мелких окнах вдруг работают хорошо, то всё равно будет нестабильность, поскольку зависимости на разных окнах будут очень разные.
По поводу стабильности (с) СанСаныча. Если добавить время к набору признаков, то можно сравнивать его значимость с другими. Если признак более значим чем время, то он стабилен. Возможно, в этом есть какой-то смысл)
Например, если строится решающее дерево, то делать это только до первого сплита по времени. Если дерево окажется пустым, то все признаки плохие. Некоторым обоснованием этого подхода (для случая деревьев) может служить сходство алгоритмов поиска точки сплита с поиском точки разладки (change point detection) временного ряда. В обоих случаях обычно ищется разбиение одной выборки на две максимально отличающиеся друг от друга подвыборки.
Добавлял. Пустое, время - практически нулевой признак
Это я понимаю, можно еще посмотреть в сторону causal forest. Кстати не изучал, если кто-нибудь разберется, было бы интересно почитать про эксперименты с ним
Нет. Моя ско - это отклонения "предсказательной способности". Никакого отношения к оценке самой модели не имеет
Нет. Моя ско - это отклонения "предсказательной способности". Никакого отношения к оценке самой модели не имеет
В ходе похожего эксперимента по отбору информативных признаков, я перебрал все способы. Благо это несложно. Начиная от корреляции, взаимной информации и knn, через OLS и SVM к форесту, бустингу и нейросетям (глубокие не трогал). Получилось, что лучше всего через бустинг. На втором месте OLS.
Нет. Моя ско - это отклонения "предсказательной способности". Никакого отношения к оценке самой модели не имеет
Возможна ли такая ситуация, что от шага к шагу очень сильно скачут параметры модели? То есть, несмотря на хорошую "предсказательность" на каждом шагу, искомая зависимость устроена очень по разному и постоянно меняется. Если да, то это вполне может быть разновидностью переобучения.
Это я понимаю, можно еще посмотреть в сторону causal forest. Кстати не изучал, если кто-нибудь разберется, было бы интересно почитать про эксперименты с ним
Вроде это тот же random forest, но с каузальной интерпретацией. Так что вам, как популяризатору среди нас как ранее лесов, так теперь и каузала и карты в руки)
Всё же, пока плохо понимаю применение каузала для трейдинга. Беглое гугление не помогло найти прямых применений, только косвенные - типа изучения влияния акций на форекс.
Вроде это тот же random forest, но с каузальной интерпретацией. Так что вам, как популяризатору среди нас как ранее лесов, так теперь и каузала и карты в руки)
Всё же, пока плохо понимаю применение каузала для трейдинга. Беглое гугление не помогло найти прямых применений, только косвенные - типа изучения влияния акций на форекс.
Возможна ли такая ситуация, что от шага к шагу очень сильно скачут параметры модели? То есть, несмотря на хорошую "предсказательность" на каждом шагу, искомая зависимость устроена очень по разному и постоянно меняется. Если да, то это вполне может быть разновидностью переобучения.
В моем случае невозможно ответить на Ваш вопрос: переобучение модели ведется на каждом шаге, и, естественно набор признаков может быть разным на разных шагах.
Ошибка классификации колеблется от 20% до 10%. 25% не было ни разу.