Машинное обучение в трейдинге: теория, модели, практика и алготорговля - страница 3504
Вы упускаете торговые возможности:
- Бесплатные приложения для трейдинга
- 8 000+ сигналов для копирования
- Экономические новости для анализа финансовых рынков
Регистрация
Вход
Вы принимаете политику сайта и условия использования
Если у вас нет учетной записи, зарегистрируйтесь
В общем вы делаете иерархическую кластеризацию и оцениваете потом устойчивость обучения на разных кластерах.
Сложность восприятия в том, что вы неправильно употребляете терминологию. Это факт.
Если бы читали мою статью, то знали бы про проблему терминологии... невежество проявляете.
Если бы читали мою статью, то знали бы про проблему терминологии... невежество проявляете.
Я пытался, но она автоматически сама закрывается на введении, когда в самом начале статьи отрицается заявленная тема
Пойду я спать - тратить время на обсуждение вашего желания учится - ну - пожалуй нет такого времени.
Листья - это другое :) Возможно, тяжело меня понять, так как я работаю то над одной задачей, то над другой - и они похожи, но всё же разные.
Суть в том, что мы строим дерево не по принципу жадности - выбирая из всех вариантов сплита, а делаем оценку исторических данных на сплите на предмет устойчивости итоговой закономерности. Таким образом сужаем варианты для выбора. И уже из них выбираем по какому то критерию - не обязательно по жадности. Сплит у нас закрывающий - диапазон от и до предиктора. Всё что отбирали на каждой итерации - сохраняется и оценивается. Получаем статистику, какие предикторы и с какими диапазонами участвовали чаще в разбиении - так выбирается (формируется) квантовая таблица. Вот с этой таблицей обучаемся уже на CatBoost. Альтернатива - бинаризация выборки и обучение только на отобранных отрезках - там сложности в обучении стандартными методами из-за большой разреженности данных. Вот можем потом получить статистику, как каждый квантовый отрезок из отобранных будет себя вести на новых данных - больше там будет детектится своего класса или нет относительно среднего значения в выборке (отсюда и вероятность упоминается). Тесты показали, что чем меньше остаётся данных, для оценки, чем меньше квантовых отрезков со смещением вероятности (с тем же вектором). Задача - удерживать процент таких квантовых отрезков на высоком уровне при последующих итерациях, так как от этого зависит вероятность выбора правильного сплита.
Эксперименты показывают, что при построении дерева критически важна очередность использования предикторов при сплите, а значит метод принципа жадности не будет часто давать оптимальное решение.
Опять использование утоявшегося термина по своему усмотрению?) Сокращение вариантов выбора для сплита не означает отказ от жадности (всегда выбирается локальный оптимум). И использование другого критерия, "учитывающего устойчивость", не означает отказ от жадности.
Пойду я спать - тратить время на обсуждение вашего желания учится - ну - пожалуй нет такого времени.
или думаешь что понял
Опять использование утоявшегося термина по своему усмотрению?) Сокращение вариантов выбора для сплита не означает отказ от жадности (всегда выбирается локальный оптимум). И использование другого критерия, "учитывающего устойчивость", не означает отказ от жадности.
Речь идёт о стандартных метриках оценки сплита и термин относительно их используется, так как сопоставляется мой подход и общепринятый - не нужно выдирать из контекста. Такое ощущение, что хочется чего то найти в форме, а содержание совсем не интересно.