Машинное обучение в трейдинге: теория, модели, практика и алготорговля - страница 3504

 
Maxim Dmitrievsky #:
В общем вы делаете иерархическую кластеризацию и оцениваете потом устойчивость обучения на разных кластерах. 
Вы не делаете квантование, потому что #этодругое
Maxim Dmitrievsky #:
Сложность восприятия в том, что вы неправильно употребляете терминологию. Это факт.
Человек бы мог просто загуглить и сверить часы с вашими, но он не может, потому что ваши определения отсебятские.

Если бы читали мою статью, то знали бы про проблему терминологии... невежество проявляете.

 
Aleksey Vyazmikin #:

Если бы читали мою статью, то знали бы про проблему терминологии... невежество проявляете.

Я пытался, но она автоматически сама закрывается на введении, когда в самом начале статьи отрицается заявленная тема
 
Maxim Dmitrievsky #:
Я пытался, но она автоматически сама закрывается на введении, когда в самом начале статьи отрицается заявленная тема

Пойду я спать - тратить время на обсуждение вашего желания учится - ну - пожалуй нет такого времени.

 
Aleksey Vyazmikin #:

Листья - это другое :) Возможно, тяжело меня понять, так как я работаю то над одной задачей, то над другой - и они похожи, но всё же разные.

Суть в том, что мы строим дерево не по принципу жадности - выбирая из всех вариантов сплита, а делаем оценку исторических данных на сплите на предмет устойчивости итоговой закономерности. Таким образом сужаем варианты для выбора. И уже из них выбираем по какому то критерию - не обязательно по жадности. Сплит у нас закрывающий - диапазон от и до предиктора. Всё что отбирали на каждой итерации - сохраняется и оценивается. Получаем статистику, какие предикторы и с какими диапазонами участвовали чаще в разбиении - так выбирается (формируется) квантовая таблица. Вот с этой таблицей обучаемся уже на CatBoost. Альтернатива - бинаризация выборки и обучение только на отобранных отрезках - там сложности в обучении стандартными методами из-за большой разреженности данных. Вот можем потом получить статистику, как каждый квантовый отрезок из отобранных будет себя вести на новых данных - больше там будет детектится своего класса или нет относительно среднего значения в выборке (отсюда и вероятность упоминается). Тесты показали, что чем меньше остаётся данных, для оценки, чем меньше квантовых отрезков со смещением вероятности (с тем же вектором). Задача - удерживать процент таких квантовых отрезков на высоком уровне при последующих итерациях, так как от этого зависит вероятность выбора правильного сплита.

Эксперименты показывают, что при построении дерева критически важна очередность использования предикторов при сплите, а значит метод принципа жадности не будет часто давать оптимальное решение.

Опять использование утоявшегося термина по своему усмотрению?) Сокращение вариантов выбора для сплита не означает отказ от жадности (всегда выбирается локальный оптимум). И использование другого критерия, "учитывающего устойчивость", не означает отказ от жадности.

 
упертость, глупость и не желание учиться
 
Aleksey Vyazmikin #:

Пойду я спать - тратить время на обсуждение вашего желания учится - ну - пожалуй нет такого времени.

Да надо не спать, а кагор распивать 
Вы просто нас чуть-чуть пожалейте 
Схему я понял. Просто это можно делать через кластеризацию, по прямому ее назначению. А не вытаскивая бордеры сплитов или чего там из обученного катбуста. Вы делаете как бы кластеризацию. Квантовые отрезки - это кластеры данных.
 
Maxim Dmitrievsky #:
Схему я понял. 

или думаешь что понял

 
Потом вы делаете кластеризацию уже имеющихся кластеров, получаются типа ветки и листья.  Уже писал, что это иерархическая кластеризация, но вы вытаскиваете эти группы данных (кластеры) из классификатора, что ничему не противоречит, потому что алгоритм построения почти один и тот же.
 
Aleksey Nikolayev #:

Опять использование утоявшегося термина по своему усмотрению?) Сокращение вариантов выбора для сплита не означает отказ от жадности (всегда выбирается локальный оптимум). И использование другого критерия, "учитывающего устойчивость", не означает отказ от жадности.

Речь идёт о стандартных метриках оценки сплита и термин относительно их используется, так как сопоставляется мой подход и общепринятый - не нужно выдирать из контекста. Такое ощущение, что хочется чего то найти в форме, а содержание совсем не интересно.

 
Теперь, в контексте кластеризации, можете делать свои дальнейшие умозаключения и, вероятно, будете поняты с 1-го раза, если не накрутите поверх опять новых определений.