Машинное обучение в трейдинге: теория, модели, практика и алготорговля - страница 3503

 
Aleksey Vyazmikin #:

CatBoost, и другие градиентные бустинги...

Естественно, чтобы деревья не были бесконечными

 
Maxim Dmitrievsky #:

Естественно, чтобы деревья не были бесконечными

Ну, хорошо, что вспомнили, что не только в НС используется.

 
Aleksey Vyazmikin #:

Ну, хорошо, что вспомнили, что не только в НС используется.

аналогия не прослеживается?

у вас терминологический тупик опять. Я не люблю ломать упорядоченную структуру в своей голове ради ваших кривых определений. Или неправильных трактовок.

 
Aleksey Vyazmikin #:

Листья - это другое :) Возможно, тяжело меня понять, так как я работаю то над одной задачей, то над другой - и они похожи, но всё же разные.

Суть в том, что мы строим дерево не по принципу жадности - выбирая из всех вариантов сплита, а делаем оценку исторических данных на сплите на предмет устойчивости итоговой закономерности. Таким образом сужаем варианты для выбора. И уже из них выбираем по какому то критерию - не обязательно по жадности. Сплит у нас закрывающий - диапазон от и до предиктора. Всё что отбирали на каждой итерации - сохраняется и оценивается. Получаем статистику, какие предикторы и с какими диапазонами участвовали чаще в разбиении - так выбирается (формируется) квантовая таблица. Вот с этой таблицей обучаемся уже на CatBoost. Альтернатива - бинаризация выборки и обучение только на отобранных отрезках - там сложности в обучении стандартными методами из-за большой разреженности данных. Вот можем потом получить статистику, как каждый квантовый отрезок из отобранных будет себя вести на новых данных - больше там будет детектится своего класса или нет относительно среднего значения в выборке (отсюда и вероятность упоминается). Тесты показали, что чем меньше остаётся данных, для оценки, чем меньше квантовых отрезков со смещением вероятности. Задача - удерживать процент таких квантовых отрезков на высоком уровне при последующих итерациях, так как от этого зависит вероятность выбора правильного сплита.

Эксперименты показывают, что при построении дерева критически важна очередность использования предикторов при сплите, а значит метод принципа жадности не будет часто давать оптимальное решение.

Ну и как вас понять-то) Если строим дерево, то всё что у нас есть - это листья, и ничего кроме листьев) Ну ладно, есть ещё ветки. Но они в итоге состоят из листьев!)

 
Maxim Dmitrievsky #:

аналогия не прослеживается?

В НС квантование используется часто для уменьшения размера слоёв, в том числе за счет изменения типов данных после квантования. Я этого не делал - поэтому и не писал про это.

Вообще не понимаю, к чему Вы ведёте - я уже написал своё отношение и виденье, согласился, что можно попробовать в моём алгоритме кластеризацию. Для этого то я с деревом кластеризации заморачивался месяца два назад - пока на паузе проект.

Или к чему это всё?

 
Aleksey Vyazmikin #:

В НС квантование используется часто для уменьшения размера слоёв, в том числе за счет изменения типов данных после квантования. Я этого не делал - поэтому и не писал про это.

Вообще не понимаю, к чему Вы ведёте - я уже написал своё отношение и виденье, согласился, что можно попробовать в моём алгоритме кластеризацию. Для этого то я с деревом кластеризации заморачивался месяца два назад - пока на паузе проект.

Или к чему это всё?

Потому что там смысла с гулькин нос часто, но вы так сложно все описываете, что описание разобрать намного сложнее, чем понять смысл происходящего

из-за этого приходится рушить структуру своего мозга физически, переформатировать связи. Это приводит к чрезмерному потреблению пищи и алкоголя.
 
Aleksey Nikolayev #:

Ну и как вас понять-то) Если строим дерево, то всё что у нас есть - это листья, и ничего кроме листьев) Ну ладно, есть ещё ветки. Но они в итоге состоят из листьев!)

Вы описали вариант с отбором листьев - я сказал, что тут листья не отбираются для дальнейшего использования с полученного дерева.

 
Maxim Dmitrievsky #:

Потому что там смысла с гулькин нос часто, но вы так сложно все описываете, что описание разобрать намного сложнее, чем понять смысл происходящего

из-за этого приходится рушить структуру своего мозга, переформатировать связи

Я услышал Ваше мнение о моей работе.

У меня другое мнение. Надеюсь, скоро сделаю генератор выборки с фиксированными закономерностями - там посмотрим, какой метод эффективней справляется с выявлением предрасположенностей.

Сложность восприятия в том, что я занимаюсь тем, о чём не пишут, поэтому для понимания нужно напрягать мозг - вникать, а это не хочется делать - особенно, если есть предвзятое мнение.

 
В общем вы делаете иерархическую кластеризацию и оцениваете потом устойчивость обучения на разных кластерах. 
Вы не делаете квантование, потому что #этодругое
 
Сложность восприятия в том, что вы неправильно употребляете терминологию. Это факт.
Человек бы мог просто загуглить и сверить часы с вашими, но он не может, потому что ваши определения отсебятские.
В итоге в этом мире вас никто не поймет, потому что вы не уважаете общепринятые определения.
Причина обращения: