Иерархическая кластеризация используется часто для уменьшения размера слоев, в том числе за счет изменения типов данных после квантования - Общее обсуждение

Maxim Dmitrievsky 2024.05.05 07:59 #35021

Aleksey Vyazmikin #:

CatBoost, и другие градиентные бустинги...

Естественно, чтобы деревья не были бесконечными

Aleksey Vyazmikin 2024.05.05 08:00 #35022

Maxim Dmitrievsky #:

Естественно, чтобы деревья не были бесконечными

Ну, хорошо, что вспомнили, что не только в НС используется.

Maxim Dmitrievsky 2024.05.05 08:02 #35023

Aleksey Vyazmikin #:

Ну, хорошо, что вспомнили, что не только в НС используется.

аналогия не прослеживается?

у вас терминологический тупик опять. Я не люблю ломать упорядоченную структуру в своей голове ради ваших кривых определений. Или неправильных трактовок.

Aleksey Nikolayev 2024.05.05 08:07 #35024

Aleksey Vyazmikin #:

Листья - это другое :) Возможно, тяжело меня понять, так как я работаю то над одной задачей, то над другой - и они похожи, но всё же разные.

Суть в том, что мы строим дерево не по принципу жадности - выбирая из всех вариантов сплита, а делаем оценку исторических данных на сплите на предмет устойчивости итоговой закономерности. Таким образом сужаем варианты для выбора. И уже из них выбираем по какому то критерию - не обязательно по жадности. Сплит у нас закрывающий - диапазон от и до предиктора. Всё что отбирали на каждой итерации - сохраняется и оценивается. Получаем статистику, какие предикторы и с какими диапазонами участвовали чаще в разбиении - так выбирается (формируется) квантовая таблица. Вот с этой таблицей обучаемся уже на CatBoost. Альтернатива - бинаризация выборки и обучение только на отобранных отрезках - там сложности в обучении стандартными методами из-за большой разреженности данных. Вот можем потом получить статистику, как каждый квантовый отрезок из отобранных будет себя вести на новых данных - больше там будет детектится своего класса или нет относительно среднего значения в выборке (отсюда и вероятность упоминается). Тесты показали, что чем меньше остаётся данных, для оценки, чем меньше квантовых отрезков со смещением вероятности. Задача - удерживать процент таких квантовых отрезков на высоком уровне при последующих итерациях, так как от этого зависит вероятность выбора правильного сплита.

Эксперименты показывают, что при построении дерева критически важна очередность использования предикторов при сплите, а значит метод принципа жадности не будет часто давать оптимальное решение.

Ну и как вас понять-то) Если строим дерево, то всё что у нас есть - это листья, и ничего кроме листьев) Ну ладно, есть ещё ветки. Но они в итоге состоят из листьев!)

Aleksey Vyazmikin 2024.05.05 08:09 #35025

Maxim Dmitrievsky #:

аналогия не прослеживается?

В НС квантование используется часто для уменьшения размера слоёв, в том числе за счет изменения типов данных после квантования. Я этого не делал - поэтому и не писал про это.

Вообще не понимаю, к чему Вы ведёте - я уже написал своё отношение и виденье, согласился, что можно попробовать в моём алгоритме кластеризацию. Для этого то я с деревом кластеризации заморачивался месяца два назад - пока на паузе проект.

Или к чему это всё?

Любые вопросы новичков по Есть ли закономерность в CopyBuffer копирует массив не

Maxim Dmitrievsky 2024.05.05 08:10 #35026

Aleksey Vyazmikin #:

В НС квантование используется часто для уменьшения размера слоёв, в том числе за счет изменения типов данных после квантования. Я этого не делал - поэтому и не писал про это.

Вообще не понимаю, к чему Вы ведёте - я уже написал своё отношение и виденье, согласился, что можно попробовать в моём алгоритме кластеризацию. Для этого то я с деревом кластеризации заморачивался месяца два назад - пока на паузе проект.

Или к чему это всё?

Потому что там смысла с гулькин нос часто, но вы так сложно все описываете, что описание разобрать намного сложнее, чем понять смысл происходящего

из-за этого приходится рушить структуру своего мозга физически, переформатировать связи. Это приводит к чрезмерному потреблению пищи и алкоголя.

Ошибки, баги, вопросы По коэффициенту Шарпа Интересное и Юмор

Aleksey Vyazmikin 2024.05.05 08:11 #35027

Aleksey Nikolayev #:

Ну и как вас понять-то) Если строим дерево, то всё что у нас есть - это листья, и ничего кроме листьев) Ну ладно, есть ещё ветки. Но они в итоге состоят из листьев!)

Вы описали вариант с отбором листьев - я сказал, что тут листья не отбираются для дальнейшего использования с полученного дерева.

Aleksey Vyazmikin 2024.05.05 08:18 #35028

Maxim Dmitrievsky #:

Потому что там смысла с гулькин нос часто, но вы так сложно все описываете, что описание разобрать намного сложнее, чем понять смысл происходящего

из-за этого приходится рушить структуру своего мозга, переформатировать связи

Я услышал Ваше мнение о моей работе.

У меня другое мнение. Надеюсь, скоро сделаю генератор выборки с фиксированными закономерностями - там посмотрим, какой метод эффективней справляется с выявлением предрасположенностей.

Сложность восприятия в том, что я занимаюсь тем, о чём не пишут, поэтому для понимания нужно напрягать мозг - вникать, а это не хочется делать - особенно, если есть предвзятое мнение.

Помогите разобраться в проблеме Объект не работает в Элитные показатели :)

Maxim Dmitrievsky 2024.05.05 08:19 #35029

В общем вы делаете иерархическую кластеризацию и оцениваете потом устойчивость обучения на разных кластерах.

Вы не делаете квантование, потому что #этодругое

Maxim Dmitrievsky 2024.05.05 08:21 #35030

Сложность восприятия в том, что вы неправильно употребляете терминологию. Это факт.

Человек бы мог просто загуглить и сверить часы с вашими, но он не может, потому что ваши определения отсебятские.

В итоге в этом мире вас никто не поймет, потому что вы не уважаете общепринятые определения.

Индикатор MACD - лучший! FOREX - Тенденции, прогнозы FOREX - Тенденции, прогнозы

Машинное обучение в трейдинге: теория, модели, практика и алготорговля - страница 3503