Хороший, продуманный алгоритм построения решающих деревьев - Общее обсуждение

Aleksey Nikolayev 2022.05.25 11:13 #26461

Maxim Dmitrievsky #:
Видел конечно, не так давно ржали над твоей мартышкой же

Вполне логично, закулисье есть даже у кукольного театра)

Maxim Dmitrievsky 2022.05.25 11:14 #26462

Aleksey Nikolayev #:

Вполне логично, закулисье есть даже у кукольного театра)

:D

mytarmailS 2022.05.25 11:42 #26463

Aleksey Nikolayev #:

Думаю, вопрос что делать с выявленными ящиками сложный и вряд ли имеет чёткие однозначные правила на все возможные случаи. Хороший, продуманный алгоритм, наверное, вполне тянет на секретное "ноу хау")

Если ящики получены на одном и том же наборе предикторов, то наверно достаточно их непересечённости. Если пересечение есть, то его можно выделить в отдельный ящик, а его дополнения можно разбить на несколько ящиков. Правда, слишком большое количество ящиков будет слишком сильно дробить выборку. Поэтому можно обобщить понятие ящика - на языке правил это означает добавление к И отрицаний и ИЛИ.

Если ящики получены на совершенно разных предикторах (например по методу рандом фореста), то пересекаться они могут только в смысле попавших в них частей выборки. Здесь наверно нужны какие-то околопортфельные идеи.

Если наборы предикторов пересекаются частично, то наверно какая-то смесь подходов, сложно сказать определённо.

Мне совершенно непонятно, как это в принципе можно уложить в единую схему. Стандартный способ построения решающих деревьев просто и "красиво" обходит эти проблемы, что делает его не вполне подходящим для наших целей. Возможно, удастся добиться улучшения подбором алгоритма обрезки, но на мой взгляд лучше творчески переработать алгоритм построения правил.

Умнейшые выводы..

У алгоритмов "из коробки" только апроксимирующие правила, тоесть тупые до нельзя, типа:

X[1]>0.5 && X[3]> -0.2 &...

У них только переменные (столбцы матрицы или фрейма Х1.....Х10) и абстрактные границы (цыфры X[1]>0.5 ) которые он сам выдумывает в процессе обучения для сздания границ в классах.

А как же банальное Х1 > Х2

или отрицание Х1 !> Х2

а как такой вариант Х1 > (Х2*Х3)

а привязка к индексам которая не работает на нестац. рынке??

тоесть выражение : ели было "А" но небыло "Б" тогда "С"

просто не по зубам алгориммам из коробки

Алгоритм тот же форест просто создает сотни правил и смотрит их сумму вероятности класса. На рынке нам важны редкие события, так что двигаться надо к качаству правил, а не количеству

Торговые системы: Эксперты на Не Грааль, просто обычненький Помогите определиться с уравнением

mytarmailS 2022.05.25 12:35 #26464

Интересно как алгоритм уменьшения размерности видит выборки с разными типами данных с нормализацией и без

например есть данные , типы строки и цыфры

q1           q2
1    c -1.630015623
2    c  1.781979246
3    b -0.598134088
4    a -0.611477494
5    b -0.347432530
6    b -0.474427356
7    e -1.048827859
.....

сначана q1 преобразую в цыфры

q1           q2
1    3 -1.630015623
2    3  1.781979246
3    2 -0.598134088
4    1 -0.611477494
5    2 -0.347432530
6    2 -0.474427356
7    5 -1.048827859

....

готово

теперь отправим в алгоритм UMAP и получаем собственные вектора

                  [,1]         [,2]
    [1,]   6.762433406   9.08787260
    [2,] -21.488330368  10.67183802
    [3,]   6.810413818   9.35273386
    [4,] -20.950310976  15.20258097
    [5,]  32.100723691  -9.74704393
    [6,]   6.892939805  16.84639975
    [7,] -17.096480607  -6.63144430

визуализируем точки

Прикольные червячки получились ))

Попробуем окрасить точки в цвет переменной q1

Как видим переменная q1 создает структуру этих червячков, она как бы тянет важность на себя , уменьшая вклад перенной q2

Ето из за того что у переменной q1 большые значения и данные не нормализированы

Если нормализовать данные, то каждая переменная внесет одинаковый вклад и мы получим

Я понимаю что для некоторых учасников это как бы очевыдные вещи, нужно нормализировать бла бла бла,

НО задумывались ли вы о том что умеличивая или уменьшая вклад переменных можно управдять кластеризацыей

Интерполяция, аппроксимация и иже Любые вопросы новичков по Альтернативные реализации стандартных функций/подходов

PapaYozh 2022.05.25 12:39 #26465

mytarmailS #:

визуализируем точки

На опарышей похоже :)

Maxim Dmitrievsky 2022.05.25 13:41 #26466

mytarmailS #:

НО задумывались ли вы о том что умеличивая или уменьшая вклад переменных можно управдять кластеризацыей

Да, намеренно завышать или занижать значимость

Но это сродни искусству, сложно поддать анализу

Ситуация усугубляется нестационарностью цен, давно воюю с признаками: меняешь масштаб или нормализацию - меняются свойства обученной модели

mytarmailS 2022.05.25 14:04 #26467

Maxim Dmitrievsky #:
нестационарностью цен, давно воюю с признаками

Мы все там воюем

Forester 2022.05.25 14:35 #26468

mytarmailS #:

Интересно как алгоритм уменьшения размерности видит выборки с разными типами данных с нормализацией и без

например есть данные , типы строки и цыфры

сначана q1 преобразую в цыфры

строки лучше в категориальный вид переводить, а не в цифровой. Коненчно, если ваша UMAP их умеет обрабатывать.

а=1 от е=5 не в 5 раз отличается. Они просто разные, как теплое с мягким. А переведя в цифровой вид вы их сделали теплым и теплее.

Считывание текста с блокнота Головоломки биржевые :) В чем смысл Грааля...

mytarmailS 2022.05.25 15:09 #26469

elibrarius #:

а=1 от е=5 не в 5 раз отличается. Они просто разные,

Хмм, да ты абсолютно прав, я протупил че то

Там надо делать one hot преобразование наверное или что то типа того

Aleksey Vyazmikin 2022.05.25 16:02 #26470

Aleksey Nikolayev #:

Думаю, вопрос что делать с выявленными ящиками сложный и вряд ли имеет чёткие однозначные правила на все возможные случаи. Хороший, продуманный алгоритм, наверное, вполне тянет на секретное "ноу хау")

Если ящики получены на одном и том же наборе предикторов, то наверно достаточно их непересечённости. Если пересечение есть, то его можно выделить в отдельный ящик, а его дополнения можно разбить на несколько ящиков. Правда, слишком большое количество ящиков будет слишком сильно дробить выборку. Поэтому можно обобщить понятие ящика - на языке правил это означает добавление к И отрицаний и ИЛИ.

Если ящики получены на совершенно разных предикторах (например по методу рандом фореста), то пересекаться они могут только в смысле попавших в них частей выборки. Здесь наверно нужны какие-то околопортфельные идеи.

Если наборы предикторов пересекаются частично, то наверно какая-то смесь подходов, сложно сказать определённо.

Мне совершенно непонятно, как это в принципе можно уложить в единую схему. Стандартный способ построения решающих деревьев просто и "красиво" обходит эти проблемы, что делает его не вполне подходящим для наших целей. Возможно, удастся добиться улучшения подбором алгоритма обрезки, но на мой взгляд лучше творчески переработать алгоритм построения правил.

Ну вот, без понимания деталей сложно вносить изменения в логику.

Я, лично, так и не понял, что за дополнительные 2 координаты у ящика (2 - границы кванта) - предположил, что это обрезка выборки.

Просто ищу что-то полезное для развитие своего метода. У меня склейка "ящиков" так же есть - но алгоритм не идеален.

Переписка с экспертом Нужна ли возможность создавать Помогите сохранить состояние положение

Машинное обучение в трейдинге: теория, модели, практика и алготорговля - страница 2647