Попробуйте создать компоненты в начале из которых будут складываться правила - Общее обсуждение

mytarmailS 2020.07.28 13:12 #19271

Aleksey Vyazmikin:

Так чем Ваш метод лучше моего - сбор листьев - это по сути новые предикторы, получившиеся на базе имеющихся данных. Нужно просто строить деревья не только с использованием сравнения но и преобразование и объединения уровней целевой, в общем можно на базе обычного дерева это реализовать и тащить от туда листья.

если ваш метод может генерить такие правила как я написал Максиму то ничем

Aleksey Vyazmikin 2020.07.28 14:02 #19272

mytarmailS:

если ваш метод может генерить такие правила как я написал Максиму то ничем

Мой метод позволят генерировать не рандомно, а осмысленно - больше урожай, так скажем, но на базе обычного дерева.

Я вообще про то, что в алгоритм дерева можно добавить ряд процедур преобразования при обучении, такие как сравнение одного предиктора с другим, умножения, деления, сложения, вычитания, иные действия. Суть в том, что при генетическом построении дерева будет подбираться вариант не случайный, а дающий какое либо описание выборки, что уменьшит период поиска решения. Выкидывая случайно предикторы из выборки мы сможем строить разные деревья с учетом этих преобразований.

Группировка листьев - требуются Есть ли закономерность в Пиши и зарабатывай на

Vladimir Perervenko 2020.07.28 14:10 #19273

Rorschach:
Нигде не попадалось исследований как лучше нормировать входы: приращения, вычитать ма, скользящим окном?

Что Вы подразумеваете под "нормировать"? Приведение распределения переменной как можно ближе к нормальному?

mytarmailS 2020.07.28 14:29 #19274

Aleksey Vyazmikin:

Мой метод позволят генерировать не рандомно, а осмысленно - больше урожай, так скажем, но на базе обычного дерева.

Я вообще про то, что в алгоритм дерева можно добавить ряд процедур преобразования при обучении, такие как сравнение одного предиктора с другим, умножения, деления, сложения, вычитания, иные действия. Суть в том, что при генетическом построении дерева будет подбираться вариант не случайный, а дающий какое либо описание выборки, что уменьшит период поиска решения. Выкидывая случайно предикторы из выборки мы сможем строить разные деревья с учетом этих преобразований.

прочитай те то правило которое я привел в качестве примера и попробуйте встроить генератор правил такого рода в дерево

Rorschach 2020.07.28 14:32 #19275

Vladimir Perervenko:

Что Вы подразумеваете под "нормировать"? Приведение распределения переменной как можно ближе к нормальному?

Приведение диапазона переменной к +-1

mytarmailS 2020.07.28 14:34 #19276

Vladimir Perervenko:

в продолжении личной беседы

ваш вариант

umap_transform(X = X[tr,], model = origin.sumap, n_threads = 4L, 
               verbose = TRUE) -> train.sumap

head(train.sumap)
[1,] 22.196741
[2,] 14.934501
[3,] 17.350166
[4,]  1.620347
[5,] 17.603270
[6,] 16.646723

обычный вариант

train.sumap <- umap_transform(X = X[tr,], model = origin.sumap, n_threads = 4L, 
               verbose = TRUE)

head(train.sumap)
[1,] 22.742882
[2,]  7.147971
[3,]  6.992639
[4,]  1.598861
[5,]  7.197366
[6,] 17.863510

как видите значения совсем другие, можете у себя проверить

У меня в модели

n_components = 1

потому только одна колонка, но это не важно на самом деле

===================UPD

Блин они при каждом запуске umap_tranform разные, так же не должно быть

Aleksey Vyazmikin 2020.07.28 14:53 #19277

mytarmailS:

прочитай те то правило которое я привел в качестве примера и попробуйте встроить генератор правил такого рода в дерево

А в чем проблема - создайте компоненты в начале из которых будут складываться правила.

mytarmailS 2020.07.28 15:41 #19278

Aleksey Vyazmikin:

А в чем проблема - создайте компоненты в начале из которых будут складываться правила.

да черт его знает, не могу собраться с мыслями

Vladimir Perervenko 2020.07.28 17:47 #19279

mytarmailS:

в продолжении личной беседы

ваш вариант

обычный вариант

как видите значения совсем другие, можете у себя проверить

У меня в модели

потому только одна колонка, но это не важно на самом деле

===================UPD

Блин они при каждом запуске umap_tranform разные, так же не должно быть

не обращал внимание. Давно это было...

Forester 2020.07.28 18:50 #19280

mytarmailS:

в продолжении личной беседы

ваш вариант

обычный вариант

как видите значения совсем другие, можете у себя проверить

У меня в модели

потому только одна колонка, но это не важно на самом деле

===================UPD

Блин они при каждом запуске umap_tranform разные, так же не должно быть

Обычно для повторяемости устанавливают Seed (встроенного ГСЧ) в какое-то значение. Если нет, то берется рандом. Возможно в этом пакете Seed тоже есть - проверьте.

Машинное обучение в трейдинге: теория, модели, практика и алготорговля - страница 1928