Машинное обучение в трейдинге: теория, модели, практика и алготорговля - страница 1928

 
Aleksey Vyazmikin:

Так чем Ваш метод лучше моего - сбор листьев - это по сути новые предикторы, получившиеся на базе имеющихся данных. Нужно просто строить деревья не только с использованием сравнения но и преобразование и объединения уровней целевой, в общем можно на базе обычного дерева это реализовать и тащить от туда листья.

если ваш метод может генерить такие правила как я написал Максиму то ничем

 
mytarmailS:

если ваш метод может генерить такие правила как я написал Максиму то ничем

Мой метод позволят генерировать не рандомно, а осмысленно - больше урожай, так скажем, но на базе обычного дерева.

Я вообще про то, что в алгоритм дерева можно добавить ряд процедур преобразования при обучении, такие как сравнение одного предиктора с другим, умножения, деления, сложения, вычитания, иные действия. Суть в том, что при генетическом построении дерева будет подбираться вариант не случайный, а дающий какое либо описание выборки, что уменьшит период поиска решения. Выкидывая случайно предикторы из выборки мы сможем строить разные деревья с учетом этих преобразований.

 
Rorschach:
Нигде не попадалось исследований как лучше нормировать входы: приращения, вычитать ма, скользящим окном?

Что Вы подразумеваете под "нормировать"? Приведение распределения переменной как можно ближе к нормальному?

 
Aleksey Vyazmikin:

Мой метод позволят генерировать не рандомно, а осмысленно - больше урожай, так скажем, но на базе обычного дерева.

Я вообще про то, что в алгоритм дерева можно добавить ряд процедур преобразования при обучении, такие как сравнение одного предиктора с другим, умножения, деления, сложения, вычитания, иные действия. Суть в том, что при генетическом построении дерева будет подбираться вариант не случайный, а дающий какое либо описание выборки, что уменьшит период поиска решения. Выкидывая случайно предикторы из выборки мы сможем строить разные деревья с учетом этих преобразований.

прочитай те то правило которое я привел в качестве примера и попробуйте встроить генератор правил такого рода в дерево

 
Vladimir Perervenko:

Что Вы подразумеваете под "нормировать"? Приведение распределения переменной как можно ближе к нормальному?

Приведение диапазона переменной к +-1

 
Vladimir Perervenko:

в продолжении личной беседы 

ваш вариант

umap_transform(X = X[tr,], model = origin.sumap, n_threads = 4L, 
               verbose = TRUE) -> train.sumap
head(train.sumap)
[1,] 22.196741
[2,] 14.934501
[3,] 17.350166
[4,]  1.620347
[5,] 17.603270
[6,] 16.646723

обычный вариант

train.sumap <- umap_transform(X = X[tr,], model = origin.sumap, n_threads = 4L, 
               verbose = TRUE)
head(train.sumap)
[1,] 22.742882
[2,]  7.147971
[3,]  6.992639
[4,]  1.598861
[5,]  7.197366
[6,] 17.863510

как видите значения совсем другие, можете у себя проверить


У меня в модели 

n_components = 1

потому только одна колонка, но это не важно на самом деле

===================UPD

Блин они при каждом запуске  umap_tranform разные, так же не должно быть

 
mytarmailS:

прочитай те то правило которое я привел в качестве примера и попробуйте встроить генератор правил такого рода в дерево

А в чем проблема - создайте компоненты в начале из которых будут складываться правила.

 
Aleksey Vyazmikin:

А в чем проблема - создайте компоненты в начале из которых будут складываться правила.

да черт его знает, не могу собраться с мыслями

 
mytarmailS:

в продолжении личной беседы 

ваш вариант

обычный вариант

как видите значения совсем другие, можете у себя проверить


У меня в модели 

потому только одна колонка, но это не важно на самом деле

===================UPD

Блин они при каждом запуске  umap_tranform разные, так же не должно быть

не обращал внимание. Давно это было...

 
mytarmailS:

в продолжении личной беседы 

ваш вариант

обычный вариант

как видите значения совсем другие, можете у себя проверить


У меня в модели 

потому только одна колонка, но это не важно на самом деле

===================UPD

Блин они при каждом запуске  umap_tranform разные, так же не должно быть

Обычно для повторяемости устанавливают Seed (встроенного ГСЧ) в какое-то значение. Если нет, то берется рандом. Возможно в этом пакете Seed тоже есть - проверьте.
Причина обращения: