Машинное обучение в трейдинге: теория, модели, практика и алготорговля - страница 2647

 
Maxim Dmitrievsky #:
Видел конечно, не так давно ржали над твоей мартышкой же

Вполне логично, закулисье есть даже у кукольного театра)

 
Aleksey Nikolayev #:

Вполне логично, закулисье есть даже у кукольного театра)

:D

 
Aleksey Nikolayev #:

Думаю, вопрос что делать с выявленными ящиками сложный и вряд ли имеет чёткие однозначные правила на все возможные случаи. Хороший, продуманный алгоритм, наверное, вполне тянет на секретное "ноу хау")

Если ящики получены на одном и том же наборе предикторов, то наверно достаточно их непересечённости. Если пересечение есть, то его можно выделить в отдельный ящик, а его дополнения можно разбить на несколько ящиков. Правда, слишком большое количество ящиков будет слишком сильно дробить выборку. Поэтому можно обобщить понятие ящика - на языке правил это означает добавление к И отрицаний и ИЛИ.

Если ящики получены на совершенно разных предикторах (например по методу рандом фореста), то пересекаться они могут только в смысле попавших в них частей выборки. Здесь наверно нужны какие-то околопортфельные идеи.

Если наборы предикторов пересекаются частично, то наверно какая-то смесь подходов, сложно сказать определённо.

Мне совершенно непонятно, как это в принципе можно уложить в единую схему. Стандартный способ построения решающих деревьев просто и "красиво" обходит эти проблемы, что делает его не вполне подходящим для наших целей. Возможно, удастся добиться улучшения подбором алгоритма обрезки, но на мой взгляд лучше творчески переработать алгоритм построения правил.

Умнейшые выводы..

У алгоритмов "из коробки" только апроксимирующие правила, тоесть тупые до нельзя, типа:

X[1]>0.5 && X[3]> -0.2 &...

У них только переменные (столбцы матрицы или фрейма Х1.....Х10)   и абстрактные границы (цыфры  X[1]>0.5 ) которые он сам выдумывает в процессе обучения для сздания границ в классах.

А как же банальное Х1 > Х2

или отрицание     Х1 !> Х2

а как такой вариант   Х1  >  (Х2*Х3)

а привязка к индексам которая не работает на нестац. рынке??


тоесть выражение : ели было "А" но небыло "Б" тогда "С"

просто не по зубам алгориммам из коробки

Алгоритм тот же форест просто создает сотни правил и смотрит их сумму вероятности класса.  На рынке  нам важны редкие события, так что двигаться надо к качаству правил, а не количеству

 

Интересно как алгоритм уменьшения размерности видит выборки с разными типами данных с нормализацией и без

например есть данные , типы строки и цыфры

q1           q2
1    c -1.630015623
2    c  1.781979246
3    b -0.598134088
4    a -0.611477494
5    b -0.347432530
6    b -0.474427356
7    e -1.048827859
.....

сначана q1 преобразую в цыфры

q1           q2
1    3 -1.630015623
2    3  1.781979246
3    2 -0.598134088
4    1 -0.611477494
5    2 -0.347432530
6    2 -0.474427356
7    5 -1.048827859

.... 

готово

теперь отправим в алгоритм UMAP и получаем собственные вектора

                  [,1]         [,2]
    [1,]   6.762433406   9.08787260
    [2,] -21.488330368  10.67183802
    [3,]   6.810413818   9.35273386
    [4,] -20.950310976  15.20258097
    [5,]  32.100723691  -9.74704393
    [6,]   6.892939805  16.84639975
    [7,] -17.096480607  -6.63144430

визуализируем точки

Прикольные червячки получились ))

Попробуем окрасить точки  в цвет переменной   q1


Как видим переменная  q1 создает структуру этих червячков, она как бы тянет важность на себя , уменьшая вклад перенной  q2

Ето из за того что у переменной  q1 большые значения и данные не нормализированы

Если нормализовать данные, то каждая переменная внесет одинаковый вклад и мы получим

Я понимаю что для некоторых учасников это как бы очевыдные вещи, нужно нормализировать бла бла бла,

НО задумывались ли вы о том что умеличивая или уменьшая вклад переменных можно управдять кластеризацыей

 
mytarmailS #:

визуализируем точки


На опарышей похоже :)

 
mytarmailS #:

НО задумывались ли вы о том что умеличивая или уменьшая вклад переменных можно управдять кластеризацыей

Да, намеренно завышать или занижать значимость 
Но это сродни искусству, сложно поддать анализу 
Ситуация усугубляется нестационарностью цен, давно воюю с признаками: меняешь масштаб или нормализацию - меняются свойства обученной модели 
 
Maxim Dmitrievsky #:
 нестационарностью цен, давно воюю с признаками
Мы все там воюем 
 
mytarmailS #:

Интересно как алгоритм уменьшения размерности видит выборки с разными типами данных с нормализацией и без

например есть данные , типы строки и цыфры

сначана q1 преобразую в цыфры

строки лучше в категориальный вид переводить, а не в цифровой. Коненчно, если ваша UMAP их умеет обрабатывать.

а=1 от е=5 не в 5 раз отличается.       Они просто разные, как теплое с мягким. А переведя в цифровой вид вы их сделали теплым  и теплее.

 
elibrarius #:

а=1 от е=5 не в 5 раз отличается.       Они просто разные,

Хмм,  да ты абсолютно прав, я протупил че то

Там надо делать one hot  преобразование наверное или что то типа того
 
Aleksey Nikolayev #:

Думаю, вопрос что делать с выявленными ящиками сложный и вряд ли имеет чёткие однозначные правила на все возможные случаи. Хороший, продуманный алгоритм, наверное, вполне тянет на секретное "ноу хау")

Если ящики получены на одном и том же наборе предикторов, то наверно достаточно их непересечённости. Если пересечение есть, то его можно выделить в отдельный ящик, а его дополнения можно разбить на несколько ящиков. Правда, слишком большое количество ящиков будет слишком сильно дробить выборку. Поэтому можно обобщить понятие ящика - на языке правил это означает добавление к И отрицаний и ИЛИ.

Если ящики получены на совершенно разных предикторах (например по методу рандом фореста), то пересекаться они могут только в смысле попавших в них частей выборки. Здесь наверно нужны какие-то околопортфельные идеи.

Если наборы предикторов пересекаются частично, то наверно какая-то смесь подходов, сложно сказать определённо.

Мне совершенно непонятно, как это в принципе можно уложить в единую схему. Стандартный способ построения решающих деревьев просто и "красиво" обходит эти проблемы, что делает его не вполне подходящим для наших целей. Возможно, удастся добиться улучшения подбором алгоритма обрезки, но на мой взгляд лучше творчески переработать алгоритм построения правил.

Ну вот, без понимания деталей сложно вносить изменения в логику.

Я, лично, так и не понял, что за дополнительные 2 координаты у ящика (2 - границы кванта) - предположил, что это обрезка выборки.

Просто ищу что-то полезное для развитие своего метода. У меня склейка "ящиков" так же есть - но алгоритм не идеален.

Причина обращения: