Машинное обучение в трейдинге: теория, модели, практика и алготорговля - страница 2647
Вы упускаете торговые возможности:
- Бесплатные приложения для трейдинга
- 8 000+ сигналов для копирования
- Экономические новости для анализа финансовых рынков
Регистрация
Вход
Вы принимаете политику сайта и условия использования
Если у вас нет учетной записи, зарегистрируйтесь
Видел конечно, не так давно ржали над твоей мартышкой же
Вполне логично, закулисье есть даже у кукольного театра)
Вполне логично, закулисье есть даже у кукольного театра)
:D
Думаю, вопрос что делать с выявленными ящиками сложный и вряд ли имеет чёткие однозначные правила на все возможные случаи. Хороший, продуманный алгоритм, наверное, вполне тянет на секретное "ноу хау")
Если ящики получены на одном и том же наборе предикторов, то наверно достаточно их непересечённости. Если пересечение есть, то его можно выделить в отдельный ящик, а его дополнения можно разбить на несколько ящиков. Правда, слишком большое количество ящиков будет слишком сильно дробить выборку. Поэтому можно обобщить понятие ящика - на языке правил это означает добавление к И отрицаний и ИЛИ.
Если ящики получены на совершенно разных предикторах (например по методу рандом фореста), то пересекаться они могут только в смысле попавших в них частей выборки. Здесь наверно нужны какие-то околопортфельные идеи.
Если наборы предикторов пересекаются частично, то наверно какая-то смесь подходов, сложно сказать определённо.
Мне совершенно непонятно, как это в принципе можно уложить в единую схему. Стандартный способ построения решающих деревьев просто и "красиво" обходит эти проблемы, что делает его не вполне подходящим для наших целей. Возможно, удастся добиться улучшения подбором алгоритма обрезки, но на мой взгляд лучше творчески переработать алгоритм построения правил.
Умнейшые выводы..
У алгоритмов "из коробки" только апроксимирующие правила, тоесть тупые до нельзя, типа:
X[1]>0.5 && X[3]> -0.2 &...
У них только переменные (столбцы матрицы или фрейма Х1.....Х10) и абстрактные границы (цыфры X[1]>0.5 ) которые он сам выдумывает в процессе обучения для сздания границ в классах.
А как же банальное Х1 > Х2
или отрицание Х1 !> Х2
а как такой вариант Х1 > (Х2*Х3)
а привязка к индексам которая не работает на нестац. рынке??
тоесть выражение : ели было "А" но небыло "Б" тогда "С"
просто не по зубам алгориммам из коробки
Алгоритм тот же форест просто создает сотни правил и смотрит их сумму вероятности класса. На рынке нам важны редкие события, так что двигаться надо к качаству правил, а не количеству
Интересно как алгоритм уменьшения размерности видит выборки с разными типами данных с нормализацией и без
например есть данные , типы строки и цыфры
сначана q1 преобразую в цыфры
готово
теперь отправим в алгоритм UMAP и получаем собственные вектора
визуализируем точки
Прикольные червячки получились ))
Попробуем окрасить точки в цвет переменной q1
Как видим переменная q1 создает структуру этих червячков, она как бы тянет важность на себя , уменьшая вклад перенной q2
Ето из за того что у переменной q1 большые значения и данные не нормализированы
Если нормализовать данные, то каждая переменная внесет одинаковый вклад и мы получим
Я понимаю что для некоторых учасников это как бы очевыдные вещи, нужно нормализировать бла бла бла,
НО задумывались ли вы о том что умеличивая или уменьшая вклад переменных можно управдять кластеризацыей
визуализируем точки
На опарышей похоже :)
НО задумывались ли вы о том что умеличивая или уменьшая вклад переменных можно управдять кластеризацыей
нестационарностью цен, давно воюю с признаками
Интересно как алгоритм уменьшения размерности видит выборки с разными типами данных с нормализацией и без
например есть данные , типы строки и цыфры
сначана q1 преобразую в цыфры
строки лучше в категориальный вид переводить, а не в цифровой. Коненчно, если ваша UMAP их умеет обрабатывать.
а=1 от е=5 не в 5 раз отличается. Они просто разные, как теплое с мягким. А переведя в цифровой вид вы их сделали теплым и теплее.
а=1 от е=5 не в 5 раз отличается. Они просто разные,
Думаю, вопрос что делать с выявленными ящиками сложный и вряд ли имеет чёткие однозначные правила на все возможные случаи. Хороший, продуманный алгоритм, наверное, вполне тянет на секретное "ноу хау")
Если ящики получены на одном и том же наборе предикторов, то наверно достаточно их непересечённости. Если пересечение есть, то его можно выделить в отдельный ящик, а его дополнения можно разбить на несколько ящиков. Правда, слишком большое количество ящиков будет слишком сильно дробить выборку. Поэтому можно обобщить понятие ящика - на языке правил это означает добавление к И отрицаний и ИЛИ.
Если ящики получены на совершенно разных предикторах (например по методу рандом фореста), то пересекаться они могут только в смысле попавших в них частей выборки. Здесь наверно нужны какие-то околопортфельные идеи.
Если наборы предикторов пересекаются частично, то наверно какая-то смесь подходов, сложно сказать определённо.
Мне совершенно непонятно, как это в принципе можно уложить в единую схему. Стандартный способ построения решающих деревьев просто и "красиво" обходит эти проблемы, что делает его не вполне подходящим для наших целей. Возможно, удастся добиться улучшения подбором алгоритма обрезки, но на мой взгляд лучше творчески переработать алгоритм построения правил.
Ну вот, без понимания деталей сложно вносить изменения в логику.
Я, лично, так и не понял, что за дополнительные 2 координаты у ящика (2 - границы кванта) - предположил, что это обрезка выборки.
Просто ищу что-то полезное для развитие своего метода. У меня склейка "ящиков" так же есть - но алгоритм не идеален.