Вы упускаете торговые возможности:
- Бесплатные приложения для трейдинга
- 8 000+ сигналов для копирования
- Экономические новости для анализа финансовых рынков
Регистрация
Вход
Вы принимаете политику сайта и условия использования
Если у вас нет учетной записи, зарегистрируйтесь
Вопрос не по теме и скорее философский. Осознаётся ли, что подход к классификации посредством разбиения признаков на отрезки подразумевает разрывную зависимость выходов от входов? То есть, может возникнуть ситуация, когда сделка откроется при одном наборе значений признаков и не откроется при другом очень-очень близком к первому (они рядом с границей, но по разную сторону от неё). Я не говорю, что это неправильный подход. Просто хочу спросить - стоит ли за ним какая-то трейдерская интуиция или это произвольный выбор?
Да, такое возможно, в теории. Однако, метод бустинга подразумевает строения множества последовательных деревьев на разных предикторах, а значит для другого признака может быть выбрана нужная граница (если есть статистическое обоснование), таким образом "ошибка" нивелируется.
Как возможный альтернативный вариант можно предложить классификацию посредством логистической регрессии или методом ближайших соседей. Там на выходе можно получать оценку вероятности принадлежности к классу, которую можно, например, использовать для определения объёма сделки. Не настаиваю на каких-либо конкретных алгоритмах, просто интересует трейдерский аспект выбора конкретного алгоритма МО.
CatBoost так же дает оценку вероятности принадлежности к классу, но по моим наблюдением всё ровно наоборот - большая уверенность в редких наблюдениях, которые недостаточно часто возникают и это ведет к их переоценке, а на независимой выборке это приведет либо к неверной классификации либо к ещё более редкому возникновению высокого показателя.
Почему для трейдинга я использую CatBoost:
1. Быстрый алгоритм.
2. Современный и развивающийся алгоритм, включающий множества достижений в МО из коробки.
3. Автономный способ применения модели в MT5 без Питона и R.
Вопрос тут в том, как выявить "множество ценных отрезков и токсичных" - т.е. требуется выявить их взаимозаменяемость, либо делать в два прохода, как я ранее предложил. Или у Вас есть иной вариант?
Знаю способ только в два прохода. Сперва строим карту, потом выбираем путь. Сразу, без карты тоже можно пойти, но это гораздо большие риски, особенно когда овраги и болота по пути, и компаса, звезд и солнца нет)
Вопрос в стоимости действий и наличии начальных данных. Видимо отсюда надо ставить задачу. Условия разные могут быть. Мы знаем количество точек и отрезков. Мы не знаем количество отрезков, но знаем количество точек, Мы не знаем количество точек и отрезков, знаем только что их достаточно много. Мы знаем что количество отрезков от точки не более N.
В общем эту часть сперва нужно формализовать.
Да, такое возможно, в теории. Однако, метод бустинга подразумевает строения множества последовательных деревьев на разных предикторах, а значит для другого признака может быть выбрана нужная граница (если есть статистическое обоснование), таким образом "ошибка" нивелируется.
Иногда возникает ощущение, что это вовсе не ошибка и зависимость ответа от признаков (в наших задачах) вполне может иногда быть скачкообразной.
CatBoost так же дает оценку вероятности принадлежности к классу, но по моим наблюдением всё ровно наоборот - большая уверенность в редких наблюдениях, которые недостаточно часто возникают и это ведет к их переоценке, а на независимой выборке это приведет либо к неверной классификации либо к ещё более редкому возникновению высокого показателя.
Имею в виду, что обученная модель для каждого конкретного набора признаков вместо ответа "либо 0, либо 1" даёт ответ в виде числа на отрезке от 0 до 1. Логистическая регрессия, например, работает именно так. В случайных лесах вроде бы тоже так можно, но не понял имеете ли вы в виду именно это или говорите про метрики.
Дмитрий, помогите, пожалуйста, мне надо поменять в алгоритме массив cut[] с int на float, но компилятор сыплет ошибками.
Знаю способ только в два прохода. Сперва строим карту, потом выбираем путь. Сразу, без карты тоже можно пойти, но это гораздо большие риски, особенно когда овраги и болота по пути, и компаса, звезд и солнца нет)
Полный мрак ожидает отважных путников :)
Вопрос в стоимости действий и наличии начальных данных. Видимо отсюда надо ставить задачу. Условия разные могут быть. Мы знаем количество точек и отрезков. Мы не знаем количество отрезков, но знаем количество точек, Мы не знаем количество точек и отрезков, знаем только что их достаточно много. Мы знаем что количество отрезков от точки не более N.
В общем эту часть сперва нужно формализовать.
Ну как же, количество точек и отрезков мы знаем в начале поиска, даже знаем вероятный максимум отрезков, которые могут уместится в однин - 40 штук (если в отрезке не менее 5% точек от одного вида целевой при двух вариантах).
По факту отрезков разное количество может быть для перебора - сейчас получил, что от 1 до 263, но там могут быть дубликаты.
Иногда возникает ощущение, что это вовсе не ошибка и зависимость ответа от признаков (в наших задачах) вполне может иногда быть скачкообразной.
Если говорить о статистическом попадании в отрезок большего процента одного из классов, то да, отрезки расположенные рядом могут иметь разную предрасположенность к целевой. Я даже хочу попробовать сделать трансформацию с целью облегчения обучения, суть трансформации будет ранжирование отрезков по типу принадлежности к целевой и степени вероятности, таким образом в левой части будут отрезки для нулей, а в правой для единиц - в центре слабо выраженные.
Имею в виду, что обученная модель для каждого конкретного набора признаков вместо ответа "либо 0, либо 1" даёт ответ в виде числа на отрезке от 0 до 1. Логистическая регрессия, например, работает именно так. В случайных лесах вроде бы тоже так можно, но не понял имеете ли вы в виду именно это или говорите про метрики.
Это модель CatBoost после обучения по оси x вероятностная шкала - синяя кривая - количество примеров, видно что их число снижается.
Аква - класс 0, а магнетта - класс 1. Красная кривая - убыток, салатовая - прибыль.
а это та же модель уже на независимой выборке.
Думаете у логистической регресси другое распределение будет?
Сам же алгоритм логистической регрессии без тюнинга параметров проигрывает CatBoost.
Думаете у логистической регресси другое распределение будет?
Сам же алгоритм логистической регрессии без тюнинга параметров проигрывает CatBoost.
Нет, я не про сравнение алгоритмов на практике. Интересует философский вопрос, как при выборе алгоритма и его обучении правильно учитывать то, что классы могут быть а) чётко отделёнными друг от друга, б) перемешанными, в) некая смесь пунктов а) и б). Для пункта (а) нужна чёткая классификация, для (б) - нечёткая, а для (в) - нужно как-то их смешать, но не взбалтывать.
Возможно, мне стоит перенести свой вопрос в ветку про МО.
Нет, я не про сравнение алгоритмов на практике. Интересует философский вопрос, как при выборе алгоритма и его обучении правильно учитывать то, что классы могут быть а) чётко отделёнными друг от друга, б) перемешанными, в) некая смесь пунктов а) и б). Для пункта (а) нужна чёткая классификация, для (б) - нечёткая, а для (в) - нужно как-то их смешать, но не взбалтывать.
Возможно, мне стоит перенести свой вопрос в ветку про МО.
С четким разделением, пожалуй, справится любой алгоритм. Вопрос в том, какой алгоритм может лучше выделить подпространство для выделения областей перемешанных классов.
Проблема разметки в трейденге - сомнительность правильности разметки - отсюда и дополнительная сложность в обучении.
Я не работал со множеством, имеющихся в настоящий момент, методов МО, поэтому оценить их достоинства и недостатки в должной мере не могу.
Может экстраполировать пространство в будущее в виде фрактальных кластеров .
Покажете, как это сделать?