Машинное обучение в трейдинге: теория, модели, практика и алготорговля - страница 2552

 
elibrarius #:
Цвет свечи даже с ошибкой 30% может быть сливным. Мы ж не знаем сколько прибыли получим с нее.. как правило цвет хорошо угадывается в с медленных движениях цены (ночных), а 1 неугаданная сильная дневная свеча может стоить 10 маленьких ночных. Думаю, что угадывать цвет свечей - это опять иметь на выходе рандом (из за случайных размеров).
Поэтому классификацию делал с ТП, СЛ. Если они равны, то 52% успешных сделок уже прибылен. Если ТП=2*СЛ. То >33% успешных будут давать прибыль. Самое лучшее, что у меня получалось это 52-53% успешных сделок при ТП=СЛ за 2 года. Но вообще, я уже думаю на регрессию переходить с нефиксированными ТП/СЛ. Точнее как-то сделать классификацию на регрессии.

Ну да, вспомнил, мне такая целевая кажется не совсем эффективной, так как не учитывает волатильность.

Правильно я понимаю, что происходит открытие позиции виртуально каждый бар для подготови выборки?

 
СанСаныч Фоменко #:

В принципе не существует и не может существовать математических методов, которые из мусора сделают конфетку. Или имеется набор предикторов ПРЕДСКАЗЫВАЮЩИХ учителя, или у его нет.

А модели практически никакой роли не играют как и разные там кросс-валидации и прочие вычислительно емкие извращения.  


PS.

Кстати, "важность" предикторов в модели не имеет никакого отношения к способности предсказывать учителя.

Вы глубоко заблуждаетесь - нет идеальных методов построения моделей, способных самостоятельно отобрать "правильные" предикторы. Или такие мне не известны.

Может идеально описать рынок и нельзя, но применяя анализ выборки и предикторов можно значительно улучшить результат модели, пусть и с подглядыванием в данные для которых происходит обучение.

Вопрос в том, как эффективно отбирать предикторы и контролировать их аномальные изменения при применении модели.

 
Vladimir Perervenko #:

Три варианта обработки шумовых примеров: удалить, переразметить(исправить разметку) и выделить шумовые примеры в отдельный класс. Из моего опыта около 25% выборки - "шум". Повышение качества около 5%, зависит от моделей и подготовки данных. Применяю иногда.

Есть еще одна проблема при использовании предикторов - их дрейф. И эту проблему нужно определять и  учитывать и при тестировании и при эксплуатации. В приложении  перевод статьи (поищите и другие в сети) и есть пакет drifter. Он не единственный. Но суть в том, что при выборе предикторов нужно учитывать не только важность но и их дрейф. Сильно дрейфующие выбрасывать или трансформировать, для слабо дрейфующих учитывать(делать поправку) при тестировании и работе. 

Удачи

Как я понял, авторы статьи предлагают анализировать именно распределение значений предиктора за окно, и если оно сильно отличается, то сигнализировать об аномальности. Если правильно понял, то в примере берется окно в 1000 показателей - это большое окно, но видимо статистически оправданное. Вопрос, какие метрики используются для сравнения двух распределений для выявления существенного его изменения?

Далее такие мысли, само по себе изменение может быть прогнозируемо каким либо иным предиктором, допустим у нас глобальное изменение тренда на недельках, вызванное изменением процентной ставки - во всех выборки таких изменений мало - пусть 3 и модель может просто не отобрать эти предикторы, но если объединить два предиктора, то "аномальное" изменение поддасться интерпретации. Таким образом я прихожу к мысли, что само по себе дрейфование не повод для выкидывания предиктора, а повод поискать фактор его объясняющий - т.е. попробовать найти корреспондирующий предиктор и объединить их, создав новый предиктор.

В свою очередь кратко скажу о своем методе - я разбираю предикторы на "кванты" (отрезки) и оцениваю уже бинарный отклик квантов через их предсказательную способность. Делая срез таких оценок по истории удается подобрать хорошие наборы квантов, которые могут служить как отдельными предикторами, так и быть использованы для отбора базовых предикторов. Данный подход позволяет так же улучшить результаты. Соответственно, оценка стабильности поведения квантов, и их отбор, на контрольных выборках существенно улучшает результат обучения модели в CatBoost, и тут я думаю, допустимо ли это использовать или это уже самообман.

 
Aleksey Vyazmikin #:

Ну да, вспомнил, мне такая целевая кажется не совсем эффективной, так как не учитывает волатильность.

Согласен. Ночью сделка будет зависать на несколько часов, а днем может и за 5 минут завершится. Вот и думаю, как регрессионную модель к классификации приделать. В "лоб" прогнозировать цифру 0,1,2 не подойдет. Надо что-то поумнее.

Правильно я понимаю, что происходит открытие позиции виртуально каждый бар для подготови выборки?

Да, если есть предсказанный класс на покупку/продажу. Еще есть класс - ждать.

 
elibrarius #:

Согласен. Ночью сделка будет зависать на несколько часов, а днем может и за 5 минут завершится. Вот и думаю, как регрессионную модель к классификации приделать. В "лоб" прогнозировать цифру 0,1,2 не подойдет. Надо что-то поумнее.

Логистическая регрессия 
 
СанСаныч Фоменко #:

Несколько лет не был на форуме, а воз и ныне там. как в песне: "Каким ты был, таким остался, орел степной, казак лихой...".

Статистика начинается с аксиомы, которая будучи аксиомой, не обсуждается:


"Мусор на входе- мусор на выходе".


В принципе не существует и не может существовать математических методов, которые из мусора сделают конфетку. Или имеется набор предикторов ПРЕДСКАЗЫВАЮЩИХ учителя, или у его нет.

А модели практически никакой роли не играют как и разные там кросс-валидации и прочие вычислительно емкие извращения.  


PS.

Кстати, "важность" предикторов в модели не имеет никакого отношения к способности предсказывать учителя.

Всегда есть те, кто как товарищ Сухов считают: "Лучше, конечно, помучиться")

Согласен с тем, что поиск подходящих предикторов важнее конкретной модели. И лучше их строить исходя, в первую очередь, из изучения предметной области, а не полагаясь только на мощь алгоритмов МО (и конструируя предикторы неинтерпретируемым образом из баров).

Не менее чем предикторы важна ещё функция потерь, которая должна хорошо соответствовать предметной области и решаемой задаче.

 
Даже не знаю можно ли назвать работу с АМО поиском закономерностей, скорей это обычная апроксимация/ подгонка под целевую фун. 
Может ли АМО что то умное придумать?
 
mytarmailS #:
Может ли АМО что то умное придумать?

Нет, это база данных по заученной истории. Что такое лист в дереве? 10-20-100-1000 примеров/строк из прошлого, каким то способом отобранные как похожие. Ответ листа: для  классификации - % самого частого класса или просто самый частый класс, для регрессии среднеарифметическое значение от всех значений.

Далее, если лес, то усредняет значение всех деревьев в лесу. Если бустинг, то суммирует значения всех деревьев (каждое последующее дерево корректирует сумму всех предыдущих, для получения наиболее точного ответа.)
 
Dmytryi Nazarchuk #:
Логистическая регрессия 
Регрессия лесом/бустом поточнее будет.
 
elibrarius #:

Нет, это база данных по заученной истории...

Это был риторический вопрос:))

Причина обращения: