Машинное обучение в трейдинге: теория, модели, практика и алготорговля - страница 3332
Вы упускаете торговые возможности:
- Бесплатные приложения для трейдинга
- 8 000+ сигналов для копирования
- Экономические новости для анализа финансовых рынков
Регистрация
Вход
Вы принимаете политику сайта и условия использования
Если у вас нет учетной записи, зарегистрируйтесь
Пока не укладывается в голову. Хорошо это всё в одном пространстве же происходит - в метрике одного предиктора, а как учитывать остальные?
По поводу что делать при прогнозировании - я предполагал использовать две модели - одна детектит то, что отсеяли, или подтверждает, что данные в области "кучкавания", а другая уже работает на том, что осталось.
https://www.mql5.com/ru/articles/9138
уже год как никому нет дела
Подобных алгоритмов написал с десяток или двадцаток, некоторые хорошо себя зарекомендовали. В статье не самый лучший по стабильности результатов, первый блин комом.
поэтому пока нечего обсуждать, потому что пока нет ничего лучше
Пока не укладывается в голову. Хорошо это всё в одном пространстве же происходит - в метрике одного предиктора, а как учитывать остальные?
По поводу что делать при прогнозировании - я предполагал использовать две модели - одна детектит то, что отсеяли, или подтверждает, что данные в области "кучкавания", а другая уже работает на том, что осталось.
В примере 2 предиктора, т.е. изменяем расстояние в 2-х мерном пространстве (рассчитываем гипотенузу). Если будет 5000 признаков, значит будете измерять расстояние в 5000-мерном пространстве (как измерять - см код k-means в алглибе, там как раз это основная задача - измерять расстояния, возьмите его себе за основу).
Похоже, что корень из суммы квадратов катетов во всех пространствах https://wiki.loginom.ru/articles/euclid-distance.html
Если будете реально делать - не забудьте отнормировать предикторы, чтобы например объемы 1...100000, не проглотили в расчетах дельты цен 0,00001...0,01000.
Как это детектировать? Вот в чем вопрос. Особенно на рыночных данных, где не будет такого четкого разделения зашумленной области, как в примере. Зашумлено будет всё, процентов на 90-99.
Возможно проще воспользоваться готовыми пакетами по удалению шумных строк, может там и детектор есть...
https://www.mql5.com/ru/articles/9138
уже год как никому нет дела
Подобных алгоритмов написал с десяток или двадцаток, некоторые хорошо себя зарекомендовали. В статье не самый лучший по стабильности результатов, первый блин комом.
поэтому пока нечего обсуждать, потому что пока нет ничего лучше
Ну, почему нет дела - думаю, что просто не распространён ещё питон среди трейдеров, что бы люди переходили в активное обсуждение.
Попробую попозже на своей выборке Ваш подход.
Пробовали метод из коробки от CatBoost?
sibirqk #:
Они синхронизированы. Я же написал в начале поста - 'выровнял их по датам', что как раз и означает синхронизацию пар по времени.
"Но к сожалению, имхо, опять полный рандом. На картинке кусок графиков для иллюстрации."
Вы правы, не все так просто
В примере 2 предиктора, т.е. изменяем расстояние в 2-х мерном пространстве (рассчитываем гипотенузу). Если будет 5000 признаков, значит будете измерять расстояние в 5000-мерном пространстве (как измерять - см код k-means в алглибе, там как раз это основная задача - измерять расстояния, возьмите его себе за основу).
Похоже, что корень из суммы квадратов катетов во всех пространствах https://wiki.loginom.ru/articles/euclid-distance.html
Теперь наклёвывается понимание - спасибо - буду думать.
Если будете реально делать - не забудьте отнормировать предикторы, чтобы например объемы 1...100000, не проглотили в расчетах дельты цен 0,00001...0,01000.
Верно, надо нормировать. Однако, а что если их отквантовать и метрику чисто по индексам считать? :) И чего то мне не нравится идея через катеты считать - искусственно как то оно.
Хотя, правильным было бы воспроизвести предложенный алгоритм, а потом думать о его улучшении.
Как это детектировать? Вот в чем вопрос. Особенно на рыночных данных, где не будет такого четкого разделения зашумленной области, как в примере. Зашумлено будет всё, процентов на 90-99.
Возможно проще воспользоваться готовыми пакетами по удалению шумных строк, может там и детектор есть...
Вообще, Вы смотрели видео? Там ближе к концу как раз говорится о том, что строится модель, которая как раз и детектит к какой области относятся данные, и если к некучкующимся, по данном выборки на которой проходило обучение, то игнорируется сигнал, как я понял. Понятно, что у нас данные намного хуже, чем там обсуждались, но если это будет 20%-30% целевых "1", то я уже буду рад.
Другой вариант - обучить модель детектировать эти исключённые примеры, сделав разметку по этим строкам в общей выборке.
Верно, надо нормировать. Однако, а что если их отквантовать и метрику чисто по индексам считать? :) И чего то мне не нравится идея через катеты считать - искусственно как то оно.
Одна фича отквантовалась к 2х квантам другая к 32. Не пойдет.
Вообще, Вы смотрели видео? Там ближе к концу как раз говорится о том, что строится модель, которая как раз и детектит к какой области относятся данные, и если к некучкующимся, по данном выборки на которой проходило обучение, то игнорируется сигнал, как я понял. Понятно, что у нас данные намного хуже, чем там обсуждались, но если это будет 20%-30% целевых "1", то я уже буду рад.
Другой вариант - обучить модель детектировать эти исключённые примеры, сделав разметку по этим строкам в общей выборке.
Не смотрел.
Детектировать исключенные примеры можно без всех этих расчетов. Уже говорил, - просто исключаете листья у которых вероятность одного из классов около 50%.
Одна фича отквантовалась к 2х квантам другая к 32. Не пойдет.
Да не, будет то ж самое относительное место - число разделителей(сплитов) - фиксированное для всех.
Детектировать исключенные примеры можно без всех этих расчетов. Уже говорил, - просто исключаете листья у которых вероятность одного из классов около 50%.
Методов может быть много разных. Мне интересен вариант обработки до построения модели - как мне кажется, он даёт меньше вариантов комбинаций построения, что снижает ошибку при конечном выводе - успешно прошло обучение окончательной модели или нет, в целом.
К тому же, если мы говорим о том, что можно чего либо "выкинуть", то надо упомянуть о каких моделях идёт речь. Если это лес, то считать процент листьев без "выбывших" или считать число активаций этих возле 50%, и при превышении их порога не реагировать на сигнал?
При бустинге там ещё веселей - неуверенные листья в сумме могут смещать вероятность в ту или иную сторону - всё хочу график построить, на котором видно будет как раздаются веса в зависимости от смещения вероятности, но всё откладываю. Три дня компьютер считает похожесть листьев модели - думаю об оптимизации алгоритма - слишком долго...
Если будет 5000 признаков
Ну, почему нет дела - думаю, что просто не распространён ещё питон среди трейдеров, что бы люди переходили в активное обсуждение.
Попробую попозже на своей выборке Ваш подход.
Пробовали метод из коробки от CatBoost?