Что такое подгонка? - Общее обсуждение

Forester 2019.02.03 10:07 #12911

Aleksey Vyazmikin:

Всё ж таки странное и непредсказуемое это дело машинное обучение. Продолжая отладку работу с CatBoost получил модель, которая работает так (обучение+тест+экзамен)

Сделок может и не много (346) с 2014-2019, но зато и просадка средств 1299 за все время, что менее 10%. Конечно в 2014 году был сильный рост, который может уже и не повторится, но после весьма плавненько.

Ниже график только на экзаменационной выборке (условно, так-как выборка меньше, чем этот тест)

Но я не просто графики показываю, такое тут не редкость, а хочу сказать, что сильно удивился, когда посмотрел на содержимое модели - там используется всего 4 предиктора из 38!

TimeH - время в часах

DonProcVisota_M15 - относительная ширина канала Дончиана на M15

LastBarPeresekD_Down_M15 - Число баров с последнего момента пересечения канала Дончиана

BB_PeresekN_Total_M1 - Число пересечений ценой уровней iDelta за последние x баров

Конечно число предикторов у меня большое в выборке, я их дроблю, потом сидирую, и все это укладывается в мою теорию, что деление выборки по принципу жадности не всегда эффективно - это лишь метод, который ничего не гарантирует.

Вот такие модельки я хочу собирать и объединять в пулы.

Вполне ожидаемо, что большинство предикторов, на самом деле шум или коррелированы друг с другом.

Сидирую - это что? Яндекс только на тему раздачи торрентов говорит.

Aleksey Vyazmikin 2019.02.03 10:28 #12912

elibrarius:
Вполне ожидаемо, что большинство предикторов, на самом деле шум или коррелированы друг с другом.

Сидирую - это что? Яндекс только на тему раздачи торрентов говорит.

Идея не в том что они шум, а в том, что одни предикторы перекрывают другие - важны образуемые связи и их надо генерировать.

Сидирую, это я конечно для себя термин изобрел - применяю флаг --random-seed с конкретным цифровым значением. Правда не знаю, какие диапазоны у этого значения, но вижу что на обучение существенно влияет, и эта контролируемая рандомизация меня устраивает.

Объявление и определение переменных Работа со строками и Рекуррентные нейронные сети

Mihail Marchukajtes 2019.02.03 11:02 #12913

Братци всем привет. Подскажите индикатор который строит график средств по результатам тестирования стретегии в тестере. ЧТо то не могу найти... Был помнится помню. Если у кого под рукой киньтен им в меня. Спасибо!!!

Маркет - магазин приложений Визуализация тестирования - Алгоритмический Шаблоны и профили -

Forester 2019.02.03 11:43 #12914

Aleksey Vyazmikin:

Сидирую, это я конечно для себя термин изобрел - применяю флаг --random-seed с конкретным цифровым значением. Правда не знаю, какие диапазоны у этого значения, но вижу что на обучение существенно влияет, и эта контролируемая рандомизация меня устраивает.

Фиксируете рандомность. Обычно это применяют для воспроизводимости результатов при перезапусках.
Желательно, чтобы она не сильно влияла на результат. Иначе получается подгонка под конкретный рандом. Т.е. появляется еще одна фича (существенно влияющая), которую надо оптимизировать.

Советник рисовалка.... Билл Вильямс Советник привязан к конкретному

Грааль 2019.02.03 12:29 #12915

Renat Akhtyamov:

что за цифры?

вроде видел выше по теме кто говорил что тренды\флеты прогнозируются чуть ли на 90%, чей то там внук или ученик вроде говорил

Yuriy Asaulenko 2019.02.03 14:54 #12916

Грааль:

вроде видел выше по теме кто говорил что тренды\флеты прогнозируются чуть ли на 90%, чей то там внук или ученик вроде говорил

Да, 100%, что после флета будет тренд. Че там прогнозировать.

Renat Akhtyamov 2019.02.03 16:01 #12917

Грааль:

вроде видел выше по теме кто говорил что тренды\флеты прогнозируются чуть ли на 90%, чей то там внук или ученик вроде говорил

аааа

ну если тиков нет, видимо на рынкете флет, 100%

а если тиков много, то уже не флет

Aleksey Vyazmikin 2019.02.03 16:15 #12918

elibrarius:
Фиксируете рандомность. Обычно это применяют для воспроизводимости результатов при перезапусках.
Желательно, чтобы она не сильно влияла на результат. Иначе получается подгонка под конкретный рандом. Т.е. появляется еще одна фича (существенно влияющая), которую надо оптимизировать.

Да, именно нужно для воспроизведения результата в последствии и генерации результатов вообще.

Только до конца не ясно как это работает, я так понимаю что этот параметр отвечает за рандомность подсчета результатов сплита при выборе лучшего варианта, но деталей нигде не могу найти.

А про подгонку... надо исходить из того, что всё потенциальная подгонка, и мы лишь можем проверять устойчивость связей во времени и контролировать эффективность этих связей, к примеру та модель состоит из 4 деревьев, каждое из которых так же глубиной 4, т.е. из-за малого числа комбинаций подгонка тут весьма эффективная, а значит может оказаться какой то закономерностью, а не просто описанием выборки.

Есть ли закономерность в Группировка листьев - требуются Принципы работы с оптимизатором

Грааль 2019.02.03 17:04 #12919

Yuriy Asaulenko:
Да, 100%, что после флета будет тренд. Че там прогнозировать.

Ну как бы да, вопрос когда и сколько, а вообще нет даже однозначности как целевые формировать для обучения распознаванию тренда и флета

Renat Akhtyamov:

аааа

ну если тиков нет, видимо на рынкете флет, 100%

а если тиков много, то уже не флет

Нет, объёмы, а тем более плотность тиков, линейно не связанны с вероятностью перехода тренд<->флет, более волатильные участки могут показаться локально трендовыми, но по сути это не так.

Размышления о скользящих Ищу индикатор или скрипт Чистая математика, физика, логика

Yuriy Asaulenko 2019.02.03 20:26 #12920

Грааль:

Ну как бы да, вопрос когда и сколько, а вообще нет даже однозначности как целевые формировать для обучения распознаванию тренда и флета

Для этого МО не нужно. Это просто делается обычными индикаторами.

Машинное обучение в трейдинге: теория, модели, практика и алготорговля - страница 1292