Машинное обучение в трейдинге: теория, модели, практика и алготорговля - страница 890

 
Aleksey Vyazmikin:

Вот и первый подопытной готов - обучение 2015-2016 год, а с 2017 чистая торговля по отобранным правилам дерева - не слился - уже хорошо?

Против торговли без НС - обучение(тьфу ты - настройка и оптимизация) 2016-2017 год


Пока так и не понимаю, как лучше делать - отобрал в итоге правила и превратил их в код - очень кропотливая ручная работа... нужна какая то автоматизация процесса.


Ошибка с ваших 10% на обучении сразу стала 50% на будущем.

Это или переобучение или подглядывание предикторами в будущее.
 
Maxim Dmitrievsky:

так у вас без дерева и так все работает ) попробуйте из моей статьи оптимизатор на лесе прикрутить, мб результаты улучшатся

а для определения импортанса можно использовать взаимную информацию, код есть (если надо)

Посмотрел две статьи - не понял, что подразумевается под оптимизатором на леса?

Про импортанс можно поподробней, какую взаимную информацию - между сетью и советником без сети или сигналом на покупку и продажу? Код надо, хотя не факт, что разберусь.

 
elibrarius:

Ошибка с ваших 10% на обучении сразу стала 50% на будущем.

Это или переобучение или подглядывание предикторами в будущее.

Не совсем так, я отобрал руками только 25 правил на покупку и 16 правил на продажу, от всех правил это наверное менее 0,1%. Выше я как раз и писал, что беда в том, что на мой взгляд слишком много правил получается, что не эффективно.

Подглядывания там нет (в логике нет, ну если ошибка в коде, но используется два кода - одни для снятия информации в скрипте, другой для работы по правилам в виде индикатора, т. е. вероятность ошибки меньше).

Переобучения - да может и так, вообще же, если глобально, то фичи мои из области "следуйте за тенденцией", сделаны для поиска трендов, а 2017 год на Si был почти из одних флэтов, без глобальных трендов - несколько разный рынок.

С другой стороны, фичи у меня собираются с  разных ТФ, получается некая классификация большего к меньшему и выглядит это как перевернутая пирамида, или зуммирование, т.е. поделили условно месяц на две части с подмножествами, посмотрели в каждом подмножестве на такую же неделю, день, час... и вот собрали статистику, которая с другими фичами оказалась повторяющейся на выборке. 

Правила на покупку


Голубой - это нахождение цена в канале Дончиана в момент принятия решения - от 0 - 10 - шаг 10% - предлагается покупка при росте цены, что разумно в целом.

Зеленый - как раз крупный масштаб области планового ATR день, неделя, месяц - т.е. крупная тенденция, там разбивка от -8 уровня до +8 уровня, к примеру видно, что при перепроданности на месячном TF - уровень -6 - всего 1 правило на покупку, в то время как предпологается рост с уровня -3, -1, -2, -4 - т.е. вероятно, большой упор сделан на тот факт, что в основном фьючерс на доллар за рубль больше рос, чем падал по месяцам, и имели место перевороты внутри бара (обратное прохождение цены открытия после сильного движение в одну из сторон).

Серый(?) - RSI на часе -  рекомендуется покупка вне уровней 70 (только 1 раз рекомендуется покупка за уровнем 70).

Оранжевый (по заверению офиса) - BB_Up - это нахождение цены за уровнем верхней границы болленджера при открытии нового бара - 6 из 25 предпочитают перекупленность в моменте, как сигнал для входа, но остальные 19 предпочитают отсутсвие перепроданности, а судя по BB_Down - покой - полку или флэт.

Желтый - TimeH - тут предпочтение ко входу в 10 часов (4 из 13) - т.е. сразу на открытии и на закрытии - в 23 часа (2 из 13), и это не удивительно так-как в 10 часов резкое и сильное движение обеспечено, оставшиеся 12,15,13,17 - нормальная дневная сессия с хорошей волотильностью, а вот 20 часов скорей исключение из правил. Возможно, если добавить дни недели, то вылезут закономерности связанные с еженедельными новостями - для рубля актуальны запасы нефти и их прогнозы - попробую.

 

Хотел сохранить обед молчания до получения хорошей статистики, но не могу смотреть как вы упорно ошибаетесь....

Любое преобразование ведёт к снижению информации о искомом ряде. Даже Машка с параметром 2 начинает запаздывать и при этом теряет незначительное количество информации о котире. НС настолько тонкий инструмент работающий с вещественными числами, где любая цифра пусть даже на 10 знаке после запятой может быть решающей при окончательном решении. Вы же полностью обрубаете всю вещественную часть числа приведя свои входы к категориям от -1 до 30 (как пример) при этом у вас получается 31 категория. В вещественном мире количество вариантов между -1 и 30 больше ровно на столько порядков насколько Вы берете эти порядки после запятой. В итоге если вы берёте инт то имеете 31 вариант разделения, а если добл то вариантов разделения становится значительно больше. 

Если вы используете категориальный вход итн от -1 до 30 то качество самих данных должно быть очень высоким чтоб сеть смогла на них обучится и получился бы качественный результат, а поскольку ВСЕ ваши данные построенны от цены то качество их под большим сомнением, а вы ещё и обрезали вещественные числа в инт, тем самым убив возможность НС зацепится хоть за что ни будь.

Категории можно использовать на входе если качество используемых данных и так достаточно высокое. Что в принципе невилирует использование НС в принципе. Обладая хорошими категориальными предикторами можно построить ТС и без НС....

Ну это так.... мысли вслух... сердце кровью обливается когда смотрю на Вашу охинею... Даже обед молчания нарушил.....

 

Если мы сравниваем одно озеро с другим, то так ли важна нам метрика? Не, ну конечно, если мы сравниваем озеро не с озером, то ответ может быть разный - и пруд и лужа, на надо ли боятся замочить ноги в луже идя к озеру? Лично я не вижу смысла в точных категориях, может это важно для той НС, которая умеет анализировать информацию вдоль и поперек, но такой у меня нет, а для дерева этого более чем достаточно, как я сейчас вижу.

 
Aleksey Vyazmikin:

Если мы сравниваем одно озеро с другим, то так ли важна нам метрика? Не, ну конечно, если мы сравниваем озеро не с озером, то ответ может быть разный - и пруд и лужа, на надо ли боятся замочить ноги в луже идя к озеру? Лично я не вижу смысла в точных категориях, может это важно для той НС, которая умеет анализировать информацию вдоль и поперек, но такой у меня нет, а для дерева этого более чем достаточно, как я сейчас вижу.

Что бы использовать категориальные входы. Качество таких входов должно быть очень хорошее. Чтобы получить хоть маломальскиую рабочую модель.  Если качество входов слабенькое, то лучше не переводить в категории, а подавать вещественные значения самих индикаторов. Так НС будет больше вариантов разделить эту область адекватно ИМХО!!!

 

Ладно хочу выразить особую благодарность ФОКУСНИКУ!!!!!

Не думал что дойдёт до этого, но твой совет действительно оказался ключевым при подготовки предикторов. Так что низкий тебе поклон суч.. онышь ты эдакий!!!! (без обид)

я обязательно чуть позже выложу видео где обязательно в нём тебя упомяну... Так что ждите видос от Михаила :-) где я расскажу о своём понимании области Мо в целом. Думаю данное видео будет интересным не только начинающим, но и бывалым.... так что.. ожидайте!!!!

 
Mihail Marchukajtes:

Что бы использовать категориальные входы. Качество таких входов должно быть очень хорошее. Чтобы получить хоть маломальскиую рабочую модель.  Если качество входов слабенькое, то лучше не переводить в категории, а подавать вещественные значения самих индикаторов. Так НС будет больше вариантов разделить эту область адекватно ИМХО!!!

В чём предлагается измерять качество?

 
Mihail Marchukajtes:

Что бы использовать категориальные входы. Качество таких входов должно быть очень хорошее. Чтобы получить хоть маломальскиую рабочую модель.  Если качество входов слабенькое, то лучше не переводить в категории, а подавать вещественные значения самих индикаторов. Так НС будет больше вариантов разделить эту область адекватно ИМХО!!!

31 категория.. нет это скорее дискретизация с 31 шагом. В одной из статей Владимира это используется и результат не хуже.
 
Aleksey Vyazmikin:

В чём предлагается измерять качество?

Во первых зафиксируйте момент принятия решения. Пусть это будет какое то событие. Потом именно в этот момент когда событие произошло сохраните значения индикаторов.

Если честно не совсем понятна Ваша таблица. Что в ней???