Машинное обучение в трейдинге: теория, модели, практика и алготорговля - страница 3612

 
Потом свой любой датасет возьми. Трейн выборку исправь, обучи. И сравни в тестере на тесте с исправлениями и без. Все.

Надо сравнивать именно исходный и исправленный датасеты. Смотреть улучшения в тестере на новых данных.
 
ну и шо? 
 
Maxim Dmitrievsky #:
ну и шо? 

Да что то нумпай у себя в R-studio не смог запустить, этот пихтон со своими средами, проклятие а не ЯП...   кароч час морочился и сел мультики смотреть :)

 
mytarmailS #:

Да что то нумпай у себя в R-studio не смог запустить, этот пихтон со своими средами, проклятие а не ЯП...   кароч час морочился и сел мультики смотреть :)

Да на Р делай, я же скинул. Вроде на глаз то же самое считает что и моя на питоне.

Нормально Mistral коды переписывает. Иногда затупливает конечно.

 
Maxim Dmitrievsky #:

Да на Р делай, я же скинул. Вроде на глаз то же самое считает что и моя на питоне.

Нормально Mistral коды переписывает. Иногда затупливает конечно.

нужно быть увереным что код работает так же, нужно на питоне сделать, но бог свидетель я старался))

 
mytarmailS #:

нужно быть увереным что код работает так же, нужно на питоне сделать, но бог свидетель я старался))

На этом мои полномочия, как говорится, все.
 

А на каких котировках собственно обучаетесь вы?

Провёл небольшое исследование, тут в соседней ветке, опубликую и тут - думаю полезно.

Форум по трейдингу, автоматическим торговым системам и тестированию торговых стратегий

Будет ли хорошая стратегия работать на случайно сгенерированных данных?

Aleksey Vyazmikin, 2024.09.10 19:30

Тут я подумал, а похожи ли котировки MQ на котировки реального ДЦ? Под рукой оказался ДЦ RF (это не реклама), и сделал я выборку по часам на EURUSD так, же как описывал раньше, а заодно конвертировал чарт кастомный, что бы был под рукой. Обучил модели - по 10 штук на каждую настройку.

Вот такой разброс по Accuracy получился

А вот метрика Precision - показывает точность определения класса "1" - иными словами процент правильно классифицированных примеров, т.е. для нас это процент часов EURUSD от MQ, которые удалось точно определить, как принадлежащих MQ.

В теории, если выборки одинаковы, то обучение будет в районе 0,5 по этим показателям, т.е. модель будет классифицировать все примеры как "1" или "0", а показатели будут в районе 0,5.

Однако, и обучение по идеи не должно происходить, а у нас оно идёт бодренько - странное дело!


Заинтересовали выбросы на выборке exam, небольшие, но обращающие на себя внимание, посмотрим на положительное отклонение, это настройки Test_CB_Setup_48_000000005 - Исключили ATR, iDelta, Volume и OHLC типа + iVIDyA, iBWMFI, iChaikin.

Интересно, но не понятно - на чём же идёт обучение - логически затрудняюсь обосновать :)

Но, ясно одно, что-то тут не так - видать есть отличия в чартах, решил запилить скрипт, который:

  1. Посчитает число пропущенных баров (число синхронизаций) указанного TF с разбивкой по годам;
  2. Посчитает дельты OHLCV между найденными барами по времени для указанного TF  с разбивкой по годам;
  3. Посчитает дельту между High и Low бара двух символов для указанного TF  с разбивкой по годам.

Ниже результаты этих вычислений в виде графиков, для примера представлены последовательно расчеты для M1, H1 и D1.



Ну что, где наверное теперь остаётся понять, а где же рандомные котировки, а где реальные?

Если есть закономерности, то где же они быть должны? Неужели в разных ДЦ разные закономерности?

Хммм.... что думаете?

P.S. Может я ошибся в коде - приложил для аудита и частного использования.

 
Maxim Dmitrievsky #:

Там прикол в том, что если ты применишь эту функцию, то сразу увидишь улучшение на новых после обучения, если датасет не полный рэндом. То есть трейн и тест будут выглядеть более похожими, меньше переобучение.

Здесь вы пишите "меньше переобучение", а ТУТ 

"никогда не переобучается". Где истина? Вроде бы функция одна и та же.

Машинное обучение в трейдинге: теория, модели, практика и алготорговля - Попробуйте разделять все признаки и посчитать среднюю метку для каждого кластера.
Машинное обучение в трейдинге: теория, модели, практика и алготорговля - Попробуйте разделять все признаки и посчитать среднюю метку для каждого кластера.
  • 2024.07.24
  • Maxim Dmitrievsky
  • www.mql5.com
Количество кластеров соответсвует кол-ву паттернов. на которые хотите разделить все примеры и посчитать среднюю метку для каждого кластера. Каждый что то типа временного ряда на 350-400 точек. Зеленый класс - нормализированый и выровняный по времени
 
Evgeni Gavrilovi #:

Здесь вы пишите "меньше переобучение", а тут 

"никогда не переобучается". Где истина? Вроде бы функция одна и та же.

Очевидно, что где-то рядом. В первом случае про переобучение по отношению к валидационный выборке, во втором про переобучение в контексте тестовой выборки. Мы ведь обсуждаем нестационарные рынки.
 
Maxim Dmitrievsky #:
Очевидно, что где-то рядом. В первом случае про переобучение по отношению к валидационный выборке, во втором про переобучение в контексте тестовой выборки. Мы ведь обсуждаем нестационарные рынки.

В первом случае переобучения действительно никогда не происходит, потому что в обучении участвует кусок размеченной, исправленной выборки. Ошибки трейн/вал выравниваются. Во втором случае могут быть варианты, в зависимости от длины обучающей выборки, наличия паттернов, комбинации подобранных кластеров.

Можно, перед обучением, собрать статистику по кластерам и с теста, но тогда это будет уже своего рода подглядыванием.