Машинное обучение в трейдинге: теория, модели, практика и алготорговля - страница 3089
Вы упускаете торговые возможности:
- Бесплатные приложения для трейдинга
- 8 000+ сигналов для копирования
- Экономические новости для анализа финансовых рынков
Регистрация
Вход
Вы принимаете политику сайта и условия использования
Если у вас нет учетной записи, зарегистрируйтесь
Расскажите лучше в чем идея? Сравнивают стат. параметры на участках обучения и теста? И если хуже в 2,3,5,10 раз то переобучена?
Я ещё сам не разбирался, только на глаза попалось, не хватает времени на все катастрофически
Я ещё сам не разбирался, только на глаза попалось, не хватает времени на все катастрофически
Уж, извините за колхоз, может не совсем точно.
Еще раз попытаюсь объяснить отличие профессиональной разработки от деревенской по принципу "первый парень на деревне".
R - это не просто язык программирования, а СРЕДА для разработки узко специализированных задач - статистики, к которой относят МО и еще что-то.
Пакеты в R - это часть языка. Посмотрим поставку дистрибутива языка - там уже несколько базовых пакетов.
Набор пакетов в R, а это свыше 10 000 пакетов с более 100 000 функций, представляют собой ФУНКЦИОНАЛЬНО ПОЛНЫЙ набор для решения задач, например, МО.
Поясню на примере МО.
На сайте большей частью обсуждаются разные варианты алгоритмов классификации, особенно варианты НС. Особенно показательна подборка метаквотов для питона.
С точки зрения МО сам алгоритм классификации - это часть проблемы, процентов 30%. Попробуйте в деревне под названием Питон найти остальные 70%. А найти другие варианты моделей классификации, а их до 200 (1) практически невозможно.
В R имеется прекрасный справочный аппарат который позволит найти недостающее.
Если не знаете ЧТО искать, то на первом этапе можно взять Rattle, чтобы увидеть что такое комплекс инструментов для МО: первичный анализ данных, преобразование, отбор предикторов, подготовка файлов для тестирования, расчет по модели или моделям, оценка результатов с соответствующим графическим представлением. Это базовый уровень.
Если переросли Rattle, то можно взять оболочку Caret, которая на самом высоком уровне покрывает проблематику МО. В Caret предоставляет доступ до 200 (!) пакетов, которые будут давать сигналы для трейдинга. Эти пакеты можно сравнивать, выбирать, составлять ансамбли моделей. Сaret имеет все, что было Rattle, но на более профессиональном уровне.
Для всего, что имеется в Caret, в R имеются аналоги и огромное количество других вспомогательных инструментов. Все это представляет ЕДИНОЕ ЦЕЛОЕ.
Все это называется ПРОФЕССИОНАЛЬНОЙ СРЕДОЙ для работы в области статистики и МО в частности.
Страница 7.
В-четвертых, даже если исследователь работает с большой выборкой, анализ
OOS должен будет охватить большую часть выборки, чтобы быть окончательным,
что наносит ущерб разработке стратегии (см. Хокинс [15]). Если ООС
берется с конца временного ряда, мы теряем самые последние
наблюдения, которые часто являются наиболее репрезентативными в будущем. Если OOS
берется с начала временного ряда, тестирование проводилось на
возможно, это наименее репрезентативная часть данных.
Тут описание метода на 30 страниц https://papers.ssrn.com/sol3/papers.cfm?abstract_id=2326253 . Начал читать. Судя по всему на кросс-валидации основано, но со своими особенностями - комбинаторно-симметричной
Мне даже читать впадлу уже, выгорел что ли..
Но могу написать автоматический синтез стратегий с проверкой по критерию непереобучености..
Другими словами я могу создавать стратегии которые будут максимизировать критерий непереобучености..
Насинтезирую стратегий по этому критерию , потом можно проверить на новых данных , лажа это или стоит внимания..
Протестировал -> получил результат -> выкинул/освоил
А носиться годами с одной идеей как "казуал клоун" и так ничего не сделать и кидаться на всех это тупик
Что там есть критерий непереобучености?
Ответ от Прадо и других Максиму с его предпочтением брать ООС на раннем участке:
Страница 7.
В-четвертых, даже если исследователь работает с большой выборкой, анализ
OOS должен будет охватить большую часть выборки, чтобы быть окончательным,
что наносит ущерб разработке стратегии (см. Хокинс [15]). Если ООС
берется с конца временного ряда, мы теряем самые последние
наблюдения, которые часто являются наиболее репрезентативными в будущем. Если OOS
берется с начала временного ряда, тестирование проводилось на
возможно, это наименее репрезентативная часть данных.
Что там есть критерий непереобучености?
На 8-й странице пока. И это еще вступление))
Похое что это будет сравнение по Шарпу (но пишут, что можно любой др. показатель) на кросс валидации.