Машинное обучение в трейдинге: теория, модели, практика и алготорговля - страница 2626

 

Важность признаков в скользящем окне (индикаторы и цены)

В каокй то момент признак может быть важен на 10% а другой момент на 0,05% , вот такая правда жизни)

Тот кто тут топит за кросвалидацию думая что она что то решает , пора краснеть, пора..


Вот так выглядят 4 признака Ирисов Фишера


Ну или так если увеличить скользящее окно


 
mytarmailS #:

Важность признаков в скользящем окне (индикаторы и цены)

В каокй то момент признак может быть важен на 10% а другой момент на 0,05% , вот такая правда жизни)

Тот кто тут топит за кросвалидацию думая что она что то решает , пора краснеть, пора..


Вот так выглядят 4 признака Ирисов Фишера


Ну или так если увеличить скользящее окно


То что у ирисов (и подобных задачках) есть стабильная закономерность и так ясно. И что в котировках всё "плавает" - тоже, все кто экспериментировал с ними, уже выяснили.

Интересно как у вас важность признаков получилась разной в каждой точке графика? Она же определяется сразу для всей модели,  построенной на всех строках обучения. Или у вас там 5000 моделей?
И вообще, поясните ваши графики, что на них и как они строились.


 
elibrarius #:

То что у ирисов (и подобных задачках) есть стабильная закономерность и так ясно. И что в котировках всё "плавает" - тоже, все кто экспериментировал с ними, уже выяснили.

Интересно как у вас важность признаков получилась разной в каждой точке графика? Она же определяется сразу для всей модели,  построенной на всех строках обучения. Или у вас там 5000 моделей?
И вообще, поясните ваши графики, что на них и как они строились.


Есть много способов узнать информативность признаков, для некоторых не обезательно тренировать модель.  Я использовал fselector. https://www.r-bloggers.com/2016/06/venn-diagram-comparison-of-boruta-fselectorrcpp-and-glmnet-algorithms/
Он считает энтропию признаков.. 

Почему важность разная  в каждой точке? Да потому что информативность признаков считалась в скользящем окне как я и написал выше
 
mytarmailS #:
Есть много способов узнать информативность признаков, для некоторых не обезательно тренировать модель.  Я использовал fselector. https://www.r-bloggers.com/2016/06/venn-diagram-comparison-of-boruta-fselectorrcpp-and-glmnet-algorithms/
Он считает энтропию признаков.. 

Почему важность разная  в каждой точке? Да потому что информативность признаков считалась в скользящем окне как я и написал выше
Поэтому надо искать периоды, где важность не скачет, можно через 2 модели. Иначе каша.

Делал онлайн обучение в окне, если брать сплошняком без фильтрации по времени, то производительность слабая. А с фильтрацией не додумался тогда сделать. В моей статье про энтропию пример бота такого

Скорее всего, скачки важности связаны с изменением энтропии, если признаки типа ретурнов
Но у всяких адептов форгейт гейтов своя реальность, не опирающаяся на практику
 
Maxim Dmitrievsky #:

Но у всяких адептов форгейт гейтов своя реальность, не опирающаяся на практику
Это что такое?


Думаю надо искать закономерность, под неё уже строить модель, часто МО даже под понятную закономерность не может модель построить, все руками надо
 
mytarmailS #:
Это что такое?


Думаю надо искать закономерность, под неё уже строить модель, часто МО даже под понятную закономерность не может модель построить, все руками надо

ну рекуррентных сетей всяких модификаций, была тут одна 

сразу через модель и искать, где она ведет себя закономерно там и закономерность :)

Если совсем просто: обучить, проверить на тесте, выделить периоды где она лила и работала, сделать выводы/попробовать отфильтровать, выявить закономерность 

Нельзя отрывать статистику от МО, нужно юзать статистику по моделям, они же обучаются рандомно

ЗЫ если известна закономерность, то МО уже как бы и не надо
 
Maxim Dmitrievsky #:
сразу через модель и искать, где она ведет себя закономерно там и закономерность :)

Если совсем просто: обучить, проверить на тесте, выделить периоды где она лила и работала, сделать выводы/попробовать отфильтровать, выявить закономерность 

Да, в принцепе можно и так, так даже лучше , в такой последовательности можно делать на автомате

Maxim Dmitrievsky #:


Если совсем просто: обучить, проверить на тесте, выделить периоды где она лила и работала, сделать выводы/попробовать отфильтровать, выявить закономерность 

или чтоб не лила))

Maxim Dmitrievsky #:


Нельзя отрывать статистику от МО, нужно юзать статистику по моделям, они же обучаются рандомно

Как по мне не надо делать сложные модели, обычного правила достаточно , иначе найденое нельзя называть закономерностю , раньше обяснял почему..

Maxim Dmitrievsky #:


ЗЫ если известна закономерность, то МО уже как бы и не надо

всегда хочеться лучше)))

 
mytarmailS #:
Есть много способов узнать информативность признаков, для некоторых не обезательно тренировать модель.  Я использовал fselector. https://www.r-bloggers.com/2016/06/venn-diagram-comparison-of-boruta-fselectorrcpp-and-glmnet-algorithms/
Он считает энтропию признаков.. 

Почему важность разная  в каждой точке? Да потому что информативность признаков считалась в скользящем окне как я и написал выше
Сравнивал несколько способов оценки важности признаков. За эталон брал самый ресурсоёмкий: обучение модели с удалением признаков по одному.
Быстрые способы не совпадают с эталоном. И не совпадают между собой. fselector еще быстрее, думаю и он не будет совпадать ни с чем.
Сравнение разных методов оценки важности предикторов.
Сравнение разных методов оценки важности предикторов.
  • www.mql5.com
Провел сравнение разных методов оценки важности предикторов. Тесты проводил на данных титаника (36 фичей и 891 строки) при помощи случайного леса из 100 деревьев. Распечатка с результатами ниже. За
 
elibrarius #:
Сравнивал несколько способов оценки важности признаков. За эталон брал самый ресурсоёмкий: обучение модели с удалением признаков по одному.
Быстрые способы не совпадают с эталоном. И не совпадают между собой. fselector еще быстрее, думаю и он не будет совпадать ни с чем.
Круто.. 
А теперь посчитай своим методом важность для рыночных данных, с 500к строк и 1000 признаков..
Через 20 лет расскажешь что там посчитало у тебя

И вообще как это связано с проблемой изменения признаков во времени? 
 
mytarmailS #:

Важность признаков в скользящем окне (индикаторы и цены)

В каокй то момент признак может быть важен на 10% а другой момент на 0,05% , вот такая правда жизни)

Тот кто тут топит за кросвалидацию думая что она что то решает , пора краснеть, пора..

Не понятно, при чем тут кросс валидация?
Данные в скользящем окне используются для каждой модели.
Кросс валидация используется для состыковки результатов обучения нескольких моделей, обученных на разных кусках данных.
Модели на данных не в скользящем окне, тоже можно обучить на разных кусках этих данных и тоже получите кросс валидацию.
Причина обращения: