Машинное обучение в трейдинге: теория, модели, практика и алготорговля - страница 2792

 

Оценивать фичи лучше не какими то методами и пакетами, не относящимися к модели, а самой моделью.
2 года назад сравнивал методы оценки важности https://www.mql5.com/ru/blogs/post/737458

За образец брал саму модель. Обучал ее N раз (по количеству фичей) удаляя одну из них.
Чем сильнее ухудшался результат, после удаления фичи, тем она важнее. Были и фичи удаление которой улучшали результат, т.е. она явно шумовая.

Ни один из вариантов определения важности фичей не был похож на образцовую важность.  Боюсь, что и взаимная информация и др. пакеты могут так же несовпадать.

Сравнение разных методов оценки важности предикторов.
Сравнение разных методов оценки важности предикторов.
  • www.mql5.com
Провел сравнение разных методов оценки важности предикторов. Тесты проводил на данных титаника (36 фичей и 891 строки) при помощи случайного леса из 100 деревьев. Распечатка с результатами ниже. За
 
elibrarius #:

Оценивать фичи лучше не какими то методами и пакетами, не относящимися к модели, а самой моделью.
2 года назад сравнивал методы оценки важности https://www.mql5.com/ru/blogs/post/737458

За образец брал саму модель. Обучал ее N раз (по количеству фичей) удаляя одну из них.
Чем сильнее ухудшался результат, после удаления фичи, тем она важнее. Были и фичи удаление которой улучшали результат, т.е. она явно шумовая.

Ни один из вариантов определения важности фичей не был похож на образцовую важность.  Боюсь, что и взаимная информация и др. пакеты могут так же несовпадать.

В первом приближении Вы, несомненно, правы - надо иметь конечную оценку, если вы имеете ввиду под оценкой моделью ее показатели результативности. 

Но, есть один нюанс, который перевешивает все.

Оценка моделью через ее результативность  - это оценка на исторических данных. А как поведет себя модель в будущем?  

Если мы занимаемся оценкой самих фич, то можно прогнать окно и получить статистику изменения величины оценки фичи, каждой в отдельности. И, как мне кажется, предпочтительнее те фичи, у которых оценка ее важности колеблется незначительно, желательно менее 10%. У моего набора фич колебания sd от 10% до 120% на 500 барах (по памяти). А это означает, что оценка колеблется внутри канала 10%, т.е. цифру, которую мы видим - это она и есть. А вот для 120% величину оценки важности, которую мы видим - это фикция.

 
СанСаныч Фоменко #:

В первом приближении Вы, несомненно, правы - надо иметь конечную оценку, если вы имеете ввиду под оценкой моделью ее показатели результативности. 

Но, есть один нюанс, который перевешивает все.

Оценка моделью через ее результативность  - это оценка на исторических данных. А как поведет себя модель в будущем?  

Оценивайте валкинг-форвард тестом.

 
elibrarius #:

Оценивайте валкинг-форвард тестом.

Это оценка всего стада. А паршивых овец выбраковывают поштучно.

 
СанСаныч Фоменко #:

Это оценка всего стада. А паршивых овец выбраковывают поштучно.

50 фичей = 50 валкинг фовард тестов с удалением фичей по 1. Долго, но результат будет получен моделью.
 

на 500 барах оценивать - это вообще не статистика, можно подогнать все что угодно, по закону больших чисел

 
elibrarius #:
50 фичей = 50 валкинг фовард тестов с удалением фичей по 1. Долго, но результат будет получен моделью.

Этим способом результат можно получить только в случае полной независимости фичей, а так не бывает.   

 
Maxim Dmitrievsky #:

на 500 барах оценивать - это вообще не статистика, можно подогнать все что угодно, по закону больших чисел

Для оценки предсказательной способности вполне достаточно. Можно отобрать фичи, которые дают ошибку предсказания учителя до 20% по технологии скользящего окна.

 
СанСаныч Фоменко #:

Этим способом результат можно получить только в случае полной независимости фичей, а так не бывает.   

В свои пакеты вы те же данные подаете. Тоже ничего получить невозможно?
 
elibrarius #:
В свои пакеты вы те же данные подаете. Тоже ничего получить невозможно?

В препроцессинге , как этап, удаляю коррелированные фичи. Из 170 остается примерно 50 при коррелированности не выше  75%(!). При коррелированности не выше 50% остается несколько штук. Но я не ставил цель набрать НЕ коррелированные фичи.