Оценивайте фичи, у которых оценка ее важности колеблется незначительно - Общее обсуждение

Forester 2022.10.19 12:58 #27911

Оценивать фичи лучше не какими то методами и пакетами, не относящимися к модели, а самой моделью.
2 года назад сравнивал методы оценки важности https://www.mql5.com/ru/blogs/post/737458

За образец брал саму модель. Обучал ее N раз (по количеству фичей) удаляя одну из них.
Чем сильнее ухудшался результат, после удаления фичи, тем она важнее. Были и фичи удаление которой улучшали результат, т.е. она явно шумовая.

Ни один из вариантов определения важности фичей не был похож на образцовую важность. Боюсь, что и взаимная информация и др. пакеты могут так же несовпадать.

Сравнение разных методов оценки важности предикторов.

www.mql5.com

Провел сравнение разных методов оценки важности предикторов. Тесты проводил на данных титаника (36 фичей и 891 строки) при помощи случайного леса из 100 деревьев. Распечатка с результатами ниже. За

Есть ли закономерность в Обсуждение статьи "Метамодели в Настройка количества вариантов сочетаний

СанСаныч Фоменко 2022.10.19 14:52 #27912

elibrarius #:

Оценивать фичи лучше не какими то методами и пакетами, не относящимися к модели, а самой моделью.
2 года назад сравнивал методы оценки важности https://www.mql5.com/ru/blogs/post/737458

За образец брал саму модель. Обучал ее N раз (по количеству фичей) удаляя одну из них.
Чем сильнее ухудшался результат, после удаления фичи, тем она важнее. Были и фичи удаление которой улучшали результат, т.е. она явно шумовая.

Ни один из вариантов определения важности фичей не был похож на образцовую важность. Боюсь, что и взаимная информация и др. пакеты могут так же несовпадать.

В первом приближении Вы, несомненно, правы - надо иметь конечную оценку, если вы имеете ввиду под оценкой моделью ее показатели результативности.

Но, есть один нюанс, который перевешивает все.

Оценка моделью через ее результативность - это оценка на исторических данных. А как поведет себя модель в будущем?

Если мы занимаемся оценкой самих фич, то можно прогнать окно и получить статистику изменения величины оценки фичи, каждой в отдельности. И, как мне кажется, предпочтительнее те фичи, у которых оценка ее важности колеблется незначительно, желательно менее 10%. У моего набора фич колебания sd от 10% до 120% на 500 барах (по памяти). А это означает, что оценка колеблется внутри канала 10%, т.е. цифру, которую мы видим - это она и есть. А вот для 120% величину оценки важности, которую мы видим - это фикция.

Эконометрика: обсудим баланс ТС. Предсказание рынка на основе BrainSystem: Разработка торговых систем

Forester 2022.10.19 15:17 #27913

СанСаныч Фоменко #:

В первом приближении Вы, несомненно, правы - надо иметь конечную оценку, если вы имеете ввиду под оценкой моделью ее показатели результативности.

Но, есть один нюанс, который перевешивает все.

Оценка моделью через ее результативность - это оценка на исторических данных. А как поведет себя модель в будущем?

Оценивайте валкинг-форвард тестом.

СанСаныч Фоменко 2022.10.19 15:30 #27914

elibrarius #:

Оценивайте валкинг-форвард тестом.

Это оценка всего стада. А паршивых овец выбраковывают поштучно.

Forester 2022.10.19 15:52 #27915

СанСаныч Фоменко #:

Это оценка всего стада. А паршивых овец выбраковывают поштучно.

50 фичей = 50 валкинг фовард тестов с удалением фичей по 1. Долго, но результат будет получен моделью.

Maxim Dmitrievsky 2022.10.19 17:09 #27916

на 500 барах оценивать - это вообще не статистика, можно подогнать все что угодно, по закону больших чисел

СанСаныч Фоменко 2022.10.19 17:20 #27917

elibrarius #:
50 фичей = 50 валкинг фовард тестов с удалением фичей по 1. Долго, но результат будет получен моделью.

Этим способом результат можно получить только в случае полной независимости фичей, а так не бывает.

СанСаныч Фоменко 2022.10.19 17:22 #27918

Maxim Dmitrievsky #:

на 500 барах оценивать - это вообще не статистика, можно подогнать все что угодно, по закону больших чисел

Для оценки предсказательной способности вполне достаточно. Можно отобрать фичи, которые дают ошибку предсказания учителя до 20% по технологии скользящего окна.

Forester 2022.10.19 17:31 #27919

СанСаныч Фоменко #:

Этим способом результат можно получить только в случае полной независимости фичей, а так не бывает.

В свои пакеты вы те же данные подаете. Тоже ничего получить невозможно?

СанСаныч Фоменко 2022.10.19 18:17 #27920

elibrarius #:
В свои пакеты вы те же данные подаете. Тоже ничего получить невозможно?

В препроцессинге , как этап, удаляю коррелированные фичи. Из 170 остается примерно 50 при коррелированности не выше 75%(!). При коррелированности не выше 50% остается несколько штук. Но я не ставил цель набрать НЕ коррелированные фичи.

Машинное обучение в трейдинге: теория, модели, практика и алготорговля - страница 2792