Обсуждение статьи "Применение метода Монте-Карло в обучении с подкреплением" - страница 3

 
elibrarius:

Посмотрите ранние статьи Владимира (2-я или 3-я) там в одном из пакетов R с помощью лесов это определялось. Считалось очень долго (в разы дольше обучения основной НС), полный перебор или какая-то генетика - надо смотреть в документции к пакету.
Скорее всего как то оптимизированно.

Спасибо за информацию. Однако, в этой статье речь идет о независимой друг от друга оценке предикторов, а интересен именно групповой метод.

 
Aleksey Vyazmikin:

Спасибо за информацию. Однако, в этой статье речь идет о независимой друг от друга оценке предикторов, а интересен именно групповой метод.

Вот тут о взаимодействии входных переменных https://www.mql5.com/ru/articles/2029
Оценка и выбор переменных для моделей машинного обучения
Оценка и выбор переменных для моделей машинного обучения
  • www.mql5.com
В статье будут рассмотрены особенности выбора, предподготовки и оценки входных переменных для использования в моделях машинного обучения. Будут рассмотрены множественные методы нормализации и их особенности. Будут указаны важные моменты этого процесса, сильно влияющие на конечный результат обучения моделей. Рассмотрим и оценим новые и...
 
elibrarius:
Вот тут о взаимодействии входных переменных https://www.mql5.com/ru/articles/2029

Да, спасибо, но про групповое взаимодействие сказано так:

  • Обертка. Оберточные методы оценивают различные модели, используя процедуры, которые добавляют и/или удаляют предикторы для поиска оптимальной комбинации, оптимизирующей эффективность модели. В сущности, оберточные методы — это поисковые алгоритмы, которые рассматривают предикторы как входы и используют эффективность модели как выходы, которые должны быть оптимизированы. Существует множество способов перебора предикторов (рекурсивное удаление/добавление, генетические алгоритмы, имитация отжига и многие другие).

Оба подхода имеют свои преимущества и недостатки. Методы фильтров, как правило, вычислительно более эффективны чем методы обертки, но критерии отбора непосредственно не связаны с эффективностью модели. Недостатком метода оберток является то, что оценивание множества моделей (которые могут потребовать настройку гиперпараметров) приводит к резкому увеличению времени вычисления и, как правило, к переобучению модели.

В настоящей статье мы не будем рассматривать оберточные методы, а рассмотрим новые методы и подходы методов фильтрации, которые, по моему мнению, устраняют указанные выше недостатки.


 
Aleksey Vyazmikin:

В настоящей статье мы не будем рассматривать оберточные методы, а рассмотрим новые методы и подходы методов фильтрации, которые, по моему мнению, устраняют указанные выше недостатки.


рассматривайте эти статьи как просто учебник по нейросетям и по R, там нет ни одной робастной системы. Многие подходы также могут быть трактованы неверно или перевранными, лучше читать первоисточники. Я уже скидывал материал от профессора университета о том, что нельзя доверять impurity importance лесов: https://explained.ai/rf-importance/index.html

В то же время, декорреляция и permutation являются надежными и достаточными для подавляющего чила случаев

Может и не ко мне вопрос, но не могу смотреть на ваши страдания :)

Beware Default Random Forest Importances
Beware Default Random Forest Importances
  • explained.ai
0.995 worst radius 0.995 mean perimeter 0.994 mean area 0.984 worst perimeter 0.983 worst area 0.978 radius error 0.953 mean concave points 0.944 mean concavity 0.936 worst concave points 0.927 mean compactness 0.916 worst concavity 0.901 perimeter error 0.898 worst compactness 0.894 worst texture 0.889 compactness...
 
Maxim Dmitrievsky:

рассматривайте эти статьи как просто учебник по нейросетям и по R, там нет ни одной робастной системы. Многие подходы также могут быть трактованы неверно или перевранными, лучше читать первоисточники. Я уже скидывал материал о том, что нельзя доверять impurity importance лесов: https://explained.ai/rf-importance/index.html

Может и не ко мне вопрос, но не могу смотреть на ваши страдания :)

В том то и дело, что как правильно никто не знает - у кого то работает одно на модели, а у другого другое, а может это все рандом, под который каждый пытается подвести научную базу доказательств и обоснований.

Сам с этим ковыряюсь же, и пока ничего, как полный перебор групп предикторов и оценка их моделей не приходит в голову, для ускорения процесса. Для меня сложность пожалуй в сохранении связей крупных групп для последующего их дробления на более мелкие с целью ускорения перебора - этот вопрос не автоматизирован в должной мере.

 
Aleksey Vyazmikin:

1 раз вникнуть и усвоить, потому что перестановка универсальна для любого метода МО, не только РФ, и вычислительно достаточно дешева

 
Maxim Dmitrievsky:

1 раз вникнуть и усвоить, потому что перестановка универсальна для любого метода МО, не только РФ, и вычислительно достаточно дешева

Перестановка обычная есть конечно, тут другое - разбили предиктоы на 9 групп, выявили каким то методом группы, где результат средний моделей хуже или напротив лучше, а потом создали новые группы с другим разбиением, к примеру бьем плохие группы на подгруппы с целью поиска шлака для отброса или понимания, почему он так сильно влияет на общую картину и так по кругу. Таким образом мы сможем выделить наиболее хорошие\плохие группы предикторов в плане взаимодействия между собой. Вот и стоит задача после классификации модели автоматически сделать новую разбивку на группы с учетом полученного опыта и снова провести обучение. Смыл в том, что разбивка на группы происходит не рандомно.

 
Aleksey Vyazmikin:

Перестановка обычная есть конечно, тут другое - разбили предиктоы на 9 групп, выявили каким то методом группы, где результат средний моделей хуже или напротив лучше, а потом создали новые группы с другим разбиением, к примеру бьем плохие группы на подгруппы с целью поиска шлака для отброса или понимания, почему он так сильно влияет на общую картину и так по кругу. Таким образом мы сможем выделить наиболее хорошие\плохие группы предикторов в плане взаимодействия между собой. Вот и стоит задача после классификации модели автоматически сделать новую разбивку на группы с учетом полученного опыта и снова провести обучение. Смыл в том, что разбивка на группы происходит не рандомно.

нет никакого взаимодействия между собой, уже писал выше. От перестановки местами и изменения кол-ва импортанс не меняется. Можете проверить. Более того, меньший вес означает просто меньший вклад в модель, поэтому плохие даже удалять не обязательно при использовании модели, но желательно для избавления от лишнего шума

 
Maxim Dmitrievsky:

нет никакого взаимодействия между собой, уже писал выше. От перестановки местами и изменения кол-ва импортанс не меняется. Можете проверить. Более того, меньший вес означает просто меньший вклад в модель, поэтому плохие даже удалять не обязательно при использовании модели, но желательно для избавления от лишнего шума

У меня другой вывод.

 
Aleksey Vyazmikin:

У меня другой вывод.

как хотите :)

но это банальные вещи. Импортанс зависит от дисперсии фичи (почти всегда, кроме очень простых моделей). Лес не производит никаких преобразований над фичами, не премножает и не делит друг на друга и т.п., а просто раскидывает их значения по узлам, поэтому нет никаких взаимодействий, а только разделение