Машинное обучение в трейдинге: теория, модели, практика и алготорговля - страница 3174

 

Отдельно про тестер.

В тестере есть график оптимизации в виде "двумерной поверхности".

По нему можно контролировать переобученность.

Если в этой поверхности можно выделить кусок, в котором одна клеточка окружена другими клеточками примерно одинакового цвета, то эта центральная клеточка даст параметры НЕ переобученной ТС. Такое положение соответствует тому, что найденный оптимум представляет собой плато.

Однако, если "поверхность" выглядит как шкура леопарда, то ТС безнадежна, так как тестер нашел большое число максимумов, что говорит о крайне малой вероятности попасть в них будущем.

 

Ссылка для любителей моделей рынка в целом.

Can a Simple Multi-Agent Model Replicate Complex Stock Market Behaviour?
Can a Simple Multi-Agent Model Replicate Complex Stock Market Behaviour?
  • www.r-bloggers.com
The stock market is one of the most complex systems we know about. Millions of intelligent, highly competitive people (and increasingly AIs) try to outwit each other to earn as much money as possible. In...
 
СанСаныч Фоменко #:

Отдельно про тестер.

В тестере есть график оптимизации в виде "двумерной поверхности".

По нему можно контролировать переобученность.

Если в этой поверхности можно выделить кусок, в котором одна клеточка окружена другими клеточками примерно одинакового цвета, то эта центральная клеточка даст параметры НЕ переобученной ТС. Такое положение соответствует тому, что найденный оптимум представляет собой плато.

Однако, если "поверхность" выглядит как шкура леопарда, то ТС безнадежна, так как тестер нашел большое число максимумов, что говорит о крайне малой вероятности попасть в них будущем.

Не можно.

Характер рисунка (поверхности) говорит лишь о характеристиках ТС по конкретному критерию оптимизации. Возьмём другой критерий - рисунок будет другим. Непонимание этого приводит к заблуждениям, что оптимизация (обучение) не должно проводиться до глобального максимума, наоборот, должна. Именно выбор адекватного стратегии критерия оптимизации залог правильного обучения.

Всё это уже многократно обсуждалось ранее.

 
fxsaber #:
Вот так, задал один вопрос, а тут налели профессионалы со своими ответами))) 

Как разведенки на молодого глупого  айтишника))  хоть палками теперь отбивайся)) 
 
fxsaber #:

Просьба пояснить, каков смысл в этих интервалах?

Сейчас представляю такую схему по ним.

  1. Числодробилка пашет на train, фильтруя по test.
  2. Числодробилка выключается полностью. И берется несколько лучших результатов на exam.


Первый пункт видится странным. А-ля "форвард-тест" в тестере. Разве это лучше, чем просто оптимизация без фильтрации, но на объединенном интервале: train+test?

Из медицины, группа из 60 примерно одинаково больных рандомно разбивается на три группы, первую лечат новым лекарством, вторую старым, третью не лечат, дают плацебо. И если первая группа лучше второй и третьей, то лекарство признается годным и эксперимент повторяют на большом количестве какое то время, т.е. мониторят, и потом отпускают  в свободное плавание.

Вроде логично, что вероятность ложных положительных и отрицательных результатов уменьшается, но по мне это не панацея от ошибок.

А категоричность оценки результатов в зашумленных исследованиях вообще не понимаю и не признаю.)))

 
Andrey Dik #:

Не можно.

Характер рисунка (поверхности) говорит лишь о характеристиках ТС по конкретному критерию оптимизации. Возьмём другой критерий - рисунок будет другим. Непонимание этого приводит к заблуждениям, что оптимизация (обучение) не должно проводиться до глобального максимума, наоборот, должна. Именно выбор адекватного стратегии критерия оптимизации залог правильного обучения.

Всё это уже многократно обсуждалось ранее.

И каждый остался при своем мнение. Как мне кажется, Вы в единственном числе.

Нужно искать плато, а не отдельные пики, которые в силу случайности процесса никогда больше не появятся.

 
Valeriy Yastremskiy #:

Из медицины, группа из 60 примерно одинаково больных рандомно разбивается на три группы, первую лечат новым лекарством, вторую старым, третью не лечат, дают плацебо. И если первая группа лучше второй и третьей, то лекарство признается годным и эксперимент повторяют на большом количестве какое то время, т.е. мониторят, и потом отпускают  в свободное плавание.

Вроде логично, что вероятность ложных положительных и отрицательных результатов уменьшается, но по мне это не панацея от ошибок.

А категоричность оценки результатов в зашумленных исследованиях вообще не понимаю и не признаю.)))

Разбивка файла на разные участки, а в приведенном Вами пример, случайная включение пациентов в группу, что соответствует моему sample, работает только в том случае, если предикторы имеют отношение к целевой переменной. т.е. это не мусор. В медицине выяснение отношения лекарства (предиктора) к болезни выполняется за счет  понимания физиологии процесса ввода лекарства в организм. У нас же должны быть другие методы определения связи между предиктором и целевой переменной - все это препроцессинг, который делается ДО обучения модели и этот этап обязателен.

Точно так же обязательна архитектура тестирования, которая должна быть направлена ПРОТИВ переобучения модели.

 
СанСаныч Фоменко #:

И каждый остался при своем мнение. Как мне кажется, Вы в единственном числе.

Нужно искать плато, а не отдельные пики, которые в силу случайности процесса никогда больше не появятся.

мне как бы пофигу что я в единственном числе, это лишь говорит от том, что действительно мало людей понимают проблематику))

плато ли или пики - зависит от поверхности критерия оптимизации, критерия! как думаете, почему используют часто в МО критерий - ошибка? да потому что поверхность монотонная)) т.е. всегда стараются выбрать такой критерий, который как можно более монотонный и имеет по возможности один глобал.

так что нужно искать не плато, а критерий с как можно более монотонной гиперповерхностью.

Кстати, критерий ошибка имеет именно один глобал со значением 0. А то, что нужно остановить обучение не достигая глобала это другой вопрос и к поверхности критерия не имеет отношения.

 
как же мне жаль тех бедолаг с неокрепшим умом которые читают этот бред и думают что здесь умные люди обсуждают что то умное...
 
Maxim Dmitrievsky #:
Можно сделать вывод, что ты страдал фигней несколько лет. А можно было просто делать случайный перебор, чем сейчас с успехом занимаешься.

Как раз я написал о том, что случайный перебор - это и есть непродуктивный подход.

Перебор с элементом случайности выбора предиктора я использую при тестировании потенциала выборки, и уже много лет в CatBoost.

Рандом не даёт каких либо обоснований ожидать, что и дальше будет работать модель, так как в неё случайным образом попали отклики предикторов.

Причина обращения: