Сравните последовательное тестирование и тестирование на перемешанных данных. Попробуйте использовать тестер ТОЛЬКО после предварительных расчетов, - Общее обсуждение

СанСаныч Фоменко 2023.08.17 08:07 #31731

Отдельно про тестер.

В тестере есть график оптимизации в виде "двумерной поверхности".

По нему можно контролировать переобученность.

Если в этой поверхности можно выделить кусок, в котором одна клеточка окружена другими клеточками примерно одинакового цвета, то эта центральная клеточка даст параметры НЕ переобученной ТС. Такое положение соответствует тому, что найденный оптимум представляет собой плато.

Однако, если "поверхность" выглядит как шкура леопарда, то ТС безнадежна, так как тестер нашел большое число максимумов, что говорит о крайне малой вероятности попасть в них будущем.

Кто торгует на реале PenCollector: not enough space Распознавание изменения в "поведении"

СанСаныч Фоменко 2023.08.17 08:19 #31732

Ссылка для любителей моделей рынка в целом.

Can a Simple Multi-Agent Model Replicate Complex Stock Market Behaviour?

www.r-bloggers.com

The stock market is one of the most complex systems we know about. Millions of intelligent, highly competitive people (and increasingly AIs) try to outwit each other to earn as much money as possible. In...

Andrey Dik 2023.08.17 08:24 #31733

СанСаныч Фоменко #:

Отдельно про тестер.

В тестере есть график оптимизации в виде "двумерной поверхности".

По нему можно контролировать переобученность.

Если в этой поверхности можно выделить кусок, в котором одна клеточка окружена другими клеточками примерно одинакового цвета, то эта центральная клеточка даст параметры НЕ переобученной ТС. Такое положение соответствует тому, что найденный оптимум представляет собой плато.

Однако, если "поверхность" выглядит как шкура леопарда, то ТС безнадежна, так как тестер нашел большое число максимумов, что говорит о крайне малой вероятности попасть в них будущем.

Не можно.

Характер рисунка (поверхности) говорит лишь о характеристиках ТС по конкретному критерию оптимизации. Возьмём другой критерий - рисунок будет другим. Непонимание этого приводит к заблуждениям, что оптимизация (обучение) не должно проводиться до глобального максимума, наоборот, должна. Именно выбор адекватного стратегии критерия оптимизации залог правильного обучения.

Всё это уже многократно обсуждалось ранее.

Кому советников. Много и По тестеру систем. Что подать на вход

mytarmailS 2023.08.17 08:25 #31734

fxsaber #:

Вот так, задал один вопрос, а тут налели профессионалы со своими ответами)))

Как разведенки на молодого глупого айтишника)) хоть палками теперь отбивайся))

Valeriy Yastremskiy 2023.08.17 08:44 #31735

fxsaber #:

Просьба пояснить, каков смысл в этих интервалах?

Сейчас представляю такую схему по ним.

Числодробилка пашет на train, фильтруя по test.
Числодробилка выключается полностью. И берется несколько лучших результатов на exam.

Первый пункт видится странным. А-ля "форвард-тест" в тестере. Разве это лучше, чем просто оптимизация без фильтрации, но на объединенном интервале: train+test?

Из медицины, группа из 60 примерно одинаково больных рандомно разбивается на три группы, первую лечат новым лекарством, вторую старым, третью не лечат, дают плацебо. И если первая группа лучше второй и третьей, то лекарство признается годным и эксперимент повторяют на большом количестве какое то время, т.е. мониторят, и потом отпускают в свободное плавание.

Вроде логично, что вероятность ложных положительных и отрицательных результатов уменьшается, но по мне это не панацея от ошибок.

А категоричность оценки результатов в зашумленных исследованиях вообще не понимаю и не признаю.)))

Как совместить информацию по Трейлинг-стопы и трейлинг-профит Критерии для попадания сигналов

СанСаныч Фоменко 2023.08.17 09:11 #31736

Andrey Dik #:

Не можно.

Характер рисунка (поверхности) говорит лишь о характеристиках ТС по конкретному критерию оптимизации. Возьмём другой критерий - рисунок будет другим. Непонимание этого приводит к заблуждениям, что оптимизация (обучение) не должно проводиться до глобального максимума, наоборот, должна. Именно выбор адекватного стратегии критерия оптимизации залог правильного обучения.

Всё это уже многократно обсуждалось ранее.

И каждый остался при своем мнение. Как мне кажется, Вы в единственном числе.

Нужно искать плато, а не отдельные пики, которые в силу случайности процесса никогда больше не появятся.

СанСаныч Фоменко 2023.08.17 09:29 #31737

Valeriy Yastremskiy #:

Из медицины, группа из 60 примерно одинаково больных рандомно разбивается на три группы, первую лечат новым лекарством, вторую старым, третью не лечат, дают плацебо. И если первая группа лучше второй и третьей, то лекарство признается годным и эксперимент повторяют на большом количестве какое то время, т.е. мониторят, и потом отпускают в свободное плавание.

Вроде логично, что вероятность ложных положительных и отрицательных результатов уменьшается, но по мне это не панацея от ошибок.

А категоричность оценки результатов в зашумленных исследованиях вообще не понимаю и не признаю.)))

Разбивка файла на разные участки, а в приведенном Вами пример, случайная включение пациентов в группу, что соответствует моему sample, работает только в том случае, если предикторы имеют отношение к целевой переменной. т.е. это не мусор. В медицине выяснение отношения лекарства (предиктора) к болезни выполняется за счет понимания физиологии процесса ввода лекарства в организм. У нас же должны быть другие методы определения связи между предиктором и целевой переменной - все это препроцессинг, который делается ДО обучения модели и этот этап обязателен.

Точно так же обязательна архитектура тестирования, которая должна быть направлена ПРОТИВ переобучения модели.

Обсуждение статьи "Случайные леса Bayesian regression - Делал Обсуждение статьи "Прогнозирование рыночных

Andrey Dik 2023.08.17 09:33 #31738

СанСаныч Фоменко #:

И каждый остался при своем мнение. Как мне кажется, Вы в единственном числе.

Нужно искать плато, а не отдельные пики, которые в силу случайности процесса никогда больше не появятся.

мне как бы пофигу что я в единственном числе, это лишь говорит от том, что действительно мало людей понимают проблематику))

плато ли или пики - зависит от поверхности критерия оптимизации, критерия! как думаете, почему используют часто в МО критерий - ошибка? да потому что поверхность монотонная)) т.е. всегда стараются выбрать такой критерий, который как можно более монотонный и имеет по возможности один глобал.

так что нужно искать не плато, а критерий с как можно более монотонной гиперповерхностью.

Кстати, критерий ошибка имеет именно один глобал со значением 0. А то, что нужно остановить обучение не достигая глобала это другой вопрос и к поверхности критерия не имеет отношения.

Максимальная просадка и график Ошибки, баги, вопросы Динамические периоды для индикаторов

mytarmailS 2023.08.17 09:55 #31739

как же мне жаль тех бедолаг с неокрепшим умом которые читают этот бред и думают что здесь умные люди обсуждают что то умное...

Aleksey Vyazmikin 2023.08.17 10:47 #31740

Maxim Dmitrievsky #:
Можно сделать вывод, что ты страдал фигней несколько лет. А можно было просто делать случайный перебор, чем сейчас с успехом занимаешься.

Как раз я написал о том, что случайный перебор - это и есть непродуктивный подход.

Перебор с элементом случайности выбора предиктора я использую при тестировании потенциала выборки, и уже много лет в CatBoost.

Рандом не даёт каких либо обоснований ожидать, что и дальше будет работать модель, так как в неё случайным образом попали отклики предикторов.

Есть ли закономерность в Обсуждение статьи "Применение метода Почему 95% всех трейдеров

Машинное обучение в трейдинге: теория, модели, практика и алготорговля - страница 3174