Машинное обучение в трейдинге: теория, модели, практика и алготорговля - страница 1172

 
Alexander_K2:

Т.е., по-твоему, суй в НС все, что попало и дело в шляпе? Ты чё, белены чё ли объелся, дядя?

Еще раз, читаем внимательно и вдумчиво, требование стационарности-нестационарности это требование к наличию решения задачи, а не к механизму ее решения. НС - это механизм, ему наплевать.

Ты чё, белены чё ли объелся, дядя? (с) Уже совсем ничего не понимешь?

 
Yuriy Asaulenko:

Еще раз, читаем внимательно и вдумчиво, требование стационарности-нестационарности это требование к наличию решения задачи, а не к механизму ее решения. НС - это механизм, ему наплевать.

Ты чё, белены чё ли объелся, дядя? (с) Уже совсем ничего не понимешь?

Надо не читать вдумчиво, а просто иногда думать, просто головой

стационарность остатков модели должна сохраняться, как минимум (на новых данных). Если отношения входов к выходам не стационарные то хоть головой об стенку долбитесь, пытаясь построить нейросетевую модель на таких дынных

сколько можно об одном и том же епан.. материтсья начну скоро. Вроде взрослый человек
 
Novaja:
Диссертация Пастухова в помощь.

Работа хорошая, но по-моему неприменима в случае нестационарности.

Ещё хотелось бы взглянуть на асимптотику сходимости Н-волатильности для винеровского процесса, но в реферате я этого не увидел - возможно есть в полном тексте диссертации.

 
Maxim Dmitrievsky:

Надо не читать вдумчиво, а просто иногда думать, просто головой

стационарность остатков модели должна сохраняться, как минимум (на новых данных). Если отношения входов к выходам не стационарные то хоть головой об стенку долбитесь, пытаясь построить нейросетевую модель на таких дынных

сколько можно об одном и том же епан.. материтсья начну скоро. Вроде взрослый человек

Еще один, читать не умеет.))

 
Yuriy Asaulenko:

Еще один, читать не умеет.))

да вы пишите просто какую-то чушь и ахинею, вообще несусветную. Даже думать об этом нельзя в трезвом состоянии

хотя бы даже потому что функции активации будут залипать в одном положении на явно нестационарных сэмплах

стационарность, предобработка - это именно требование к Механизму решения

 
Maxim Dmitrievsky:

стационарность, предобработка - это именно требование к Механизму решения

Абсолютно согласен.

 
Maxim Dmitrievsky:

да вы пишите просто какую-то чушь и ахинею, вообще несусветную. Даже думать об этом нельзя в трезвом состоянии

хотя бы даже потому что функции активации будут залипать в одном положении на явно нестационарных сэмплах

стационарность, предобработка - это именно требование к Механизму решения

Alexander_K2:

Абсолютно согласен.

Как вы книги-то читаете? Под зад что-ли подкладываете?

Совсем популярно. У задачи либо есть решение, либо его нет. Если нет - вы ее ничем не решите. Если есть, то вовсе не факт, что решите. И НС здесь ни с какого бока.

 
Alexander_K2:

Абсолютно согласен.

и чо, думаете поможет?

сомневаюсь ;)

вот, полнейший инсайд:


 
Yuriy Asaulenko:

Как вы книги-то читаете? Под зад что-ли подкладываете?

Совсем популярно. У задачи либо есть решение, либо его нет. Если нет - вы ее ничем не решите. Если есть, то вовсе не факт, что решите. И НС здесь ни с какого бока.

вот и почитайте предложенную выше книжку. Оптимальное решение есть всегда в количестве одна штука, насколько оно удовлетворительное это уже второй вопрос

 

Как, и обещал, сообщаю о результатах теста разных показателей для выбора модели бинарной классификации. В тест попало 17 показателей: Logloss; BalancedErrorRate; LogLikelihoodOfPrediction; WKappa; Kappa; BrierScore; ZeroOneLoss; Accuracy; BalancedAccuracy; MCC; Precision; Recall; F1; AUC; HingeLoss; HammingLoss; CrossEntropy, по умолчанию используется Logloss. Методика простая, запускаем CatBoost с одинаковыми настройками на одинаковых выборках для обучения, теста и окончательной проверки, числовые показатели берутся из файла для окончательной проверки, который в обучении не принимает участие. Для каждого показателя формируется 8 деревьев разных размеров от 1 до 8, что усредняет так же способность отбора хороших значений из множества, а так же использовалось в целях определения смысла в изменении размера деревьев. Используется 4 целевых для обучения, стратегий которых отличается в большей степени по цели для трендового движения. Результаты каждого показателя сводились в такую таблицу:



Выяснилось, что часть показателей полностью совпадают между собой, они были собраны в группы - зеленым цветом показан идентификатор группы показателей


Далее представлена сводная таблица по каждому показателю, где выделено максимальное и минимальное значение показателя, а так же цветом помечены пиковые показатели во всей выборке.

Далее представлена сводная таблица по средней прибыли каждого показателя, это как вариант выявления универсального показателя для всех вариантов целевых - по максимальной средней сумме.



Как я ранее писал, параллельно тестировал свою формулу на этих данных для выбора лучшего показателя из полученных данных - "%All*1%", результаты сводились в такую таблицу по каждому показателю, участвующему в тестах.

Подобный подход позволил составить рейтинг по сумме показателей Коэффициента выбора для каждого показателя, что показано ниже в таблице.

Интересно, что фаворит в первом рейтинге "Precision" оказался в самом конце, что говорит скорей о том, что он не универсален, а напротив его показатели оказались очень удачными для первой целевой.

Так же можно рассмотреть, какие варианты отбирал этот коэффициент из таблице каждого показателя и посмотреть на рейтинг по сумме этих показателей.

Подводя итог, можно собрав результаты в сводную таблицу и просуммировав баллы за места - у кого меньше та метрика может быть лучше.

Можно сделать вывод, что Logloss скорей средний показатель, а не лучший показатель для отбора модели, в то же время разные ТС могут требовать разные методы отбора обученных моделей. Так к примеру для более сбалансированной выборки по целевой (columns_100) идеально подходит Precision, но на несбалансированной выборке, где к примеру 20% (columns_200) и меньше целевых "1", дела идут у него из рук вон плохо и тут разумно использовать HingeLoss, который отлично справился с этой задачей. Самым сбалансированным, пожалуй оказался показатель Recall - его можно использовать для нащупывания почвы, я так думаю. Такой показатель, как Accuracy оказался крайне не надежным и несбалансированным с одной стороны он смог найти лучший вариант с целевой наиболее сбалансированной, но с другой стороны средний показатель всех вариантов деревьев он отбирал не удачно, в результате для поиска несбалансированных выборок или настройки модели он не очень подходит.

Причина обращения: