Машинное обучение в трейдинге: теория, модели, практика и алготорговля - страница 1172
Вы упускаете торговые возможности:
- Бесплатные приложения для трейдинга
- 8 000+ сигналов для копирования
- Экономические новости для анализа финансовых рынков
Регистрация
Вход
Вы принимаете политику сайта и условия использования
Если у вас нет учетной записи, зарегистрируйтесь
Т.е., по-твоему, суй в НС все, что попало и дело в шляпе? Ты чё, белены чё ли объелся, дядя?
Еще раз, читаем внимательно и вдумчиво, требование стационарности-нестационарности это требование к наличию решения задачи, а не к механизму ее решения. НС - это механизм, ему наплевать.
Ты чё, белены чё ли объелся, дядя? (с) Уже совсем ничего не понимешь?
Еще раз, читаем внимательно и вдумчиво, требование стационарности-нестационарности это требование к наличию решения задачи, а не к механизму ее решения. НС - это механизм, ему наплевать.
Ты чё, белены чё ли объелся, дядя? (с) Уже совсем ничего не понимешь?
Надо не читать вдумчиво, а просто иногда думать, просто головой
стационарность остатков модели должна сохраняться, как минимум (на новых данных). Если отношения входов к выходам не стационарные то хоть головой об стенку долбитесь, пытаясь построить нейросетевую модель на таких дынных
сколько можно об одном и том же епан.. материтсья начну скоро. Вроде взрослый человекРабота хорошая, но по-моему неприменима в случае нестационарности.
Ещё хотелось бы взглянуть на асимптотику сходимости Н-волатильности для винеровского процесса, но в реферате я этого не увидел - возможно есть в полном тексте диссертации.
Надо не читать вдумчиво, а просто иногда думать, просто головой
стационарность остатков модели должна сохраняться, как минимум (на новых данных). Если отношения входов к выходам не стационарные то хоть головой об стенку долбитесь, пытаясь построить нейросетевую модель на таких дынных
сколько можно об одном и том же епан.. материтсья начну скоро. Вроде взрослый человекЕще один, читать не умеет.))
Еще один, читать не умеет.))
да вы пишите просто какую-то чушь и ахинею, вообще несусветную. Даже думать об этом нельзя в трезвом состоянии
хотя бы даже потому что функции активации будут залипать в одном положении на явно нестационарных сэмплах
стационарность, предобработка - это именно требование к Механизму решения
стационарность, предобработка - это именно требование к Механизму решения
Абсолютно согласен.
да вы пишите просто какую-то чушь и ахинею, вообще несусветную. Даже думать об этом нельзя в трезвом состоянии
хотя бы даже потому что функции активации будут залипать в одном положении на явно нестационарных сэмплах
стационарность, предобработка - это именно требование к Механизму решения
Абсолютно согласен.
Как вы книги-то читаете? Под зад что-ли подкладываете?
Совсем популярно. У задачи либо есть решение, либо его нет. Если нет - вы ее ничем не решите. Если есть, то вовсе не факт, что решите. И НС здесь ни с какого бока.
Абсолютно согласен.
и чо, думаете поможет?
сомневаюсь ;)
вот, полнейший инсайд:
Как вы книги-то читаете? Под зад что-ли подкладываете?
Совсем популярно. У задачи либо есть решение, либо его нет. Если нет - вы ее ничем не решите. Если есть, то вовсе не факт, что решите. И НС здесь ни с какого бока.
вот и почитайте предложенную выше книжку. Оптимальное решение есть всегда в количестве одна штука, насколько оно удовлетворительное это уже второй вопрос
Как, и обещал, сообщаю о результатах теста разных показателей для выбора модели бинарной классификации. В тест попало 17 показателей: Logloss; BalancedErrorRate; LogLikelihoodOfPrediction; WKappa; Kappa; BrierScore; ZeroOneLoss; Accuracy; BalancedAccuracy; MCC; Precision; Recall; F1; AUC; HingeLoss; HammingLoss; CrossEntropy, по умолчанию используется Logloss. Методика простая, запускаем CatBoost с одинаковыми настройками на одинаковых выборках для обучения, теста и окончательной проверки, числовые показатели берутся из файла для окончательной проверки, который в обучении не принимает участие. Для каждого показателя формируется 8 деревьев разных размеров от 1 до 8, что усредняет так же способность отбора хороших значений из множества, а так же использовалось в целях определения смысла в изменении размера деревьев. Используется 4 целевых для обучения, стратегий которых отличается в большей степени по цели для трендового движения. Результаты каждого показателя сводились в такую таблицу:
Выяснилось, что часть показателей полностью совпадают между собой, они были собраны в группы - зеленым цветом показан идентификатор группы показателей
Далее представлена сводная таблица по каждому показателю, где выделено максимальное и минимальное значение показателя, а так же цветом помечены пиковые показатели во всей выборке.
Далее представлена сводная таблица по средней прибыли каждого показателя, это как вариант выявления универсального показателя для всех вариантов целевых - по максимальной средней сумме.
Как я ранее писал, параллельно тестировал свою формулу на этих данных для выбора лучшего показателя из полученных данных - "%All*1%", результаты сводились в такую таблицу по каждому показателю, участвующему в тестах.
Подобный подход позволил составить рейтинг по сумме показателей Коэффициента выбора для каждого показателя, что показано ниже в таблице.
Интересно, что фаворит в первом рейтинге "Precision" оказался в самом конце, что говорит скорей о том, что он не универсален, а напротив его показатели оказались очень удачными для первой целевой.
Так же можно рассмотреть, какие варианты отбирал этот коэффициент из таблице каждого показателя и посмотреть на рейтинг по сумме этих показателей.
Подводя итог, можно собрав результаты в сводную таблицу и просуммировав баллы за места - у кого меньше та метрика может быть лучше.
Можно сделать вывод, что Logloss скорей средний показатель, а не лучший показатель для отбора модели, в то же время разные ТС могут требовать разные методы отбора обученных моделей. Так к примеру для более сбалансированной выборки по целевой (columns_100) идеально подходит Precision, но на несбалансированной выборке, где к примеру 20% (columns_200) и меньше целевых "1", дела идут у него из рук вон плохо и тут разумно использовать HingeLoss, который отлично справился с этой задачей. Самым сбалансированным, пожалуй оказался показатель Recall - его можно использовать для нащупывания почвы, я так думаю. Такой показатель, как Accuracy оказался крайне не надежным и несбалансированным с одной стороны он смог найти лучший вариант с целевой наиболее сбалансированной, но с другой стороны средний показатель всех вариантов деревьев он отбирал не удачно, в результате для поиска несбалансированных выборок или настройки модели он не очень подходит.