Машинное обучение в трейдинге: теория, модели, практика и алготорговля - страница 3311
Вы упускаете торговые возможности:
- Бесплатные приложения для трейдинга
- 8 000+ сигналов для копирования
- Экономические новости для анализа финансовых рынков
Регистрация
Вход
Вы принимаете политику сайта и условия использования
Если у вас нет учетной записи, зарегистрируйтесь
Уточню свою мысль.
Любой алгоритм МО пытается уменьшить ошибку. Более эффективно уменьшение ошибки получается на мусоре, так как в нем гораздо чаще встречаются "удобные" значения для уменьшения ошибки. В результате наверняка "важность" предикторов для мусора будет выше, чем для НЕ мусора. Именно поэтому существует препроцессинг, который гораздо более трудоемкий, че собственно подгонка модели.
Скажите, пожалуйста, а что не является мусором? Я ни разу не встречал, чтобы кто-то говорил о чистых входных данных. А вот про мусор на форуме постоянно слышу.
Что они из себя представляют? Если вы говорите про мусор, значит имели не с немусором, иначе не с чем сравнивать
Да никто не знает, что мусор а что нет, это гипотетические понятия.
Если бы чётко знали что есть что, то не было бы ветки на 3К страниц.))
Просто делают предположение, что выход за такие то пределы является "мусором", эти пределы тоже предположительные. Поэтому выражение "мусор на входе - мусор на выходе" не более чем красивая фраза, что для одного мусор - то для другого исследователя немусор. Тут как с волнами Элиота примерно.
Скажите, пожалуйста, а что не является мусором? Я ни разу не встречал, чтобы кто-то говорил о чистых входных данных. А вот про мусор на форуме постоянно слышу.
Что они из себя представляют? Если вы говорите про мусор, значит имели не с немусором, иначе не с чем сравнивать
направленное движение, вектор
однако вытащить его из мусора, задачка еще та
например, я бы попытался в качестве предикторов зарядить свой индикатор в нейронку и попытался бы определить признаки мусора и мусорщика
Уточню свою мысль.
Любой алгоритм МО пытается уменьшить ошибку. Более эффективно уменьшение ошибки получается на мусоре, так как в нем гораздо чаще встречаются "удобные" значения для уменьшения ошибки. В результате наверняка "важность" предикторов для мусора будет выше, чем для НЕ мусора. Именно поэтому существует препроцессинг, который гораздо более трудоемкий, че собственно подгонка модели.
В данном искусственном примере, который мы рассматриваем (а не рыночные данные),
фича по оси У не мусор и очень хорошо определяет классы. Фича по оси Х - мусор, т.к. оба класса идут вперемешку примерно равномерно.
Дерево легко разделит данные в 1 и 2 примере с картинки всего 1-м сплитом через У=0,5 с абсолютной чистотой классов, т.е. вероятность класса =100%. При тесте сплита по оси Х, чистота будет примерно 50%, алгоритм выберет более чистый сплит, по У. Т.е. ваше утверждение, что будет выбран мусорный сплит по Х - неверно в этих примерах.
3-й пример сложнее. Лист с У<0.2, будет отобран алгоритмом, т.к. чистота класса = 100%, лист У>0,8 тоже будет выбран.
Лист от 0,2 до 0,8 имеет чистоту примерно 50%, т.е. он примерно такой же мусорный, как любой сплит по оси Х.
Дальнейшее деление не имеет смысла, т.к. использовать листья с вероятностью класса 50% вы не будете.
Если сделать глупость и поделить эту мусорную часть до 1 примера в листе, то будут использованы сплиты и по У и по Х. Ну а если имеем 1 пример в листе, то его чистота конечно = 100%. Но это не репрезентативные листы. Такое будут делать только новички.
3-х первых листов достаточно, или можно остановить деление листьев хотя бы по 1-5-10% от общего числа примеров в листе. И в данном примере использовать листья с чистотой например >90%, а это будут первые 2 листа: У<0,2 и У>0.8. Остальные листья будут по 50% +-10% из за неравномерности перемешивания.
... я бы попытался в качестве предикторов зарядить свой индикатор в нейронку и попытался бы определить признаки мусора и мусорщика
И что мешает попытаться?
Да никто не знает, что мусор а что нет, это гипотетические понятия.
Если бы чётко знали что есть что, то не было бы ветки на 3К страниц.))
Просто делают предположение, что выход за такие то пределы является "мусором", эти пределы тоже предположительные. Поэтому выражение "мусор на входе - мусор на выходе" не более чем красивая фраза, что для одного мусор - то для другого исследователя немусор. Тут как с волнами Элиота примерно.
Не нужно расписываться за всех.
Скорее всего Вы не знаете какие примеры являются "мусором" а какие нет . Для Вас это гипотетическое понятие. Если бы Вы знали что есть что, Вы бы не сидели в этой ветке и не писали глубокомысленные обобщения за всех.
Когда Вы уже освоете основы МО? Вопрос риторический.
Не нужно расписываться за всех.
Скорее всего Вы не знаете какие примеры являются "мусором" а какие нет . Для Вас это гипотетическое понятие. Если бы Вы знали что есть что, Вы бы не сидели в этой ветке и не писали глубокомысленные обобщения за всех.
Когда Вы уже освоете основы МО? Вопрос риторический.
Это и есть цели и задачи МО - отделять мух от котлет.
Если знаете, то что здесь делаете?
В физике обычно сторонние сигналы влияющие на нужный нам считаются мусором. Любой сигнал, любое действие чем то вызвано, мусором его называют потому что это не нужный и не дающий правильно оценить нужный исследователю сигнал. А так, ну в природе нет мусора)))
Здесь, когда ищутся закономерности цены, не эффективности или что то другое сигналом для оценки являются воздействия каких то реальных событий или их совокупности на цену. А вот все остальные воздействия будут мусором.
Не претендуя на истинность суждения конечно))))
В физике обычно сторонние сигналы влияющие на нужный нам считаются мусором. Любой сигнал, любое действие чем то вызвано, мусором его называют потому что это не нужный и не дающий правильно оценить нужный исследователю сигнал. А так, ну в природе нет мусора)))
Здесь, когда ищутся закономерности цены, не эффективности или что то другое сигналом для оценки являются воздействия каких то реальных событий или их совокупности на цену. А вот все остальные воздействия будут мусором.
Не претендуя на истинность суждения конечно))))
если уж окунуться в теорию ЦОС, то так:
полезный сигнал без мусора изначально известен (например трендовая линия, либо кривулька какая нибудь)
затем, на следующем тике, вычитается из общей массы сигналов полезный, и определяются не нужные сигналы, т.е. мусор