Машинное обучение в трейдинге: теория, модели, практика и алготорговля - страница 3311

 
СанСаныч Фоменко #:

Уточню свою мысль.

Любой алгоритм МО пытается уменьшить ошибку. Более эффективно уменьшение ошибки получается на мусоре, так как в нем гораздо чаще встречаются "удобные" значения для уменьшения ошибки. В результате наверняка "важность" предикторов для мусора будет выше, чем для НЕ мусора. Именно поэтому существует препроцессинг, который гораздо более трудоемкий, че собственно подгонка модели.

Препроцессинг это про нормализацию а не про мусор. 
Про мусор это feature selection и от части  feature engineering

Саныч харош мусор на вход подавать людям неокрепшым 
 
Ivan Butko #:

Скажите, пожалуйста, а что не является мусором? Я ни разу не встречал, чтобы кто-то говорил о чистых входных данных. А вот про мусор на форуме постоянно слышу. 

Что они из себя представляют? Если вы говорите про мусор, значит имели не с немусором, иначе не с чем сравнивать

Да никто не знает, что мусор а что нет, это гипотетические понятия.

Если бы чётко знали что есть что, то не было бы ветки на 3К страниц.))

Просто делают предположение, что выход за такие то пределы является "мусором", эти пределы тоже предположительные. Поэтому выражение "мусор на входе - мусор на выходе" не более чем красивая фраза, что для одного мусор - то для другого исследователя немусор. Тут как с волнами Элиота примерно.

 
Ivan Butko #:

Скажите, пожалуйста, а что не является мусором? Я ни разу не встречал, чтобы кто-то говорил о чистых входных данных. А вот про мусор на форуме постоянно слышу. 

Что они из себя представляют? Если вы говорите про мусор, значит имели не с немусором, иначе не с чем сравнивать

направленное движение, вектор

однако вытащить его из мусора, задачка еще та

например, я бы попытался в качестве предикторов зарядить свой индикатор в нейронку и попытался бы определить признаки мусора и мусорщика

 
СанСаныч Фоменко #:

Уточню свою мысль.

Любой алгоритм МО пытается уменьшить ошибку. Более эффективно уменьшение ошибки получается на мусоре, так как в нем гораздо чаще встречаются "удобные" значения для уменьшения ошибки. В результате наверняка "важность" предикторов для мусора будет выше, чем для НЕ мусора. Именно поэтому существует препроцессинг, который гораздо более трудоемкий, че собственно подгонка модели.

В данном искусственном примере, который мы рассматриваем (а не рыночные данные),
фича по оси У не мусор и очень хорошо определяет классы. Фича по оси Х - мусор, т.к. оба класса идут вперемешку примерно равномерно.

Дерево легко разделит данные в 1 и 2 примере с картинки всего 1-м сплитом через У=0,5 с абсолютной чистотой классов, т.е. вероятность класса =100%. При тесте сплита по оси Х, чистота будет примерно 50%, алгоритм выберет более чистый сплит, по У. Т.е. ваше утверждение, что будет выбран мусорный сплит по Х - неверно в этих примерах.

3-й пример сложнее. Лист с У<0.2, будет отобран алгоритмом, т.к. чистота класса = 100%, лист У>0,8 тоже будет выбран.
Лист от 0,2 до 0,8 имеет чистоту примерно 50%, т.е. он примерно такой же мусорный, как любой сплит по оси Х.
Дальнейшее деление не имеет смысла, т.к. использовать листья с вероятностью класса 50% вы не будете.
Если сделать глупость и поделить эту мусорную часть до 1 примера в листе, то будут использованы сплиты и по У и по Х. Ну а если имеем 1 пример в листе, то его чистота конечно = 100%. Но это не репрезентативные листы. Такое будут делать только новички.

3-х первых листов достаточно, или можно остановить деление листьев хотя бы по 1-5-10% от общего числа примеров в листе. И в данном примере использовать листья с чистотой например >90%, а это будут первые 2 листа: У<0,2 и У>0.8. Остальные листья будут  по 50% +-10% из за неравномерности перемешивания.


 
Renat Akhtyamov #:

... я бы попытался в качестве предикторов зарядить свой индикатор в нейронку и попытался бы определить признаки мусора и мусорщика

И что мешает попытаться?

 
Andrey Dik #:

Да никто не знает, что мусор а что нет, это гипотетические понятия.

Если бы чётко знали что есть что, то не было бы ветки на 3К страниц.))

Просто делают предположение, что выход за такие то пределы является "мусором", эти пределы тоже предположительные. Поэтому выражение "мусор на входе - мусор на выходе" не более чем красивая фраза, что для одного мусор - то для другого исследователя немусор. Тут как с волнами Элиота примерно.

Не нужно расписываться за всех.

Скорее всего Вы не знаете какие примеры являются "мусором" а какие нет . Для Вас это гипотетическое понятие. Если бы Вы знали что есть что, Вы бы не сидели в этой ветке и не писали глубокомысленные обобщения за всех.

Когда Вы уже освоете основы МО? Вопрос риторический.

 
Vladimir Perervenko #:

Не нужно расписываться за всех.

Скорее всего Вы не знаете какие примеры являются "мусором" а какие нет . Для Вас это гипотетическое понятие. Если бы Вы знали что есть что, Вы бы не сидели в этой ветке и не писали глубокомысленные обобщения за всех.

Когда Вы уже освоете основы МО? Вопрос риторический.


Из Вашего сообщения не видно, что знаете что мусор а что нет.
К тому же, в этом и прикол, что если знать что не мусор, то в МО необходимости нет.

Это и есть цели и задачи МО - отделять мух от котлет.

Если знаете, то что здесь делаете?

 

В физике обычно сторонние сигналы влияющие на нужный нам считаются мусором. Любой сигнал, любое действие чем то вызвано, мусором его называют потому что это не нужный и не дающий правильно оценить нужный исследователю сигнал. А так, ну в природе нет мусора)))

Здесь, когда ищутся закономерности цены, не эффективности или что то другое сигналом для оценки являются воздействия каких то реальных событий или их совокупности на цену. А вот все остальные воздействия будут мусором.

Не претендуя на истинность суждения конечно))))

 
Valeriy Yastremskiy #:

В физике обычно сторонние сигналы влияющие на нужный нам считаются мусором. Любой сигнал, любое действие чем то вызвано, мусором его называют потому что это не нужный и не дающий правильно оценить нужный исследователю сигнал. А так, ну в природе нет мусора)))

Здесь, когда ищутся закономерности цены, не эффективности или что то другое сигналом для оценки являются воздействия каких то реальных событий или их совокупности на цену. А вот все остальные воздействия будут мусором.

Не претендуя на истинность суждения конечно))))

если уж окунуться в теорию ЦОС, то так:

полезный сигнал без мусора изначально известен (например трендовая линия, либо кривулька какая нибудь)

затем, на следующем тике, вычитается из общей массы сигналов полезный, и определяются не нужные сигналы, т.е. мусор

 
Мусорность признаков оценивается по отношению к конкретным целевым и наоборот. Если нет причинно-следственной связи, то датасет мусор весь целиком, либо один из его компонентов. И часто это не признаки, а неправильная разметка.

Потому что даже помоешный мусор можно разметить так, чтобы это было полезно. Например, отсортировать по типу или размеру.