Машинное обучение в трейдинге: теория, модели, практика и алготорговля - страница 3210

 
mytarmailS #:

Гениально)))))

Как же тогда найти реальные предикторы с ошибкой на меньше 10% ?

Только не надо говорить что таких нет, это вопрос веры..

Запросто.

Выше написал как это сделал я на примере ZZ.

Но дело не в ZZ: перепевы учителя помещаем в предикторы, получаем счастье до прогона на файле вне.

А можно и не прогонять на файле ВНЕ и жить счастливым, как это делает Максим с очень красивыми картинками.

Но вернемся к проблеме заглядывания вперед. Предложил тупой перебор. А может еще что-то есть?

 
СанСаныч Фоменко #:

Вам самому интересно или совсем не интересно писать по существу проблемы, а не демонстрировать себя любимого?

Совсем не интересно решать чужие ментальные проблемы
 
mytarmailS #:

Чтобы небыло заглядывания Форестер правильно говорит, надо вычислять в цикле на кадой итерации предикторы без заглядывания..

Вот и все решение..

На примере с ZZ это было очевидно. 

Ноя часто получаю без ZZ ошибку классификации менее 10%. На поверку мусор. Выбрасывал. 

 
СанСаныч Фоменко #:

А можно и не прогонять на файле ВНЕ и жить счастливым, как это делает Максим с очень красивыми картинками.

Во сне еще и не такое почудится 
 
Maxim Dmitrievsky #:
Совсем не интересно решать чужие ментальные проблемы

Вы у нас тут главный по красивым картинкам, даже в маркете. Так это Ваша главная проблема.

 
СанСаныч Фоменко #:

Вы у нас тут главный по красивым картинкам, даже в маркете. Так это Ваша главная проблема.

У меня нет вообще никаких проблем, в том числе ментальных. Если хотите попытаться их создать - попробуйте.
 

Есть простая арифметика, что отбор признаков проводится из кучи разнородной информации, часто не относящейся к предмету исследования.

Производные ВР все относятся к этому ВР, можно лишь выбрать получше/похуже, часто это вообще не имеет смысла.

Про заглядывание молчу, это какие-то детские проблемы. Очевидно, что такая возня не привела ни к чему за многие годы. Но упорно продолжают это повторять.

А ошибки даже ин-сэмпл из-за того, что вы просто разметить сделки нормально не можете.
На новых данных могут быть варианты, такие как смещение из-за трендов, либо переобучение на непредсказываемые колебания, путаница. Лечится через коррекцию ошибок модели методом cv.

Где в ваших статьях хоть одно упоминание простых и эффективных методов коррекции ошибок?

Дайте угадаю: в рубрикаторе Р нет стрелочки на такие сакральные знания, а гуглить и думать мы не привыкли :)
 
Maxim Dmitrievsky #:

Есть простая арифметика, что отбор признаков проводится из кучи разнородной информации, часто не относящейся к предмету исследования.

Производные ВР все относятся к этому ВР, можно лишь выбрать получше/похуже, часто это вообще не имеет смысла.

Про заглядывание молчу, это какие-то детские проблемы. Очевидно, что такая возня не привела ни к чему за многие годы. Но упорно продолжают это повторять.

А ошибки даже ин-сэмпл из-за того, что вы просто разметить сделки нормально не можете.
На новых данных могут быть варианты, такие как смещение из-за трендов, либо переобучение на непредсказываемые колебания, путаница. Лечится через коррекцию ошибок модели методом cv.

Где в ваших статьях хоть одно упоминание простых и эффективных методов коррекции ошибок?

CV ошибки не лечат по своему смыслу так как представляют собой поиск оптимальных параметров с минимизацией ошибки. Если учитель и его предикторы имеют ложную корреляцию, то CV обязательно найдет что-то лучшее в этом мусоре, но проблему мусора не решит.

Проблему мусора решает "предсказательная способность", т.е. способность значений предиктора предсказывать либо один, либо другой класс. Тогда понятно, что ошибка классификации определяется тем, что одни и те же значения предиктора в одни моменты предсказывают один класс, а в другие - другой.  В Rattle даже картинки на эту тему.

 
СанСаныч Фоменко #:

CV ошибки не лечат по своему смыслу так как представляют собой поиск оптимальных параметров с минимизацией ошибки. Если учитель и его предикторы имеют ложную корреляцию, то CV обязательно найдет что-то лучшее в этом мусоре, но проблему мусора не решит.

Проблему мусора решает "предсказательная способность", т.е. способность значений предиктора предсказывать либо один, либо другой класс. Тогда понятно, что ошибка классификации определяется тем, что одни и те же значения предиктора в одни моменты предсказывают один класс, а в другие - другой.  В Rattle даже картинки на эту тему.

Ну так И? Не ищите корреляции, а ищите каузации через рандомизацию и cv. Или мне вас терверу учить?

Практически любая модель на фиксированной выборке будет иметь недостатки, если не проводить коррекцию ошибок. Потому что вы не знаете как разметить график. Если бы вы знали, но вы не знаете. У вас случайным образом правильно будет размечена всегда меньшая часть, вне зависимости от того, что вы по этому поводу думаете.
 
СанСаныч Фоменко #:

Выше упоминалась проблема, что имеется модель, имеющая прекрасные результаты на файле обучения и файле ООС. При этом я понимаю, что файл обучения может быть получен даже случайной выборкой по sample, а ООС остаток от файла обучения.

Но при прогоне модели на внешнем файле результат катастрофически плохой.

Вроде, я недавно несколько раз упоминал ООС. Но там хороший ООС был по вашей терминологии "отдельным файлом".

СанСаныч Фоменко #:

А как выявить заглядывание вперед?

Если много-проходное обучение (следующий этап использует вычисления предыдущего), то вероятность "заглядывания" велика. Какого-то общего рецепта нет, но я поступил следующим образом в одном случае.


Для ускорения вычисления нужно было избавиться от лишних тиков. Например, уменьшаешь количество тиков в 10 раз, во столько же ускоряются вычисления. Т.е. очень востребованное действие.

В моем случае я знал, какие тики мне нужны, а какие - вряд ли. В общем, собрал кастомный символ и стал проводить бэктесты на кастомном и оригинальном.

Тут важно было включить занудство и добиться совпадения на >99%. Оказалось, что изначально слишком много выкидываю, и получается иной результат (конечно, лучше, чем на оригинальном).


В итоге стал выкидывать меньше изначального, и все стало совпадать. Т.е. фактически при обучении использую двух-проходный метод.


Поэтому, наверное, для выявления заглядывания после предыдущего прохода можно использовать описанную выше проверку еще до серьезных вычислений. Ну и есть еще дедовский метод выявления заглядывания вперед - "слишком хорошо, чтобы быть правдой". Новички классным результатам радуются, матерые - расстраиваются, потому что понимают, что придется долго искать ошибку у себя.

Причина обращения: