Машинное обучение в трейдинге: теория, модели, практика и алготорговля - страница 3476

 
mytarmailS #:

Моя гипотиза обьясняет все то непонятное что твориться с ТС/МО на новых данных, и разумно обьясняет.

Шум просто ловите...

 
Aleksey Vyazmikin #:

Шум просто ловите...

почему тогда не 50/50 ?

У шума среднее = 0

 
mytarmailS #:

почему тогда не 50/50 ?

У шума среднее = 0

Так шума может 70%-80% изначально - я к таким показателям прихожу вот.

 
Aleksey Vyazmikin #:

Так шума может 70%-80% изначально - я к таким показателям прихожу вот.

какая разница сколько шума, у шума среднее = 0.

А значит обратной корреляции быть не должно, а она есть


По твоей логике должно быть так


А оно совсем не так

 
Aleksey Vyazmikin #:

Ну, вроде, сами пользуетесь терминологией:

In-sample — это данные, которые использовались для разработки и оптимизации торговой стратегии. Обычно это исторические данные о ценах, которые были протестированы с помощью различных технических индикаторов и алгоритмов.

Out-of-sample — это новые данные, которые не использовались ранее. Они помогают проверить, насколько хорошо торговая стратегия работает в новых рыночных условиях.

Независимый участок тестирования - тот, о котором алгоритм не знал при обучении/оптимизации/настройки/фантазии.

Процент отобранных результатов на периоде обучения - это число гипотез-моделей/настроек, которые были получены без использования независимого участка тестирования.

Вопрос в том, какой процент этих гипотез подтвердился, а какой оказался ошибочным.

Алгоритм поиска максимума ФФ прерывался после вычисления 3000 ФФ. Далее сортировка 3000 результатов по значению ФФ и прогон лучших 20 из них на OOS. Среди них OOS проходят иногда 50%, иногда 5% или 0%. Этот процент точно ничего не говорит о робастности ТС. Т.к. алгоритм поиска мономодальный.

 

Мне кажется, что следует немного подождать, пока оптимизаторщики намаются и устанут со своими ФФ. Тогда начнут воспринимать информацию :)

Ведь если за 20 лет ничего не произошло, какова вероятность, что что-то интересное случится?

Пока что они остановились на необходимости правильного выбора ФФ, которую никто не знает как выбирать, а если знает, то никогда не расскажет. @цитата одного из.
 
mytarmailS #:
Есть три участка

Train - (in sample) где модель обучаеться

Validate - (in sample) где оцениваються призводительность обученой модели и игра с гиперпараметрами + выбор окончательной модели

Test - (out of sample) полностью новые данные для модели 

Не точно.

Имеем файл - file

indexes             <- createDataPartition(file......,  p = .70, list = F)

in sample = Train <- file[ indexes,] 

in sample = Validate <- file[ -indexes,] 

и

Test - (out of sample) полностью новые данные для модели

И еще очень важное условие: ошибка классификации на всех трех участках НЕ может сильно отличаться. Если отличается, то переобучена и можно спокойно выбросить.
 

 
СанСаныч Фоменко #:

Не точно.

И в чем противоречие с тем что я написал? 
 
mytarmailS #:
И в чем противоречие с тем что я написал? 

Trаin - случайная выборка из файла, а  Validate - это также случайная выборка из файла, но не повторяющая Train 

 
mytarmailS #:

какая разница сколько шума, у шума среднее = 0.

А значит обратной корреляции быть не должно, а она есть


По твоей логике должно быть так


А оно совсем не так

Классы сбалансированы? SL/TP фиксированный? Спред, как я понимаю, не учитывается?

Причина обращения: