Машинное обучение в трейдинге: теория, модели, практика и алготорговля - страница 1302

 
Maxim Dmitrievsky:

в какую сторону не копайте - везде будут находиться какие-то иллюзорные "закономерности", их можно найти в любом явлении

больше всего меня радует большое кол-во "предикторов". Откуда оно бы вообще взялось в котировках? Там 90% мусор

Именно, мусор. И каждый индикатор, взятый в отдельности, дает примерно 50/50, и, мало того, имеет оч узкий рабочий диапазон - там, где его показания действительно имеют какой-то смысл.

А вот взятые вместе... Они уже ограничивают область применимости других индикаторов, определяя как-бы область N-мерного пространства, в которой их совместные показания уже приобретают смысл. Кажется, это называется модным словом - синергия.))

По моим представлениям для работы нужно где-то 7-8 индикаторов-предикторов. Единственная проблема - они не должны измерять одно и тоже.)

 
Maxim Dmitrievsky:

Ну каждому свое, меня парит такая скурпулезность, в любом случае подгонка что так что так, главное что бы работало какое-то время

там получается что если найти оптимальную комбинацию входов\выходов то и 4-х предикторов хватает

короче компромисс между эффективностью и времязатратами нужен какой-то

В том то и дело, главное что бы работало...

И всё же, пока получается, что:

1. Большая модель будет переобучаться из-за эффекта запоминания

2. Чем лучше правило (лист/бинарное дерево) работало на истории, тем меньше у него шансов в продакшене

Иначе выходят такие граальки, с высокой точностью и высоким доходом на истории

а на экзаменационной выборке(имеется на графике) за год прибыль 1000 всего (и просадка средств примерно такая же), а точность падает до 58%.

Тесты были проведены с активацией разбиения на 1/0 при "вероятности" 0,6, а при вероятности 0,5 прибыль в районе 5000 на периоде вне обучения, но на тестовом периоде в районе 57 и график  больше гуляет, имеет меньше точность.

Значит ли это, что сверх хорошие показания на учебном периоде это залог переобучения? 

 
Aleksey Vyazmikin:

 но на тестовом периоде в районе 57 

Значит ли это, что сверх хорошие показания на учебном периоде это залог переобучения? 

Accuracy 57% на тесте - очень хорошо, даже слишком, а так да, чем сильнее разнятся результаты на лёрне и тесте тем выше вероятность оверфита.

 
Грааль:

Accuracy 57% на тесте - очень хорошо, даже слишком, а так да, чем сильнее разнятся результаты на лёрне и тесте тем выше вероятность оверфита.

Так я исхожу из того, что будущее не известно, и никто же мне не скажет, что на выборке вне обучения все будет у тебя хорошо... поэтому и ищу какую то связь.

А то, что точность (а это не Accuracy, так-как не учитываются пропущенные входы, те что классифицированы 0, когда должны были быть 1), то тут так же все не однозначно, ведь прибыль не равняется убытку - может быть прибыль больше убытка а может и наоборот. Получается, что да, модель вроде как работает, но дохода не приносит.

 
Aleksey Vyazmikin:

В том то и дело, главное что бы работало...

И всё же, пока получается, что:

1. Большая модель будет переобучаться из-за эффекта запоминания

2. Чем лучше правило (лист/бинарное дерево) работало на истории, тем меньше у него шансов в продакшене

Иначе выходят такие граальки, с высокой точностью и высоким доходом на истории

а на экзаменационной выборке(имеется на графике) за год прибыль 1000 всего (и просадка средств примерно такая же), а точность падает до 58%.

Тесты были проведены с активацией разбиения на 1/0 при "вероятности" 0,6, а при вероятности 0,5 прибыль в районе 5000 на периоде вне обучения, но на тестовом периоде в районе 57 и график  больше гуляет, имеет меньше точность.

Значит ли это, что сверх хорошие показания на учебном периоде это залог переобучения? 

как правило, да

еще чем больше признаков тем больше переобучение
 
Грааль:

Accuracy 57% на тесте - очень хорошо, даже слишком, а так да, чем сильнее разнятся результаты на лёрне и тесте тем выше вероятность оверфита.

тут для кого-то и рэндом хорошо, с ума посходили )) рэндом+7% нерэндома это плохо, но чуть лучше чем рэндом

нет, это не плохо.. это отвратительно, это вообще не модель

всем изучать азы машинного обучения и тервера в срочном порядке

тем более если график гроу ап при 57% то на него можно сразу смотреть как на переобучение, априори, и ничего дальше не анализировать
 
Maxim Dmitrievsky:

тут для кого-то и рэндом хорошо, с ума посходили )) рэндом+7% нерэндома это плохо, но чуть лучше чем рэндом

нет, это не плохо.. это отвратительно, это вообще не модель

всем изучать азы машинного обучения и тервера в срочном порядке

Какая у Ваших моделей сейчас точность за пределами обучения? И с каким периодом, как падает (изменяется) этот показатель?

У меня период вне обучения 10 месяцев.

 
Aleksey Vyazmikin:

Какая у Ваших моделей сейчас точность за пределами обучения? И с каким периодом, как падает (изменяется) этот показатель?

У меня период вне обучения 10 месяцев.

10% ошибки на тест и трейн для ~10к примеров, при увеличении плавно растет

при такой ошибке модели начали работать на новых данных

на валидации по разному, перебирать варианты надо

Алгоритмы больше не раскрываю, просто общаюсь
 
Maxim Dmitrievsky:

10% ошибки на тест и трейн для ~10к примеров, при увеличении плавно растет

при такой ошибке модели начали работать на новых данных

на валидации по разному, перебирать варианты надо

Алгоритмы больше не раскрываю, просто общаюсь

Меня вот как раз интересует информация за пределами обучения. Обучить можно крайне хорошо, но это лишь заучивание и подгонка...

 
Aleksey Vyazmikin:

Меня вот как раз интересует информация за пределами обучения. Обучить можно крайне хорошо, но это лишь заучивание и подгонка...

по результатам тестов меня пока все устраивает

реальные тесты покажут остальное

Счет на бирже, светить не хочу т.к. там руками в основном торговалось.. потом может покажу куски где бот работал
Причина обращения: