Машинное обучение в трейдинге: теория, модели, практика и алготорговля - страница 419

 
Ладно закину сюда инфу. Дело в том что у меня есть представление какие данные нужно использовать для прогнозирования рынка, но к сожалению собрать их в полной мере и в нужном виде не получается , если бы кто подсобил в организации сбора, то я бы поделился с ним оптимизатором, ну и стратегией в целом. Данные уже достаточно хороши, но чтобы было супер, нужно кое что добавить. Кто силён в програмировании и возможности получения онлайн данных с нескольких сайтов в ксв файл?
 
Mihail Marchukajtes:
Ладно закину сюда инфу. Дело в том что у меня есть представление какие данные нужно использовать для прогнозирования рынка, но к сожалению собрать их в полной мере и в нужном виде не получается , если бы кто подсобил в организации сбора, то я бы поделился с ним оптимизатором, ну и стратегией в целом. Данные уже достаточно хороши, но чтобы было супер, нужно кое что добавить. Кто силён в програмировании и возможности получения онлайн данных с нескольких сайтов в ксв файл?
Моя модель строится на многопоточных и разноплановых данных. Опыт парсинга данных имею. С удовольствием приму участие.
 

Написал в своем блоге о выборе параметров нейросети - ВЫБОР КОНФИГУРАЦИИ НЕЙРОСЕТИ.

По крайней мере на начальном этапе лучше так делать, т.е., потом, при необходимости, можно НС упростить.

Пример выбора в блоге абстрактный, но именно из подобных соображений я выбирал параметры своей НС. Результаты обучения, в общем, неплохие.

Несколько пугает объем НС - в примере уже для 3-х МА, это уже больше 100 нейронов, и это еще не ТС, а только заготовка для нее.

 
Yuriy Asaulenko:

Написал в своем блоге о выборе параметров нейросети - ВЫБОР КОНФИГУРАЦИИ НЕЙРОСЕТИ.

По крайней мере на начальном этапе лучше так делать, т.е., потом, при необходимости, можно НС упростить.

Пример выбора в блоге абстрактный, но именно из подобных соображений я выбирал параметры своей НС. Результаты обучения, в общем, неплохие.

Несколько пугает объем НС - в примере уже для 3-х МА, это уже больше 100 нейронов, и это еще не ТС, а только заготовка для нее.

Давайте попробуем так - я на выходных или на след неделе скину сюда интересные предикторы, а вы скажете свое мнение о них..? Только предикторы в виде индикаторов в мт5, 4 штуки

И можно будет устроить челлендж - кто из желающих сможет обучить НС по этим предикторам зарабатывать :) RNN Решетова c ними неплохо справляется в оптимизаторе, а вот МЛП обучить торговать по ним прибыльно пока не получилось, но я пока мало экспериментировал.

 
Maxim Dmitrievsky:

Давайте попробуем так - я на выходных или на след неделе скину сюда интересные предикторы, а вы скажете свое мнение о них..? Только предикторы в виде индикаторов в мт5, 4 штуки

И можно будет устроить челлендж - кто из желающих сможет обучить НС по этим предикторам зарабатывать :) RNN Решетова c ними неплохо справляется в оптимизаторе, а вот МЛП обучить торговать по ним прибыльно пока не получилось

Ну, до реальной торговли мне еще пилить и пилить.) А занимаюсь уже больше месяца.( Правда, эпизодически.

Ваши индикаторы посмотреть конечно интересно, но, мне оч жаль, свои выкладывать не буду. Хотя, основу (самый начальный вариант 2008 года)  можно посмотреть здесь -Butterworth Moving Average - индикатор для MetaTrader 4 . Сейчас все уже, разумеется, сделано по другому.

 
Yuriy Asaulenko:

Ну, до реальной торговли мне еще пилить и пилить.) А занимаюсь уже больше месяца.( Правда, эпизодически.

Ваши индикаторы посмотреть конечно интересно, но, мне оч жаль, свои выкладывать не буду. Хотя, основу (самый начальный вариант 2008 года)  можно посмотреть здесь -Butterworth Moving Average - индикатор для MetaTrader 4 . Сейчас все уже, разумеется, сделано по другому.


Да не вопрос, выложу, просто потому что периодически мозги в трубочку заворачиваются и нужно мнение со стороны :) 
 

Не хочу никого расстраивать, но увы большинство из вас не в курсе как правильно готовить таргеты. Все эти вдохновляющие результаты(75-80% точности) на фичах с медленных свечей(>10мин), в действительности – чистой воды потгонка. Достаточно точности в 55% чтобы Шарп ратио сделать выше 2-х, а точность 60% на медленных данных это тот самый грааль, о котором ходят легенды, Шарп ратио 3-4, никто так не торгует на реале, только ХФТ-шники, но у них другой масштаб торговых издержек, там меньше SR <2 убыточен.

 

Короче…

НЕЛЬЗЯ ЦЕЛЬЮ(target) ВИДЕТЬ ПРИЗНАКИ(features)!

То есть при расчета таргета, нельзя использовать данные, которые КАК ЛИБО используются при расчете фичей, иначе результат будет с потглядыванием. По очевидным причинам, такая “ловкость рук” как ZZ в топку, он интерполирует между экстремумами далеко в область где считаются фичи, результат получается заоблачным, хоть 90% точности без проблем, но это фэйк. На этом основании затем идут мракобесные дискусии о том что “прогноз это не главное” нужно ещё ТС смастерить уметь и тп. Так как на деле эти “90%” всё те же “любимые” 50%


Будьте благоразумны :)

 
Алёша:


Короче…

НЕЛЬЗЯ ЦЕЛЬЮ(target) ВИДЕТЬ ПРИЗНАКИ(features)!

То есть при расчета таргета, нельзя использовать данные, которые КАК ЛИБО используются при расчете фичей, иначе результат будет с потглядыванием. По очевидным причинам, такая “ловкость рук” как ZZ в топку, он интерполирует между экстремумами далеко в область где считаются фичи, результат получается заоблачным, хоть 90% точности без проблем, но это фэйк. На этом основании затем идут мракобесные дискусии о том что “прогноз это не главное” нужно ещё ТС смастерить уметь и тп. Так как на деле эти “90%” всё те же “любимые” 50%


Будьте благоразумны :)

Не могу согласиться с Вашими выводами про ZZ, как вообще с Вашими выводами.

Например, RSI. Что интерполирует ЗЗ или наоборот в этот конкретный предиктор. Между тем я могу показать, что RSI в качестве предиктора для ЗЗ обладает не плохой предсказательной способностью. А, например, машка не имеет предсказательной способности для ЗЗ и  является 100% шумом для ЗЗ - совершенно бесполезна в качестве предиктора. На основе машек можно получить модель для ЗЗ с ошибкой менее 10%, но если эту обученную модель прогнать на новом файле, не связанном с файлом обучения, то получим произвольную ошибку.

Кроме указанной Вами проблемы, что среди предикторов для ЗЗ имеются предикторы, из которых этот самый ЗЗ и получается, имеется другая проблема, которая является фундаментальной и не зависит от целевой переменной: это проблема, что предиктор НЕ имеет отношения к целевой, является для конкретной (ЗЗ не исключение) целевой переменной шумом. Шум является очень удобным предиктоором. Среди значений шума всегда можно найти значения, которые уменьшат ошибку предсказания. Когда я этого не понимал, то получал очень часто ошибку предсказания около 5%.

Но если уметь чистить исходный набор предикторов от шумовых для конкретной целевой переменной, то снизить ошибку ниже 30% крайне сложно, по-крайней мере для меня.

Окончательно: к переобучению приводят шумовые предикторы, которые являются шумом для конкретной целевой переменной и ЗЗ не исключение.   

 
СанСаныч Фоменко:

Не могу согласиться с Вашими выводами про ZZ, как вообще с Вашими выводами.

Например, RSI. Что интерполирует ЗЗ или наоборот в этот конкретный предиктор. Между тем я могу показать, что RSI в качестве предиктора для ЗЗ обладает не плохой предсказательной способностью. А, например, машка не имеет предсказательной способности для ЗЗ и  является 100% шумом для ЗЗ - совершенно бесполезна в качестве предиктора. На основе машек можно получить модель для ЗЗ с ошибкой менее 10%, но если эту обученную модель прогнать на новом файле, не связанном с файлом обучения, то получим произвольную ошибку.

Кроме указанной Вами проблемы, что среди предикторов для ЗЗ имеются предикторы, из которых этот самый ЗЗ и получается, имеется другая проблема, которая является фундаментальной и не зависит от целевой переменной: это проблема, что предиктор НЕ имеет отношения к целевой, является для конкретной (ЗЗ не исключение) целевой переменной шумом. Шум является очень удобным предиктоором. Среди значений шума всегда можно найти значения, которые уменьшат ошибку предсказания. Когда я этого не понимал, то получал очень часто ошибку предсказания около 5%.

Но если уметь чистить исходный набор предикторов от шумовых для конкретной целевой переменной, то снизить ошибку ниже 30% крайне сложно, по-крайней мере для меня.

Окончательно: к переобучению приводят шумовые предикторы, которые являются шумом для конкретной целевой переменной и ЗЗ не исключение.   


Прекрасно! Давайте подискутируем на эту крайне важную тему. Предлагаю провести ряд экспериментов, что бы разобраться, что к чему.

 

Итак, я утверждаю:

1) Правильные, синтез признаков и классификация из рандомного  пучка временных рядов рядов, на 2 класса, даёт 50 % точности(как монетка), при достаточном количестве сэмплов(от 5-10к). Если есть статистически значимое смещение точности(>51%) то есть ошибки в процессе синтеза фичей и\или классификации.

2) При использовании таргетов использующих при расчете данные, использованные при расчете признаков, мы получаем существенный смещение точности(55, 60, 90%)  НА РАНДОМНЫХ ВРЕМЕННЫХ РЯДАХ, которые априори предсказаны быть не могут(50%). А значит этот скор ложный.

 
Алёша:


2) При использовании таргетов использующих при расчете данные, использованные при расчете признаков, мы получаем существенный смещение точности(55, 60, 90%)  НА РАНДОМНЫХ ВРЕМЕННЫХ РЯДАХ, которые априори предсказаны быть не могут(50%). А значит этот скор ложный.

А зачем что-то проверять? Для меня это очевидно.

Я привел пример RSI-ZZ - ничего общего, а можно построить модель с ошибкой менее 50%.

Другой пример: машка-ZZ - запросто ошибка менее 10%. При тестировании на новом файле совершенно произвольный результат.